Digimarc推出数字水印服务以保护数字版权

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
谷歌于本周宣布,将为使用其 Magic Editor AI 功能编辑的图片添加数字水印。该水印特别适用于在 Pixel9设备上通过 Reimagine 功能进行修改的图片。这一新功能的推出旨在增强公众对 AI 生成和编辑内容的辨识能力。Reimagine 功能是2024年宣布的,它利用生成性 AI 技术对数字照片进行多方面的修改。这项功能与 Magic Editor 的其他功能类似,旨在对拍摄于设备上的图片进行美化。然而,由于 AI 的使用使得图像编辑变得更加极端,这也模糊了数字照片与完全 AI 生成图像之间的界限。随着生成性 AI 图像
MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的,主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数,展示了模型生成的音乐样本,涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。
ElevenLabs 推出的移动阅读器 App 在Android平台登陆,突破性地集文字朗读、PDF/ePub文件阅读与高品质AI语音合成技术于一身,让用户随时随地能聆听精彩文章,不论文字阅读是否便捷。支持美英加三国语言与32种语言规划,即将全球上线。其拿手的人工智能技术可模仿包括朱迪·加兰、詹姆斯·迪恩等传奇人物的声音,让用户以个性化的方式享受阅读乐趣。应用操作简易:加载文本、链接或文件后,通过底部的声音选项卡挑选风格各异的配音,包含原始、合成、克隆和标志性声音库。ElevenLabs Reader为阅读增添了声音维度,不仅是文字的盛宴,也是聆听的绝美享受。下载链接:https://play.google.com/store/apps/details?id=io.elevenlabs.readerapp
日本永旺超市利用AI系统"Smile-Kun"监控员工微笑,旨在通过量化员工的微笑及声音分析,提升服务技能。该系统要求员工通过特定方式打招呼,依据450个微表情点评分,满分为100分,并实时反馈,此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而,此举引发争议,部分网友批评做法过度量化员工个性情感,难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率,但需考虑如何在追求效时兼顾员工感受与尊严,反思员工服务的真实性和人性化管理。
Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2,预计12月推出更强大的Grok3,该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练,但如ChatGPT对比显示Grok在某些方面仍见不足,밤收购语境下的追赶仍需时间。
小红书近日上线“科技薯”账号,启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作,提供AI前沿应用、干货、情感体验等内容,该便利店内售卖包括@赵纯想等人的创意AI产品,例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动,邀请笔记写手用 "#AI便利店" 发布AI相关笔记,可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容,还通过激励机制催生更多AI创意内容。
微软研究院与北京航空航天大学团队合作推出了名为E5-V的高效多模态嵌入框架,旨在解决多模态大语言模型(MLMs)发展中存在的挑战。这一创新框架通过单模态训练简化多模态学习过程,并克服以往模型依赖独立编码器,导致输入整合效果不佳的问题。E5-V通过统一文本、图像信息,减少了训练成本,并在多个复杂任务中展现了卓越性能,如文本-图像检索、图像检索等,特别是在零样本图像检索任务上,相较于顶级模型CLIP ViT-L,性能大幅提升。该框架不仅提高了多模态数据处理的效率,更在复合图像检索任务中超越了当前先进方法,验证了其在提升模型表现上的有效性。E5-V框架代表了多模态学习领域的重要进步,未来有望在多模态研究中树立新标准并具有广泛的应用潜力。
LensGo AI推出FaceSync:将用户表演同步到图片或视频中,带来无缝的视觉体验,用户能自由表达,不受形象限制。借助AI技术,实现面部表情、声音、口型的精准捕捉及映射。正处测试阶段,优化中以确保技术稳定与表现力,目标满足用户降望与专业标准,开启无限创意探索。
英伟达公司(Nvidia)股价因新Blackwell芯片中国市场版确保美国出口管制合规而在周一早盘大幅上涨4%,股价达122.76美元。此举作为缓解半导体行业面临贸易限制与地缘政治风险的关键手段,标志着Nvidia与中国技术公司Inspur联合推出符合规定芯片的计划为市场注入了强心剂。Nvidia预报的B20黑威尔2代芯片预计于2025年第二季度发货,全面提振市场信心。整体而言,Nvidia在芯片困境下的灵活性与市场的强烈需求推动了股价在过去一年里螺旋上升超过一倍。此情此景提示了市场对Nvidia持续创新能力与未来市场前景的乐观期待。
近期,有着4050亿参数的开源大型语言模型LLama3.1因在Reddit上泄露,引发了广泛关注,被视为目前最接近GPT-4o的开源产品,甚至在某些性能上超越了GPT-4o。模型由Meta(原Facebook)推出,包括基础与70B版本的基准测试结果,在多项性能测试上均超出GPT-4o。LLama3.1在多语言支持能力与广泛训练数据集(逾15T tokens、直至2023年底)的基础上提供出色的多语言对话性能。研究团队注重模型安全,通过多方位数据收集策略,结合人工与合成数据,引入边界和对抗性提示以优化数据质量。此开源模型的泄露,不仅展示了强大性能,也成为表明开源社区对大型AI模型发展的积极贡献。