相关AI新闻推荐

AI音乐生成模型MusiConGen:用Transformer生成音乐,精确控制节奏和和弦
MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的,主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数,展示了模型生成的音乐样本,涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。

ElevenLabs Reader应用上架Android 将新增32种语言支持
ElevenLabs 推出的移动阅读器 App 在Android平台登陆,突破性地集文字朗读、PDF/ePub文件阅读与高品质AI语音合成技术于一身,让用户随时随地能聆听精彩文章,不论文字阅读是否便捷。支持美英加三国语言与32种语言规划,即将全球上线。其拿手的人工智能技术可模仿包括朱迪·加兰、詹姆斯·迪恩等传奇人物的声音,让用户以个性化的方式享受阅读乐趣。应用操作简易:加载文本、链接或文件后,通过底部的声音选项卡挑选风格各异的配音,包含原始、合成、克隆和标志性声音库。ElevenLabs Reader为阅读增添了声音维度,不仅是文字的盛宴,也是聆听的绝美享受。下载链接:https://play.google.com/store/apps/details?id=io.elevenlabs.readerapp

日本超市开始用AI技术监控员工微笑 网友直呼大可不必
日本永旺超市利用AI系统"Smile-Kun"监控员工微笑,旨在通过量化员工的微笑及声音分析,提升服务技能。该系统要求员工通过特定方式打招呼,依据450个微表情点评分,满分为100分,并实时反馈,此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而,此举引发争议,部分网友批评做法过度量化员工个性情感,难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率,但需考虑如何在追求效时兼顾员工感受与尊严,反思员工服务的真实性和人性化管理。

马斯克的xAI将于下月发布Grok 2,Grok 3预计12月推出
Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2,预计12月推出更强大的Grok3,该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练,但如ChatGPT对比显示Grok在某些方面仍见不足,밤收购语境下的追赶仍需时间。

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持
小红书近日上线“科技薯”账号,启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作,提供AI前沿应用、干货、情感体验等内容,该便利店内售卖包括@赵纯想等人的创意AI产品,例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动,邀请笔记写手用 "#AI便利店" 发布AI相关笔记,可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容,还通过激励机制催生更多AI创意内容。

微软研究院推AI框架E5-V:用文本对的单模态训练简化多模态学习 降低成本
微软研究院与北京航空航天大学团队合作推出了名为E5-V的高效多模态嵌入框架,旨在解决多模态大语言模型(MLMs)发展中存在的挑战。这一创新框架通过单模态训练简化多模态学习过程,并克服以往模型依赖独立编码器,导致输入整合效果不佳的问题。E5-V通过统一文本、图像信息,减少了训练成本,并在多个复杂任务中展现了卓越性能,如文本-图像检索、图像检索等,特别是在零样本图像检索任务上,相较于顶级模型CLIP ViT-L,性能大幅提升。该框架不仅提高了多模态数据处理的效率,更在复合图像检索任务中超越了当前先进方法,验证了其在提升模型表现上的有效性。E5-V框架代表了多模态学习领域的重要进步,未来有望在多模态研究中树立新标准并具有广泛的应用潜力。

LensGo AI推FaceSync功能 可将你的声音和口型转移到目标图像
LensGo AI推出FaceSync:将用户表演同步到图片或视频中,带来无缝的视觉体验,用户能自由表达,不受形象限制。借助AI技术,实现面部表情、声音、口型的精准捕捉及映射。正处测试阶段,优化中以确保技术稳定与表现力,目标满足用户降望与专业标准,开启无限创意探索。

英伟达股价大幅上涨,因新款AI芯片符合美国出口规则
英伟达公司(Nvidia)股价因新Blackwell芯片中国市场版确保美国出口管制合规而在周一早盘大幅上涨4%,股价达122.76美元。此举作为缓解半导体行业面临贸易限制与地缘政治风险的关键手段,标志着Nvidia与中国技术公司Inspur联合推出符合规定芯片的计划为市场注入了强心剂。Nvidia预报的B20黑威尔2代芯片预计于2025年第二季度发货,全面提振市场信心。整体而言,Nvidia在芯片困境下的灵活性与市场的强烈需求推动了股价在过去一年里螺旋上升超过一倍。此情此景提示了市场对Nvidia持续创新能力与未来市场前景的乐观期待。

震惊AI界!Llama 3.1泄露:4050亿参数的开源巨兽来袭!
近期,有着4050亿参数的开源大型语言模型LLama3.1因在Reddit上泄露,引发了广泛关注,被视为目前最接近GPT-4o的开源产品,甚至在某些性能上超越了GPT-4o。模型由Meta(原Facebook)推出,包括基础与70B版本的基准测试结果,在多项性能测试上均超出GPT-4o。LLama3.1在多语言支持能力与广泛训练数据集(逾15T tokens、直至2023年底)的基础上提供出色的多语言对话性能。研究团队注重模型安全,通过多方位数据收集策略,结合人工与合成数据,引入边界和对抗性提示以优化数据质量。此开源模型的泄露,不仅展示了强大性能,也成为表明开源社区对大型AI模型发展的积极贡献。

Luma AI推Loops功能:可根据文本、图片生成丝滑无限循环视频
Luma AI, 一家位于旧金山的人工智能公司, 正式推出了其名为 “Loops” 的 Dream Machine 平台新功能。这一功能使用户能够通过文本描述、图片或关键帧一键制作无缝、连续的视频循环, 简化了视频创作过程,极大地提高了效率。特别是对于内容创作者和数字营销人员而言,此功能使得无限循环视频成为可能,大幅减少了制作时间和成本。Luma AI 在其官方推特上展示了该功能的众多创意应用案例,如宇宙飞船穿越超空间的画面、水豚在公园骑自行车的场景,展示了创作出完美循环视频的潜力。 值得注意的是,“Loops” 功能解决了 AI 生成视频时常见的不连贯性问题,以平滑流畅的效果吸引观众,降低制作门槛。Luma AI 对 AI 开发秉持负责任态度,已计划引入水印和归属系统,保证内容透明度。未来,Luma AI 计划推出 API 和插件,旨在与流行创意软件集成,进一步拓展影响力。总之,作为新功能,Luma AI 的“Loops”正以高度创新和实用性改变视频创作领域,同时关注技术与伦理的平衡。