欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、字节跳动推出AI模型社区平台:炉米Lumi 类似Liblib和CIvitai

字节跳动最新推出的AI模型分享社区平台炉米Lumi,展示其在AI领域的全面布局策略。平台提供模型上传分享、Workflow搭建和LoRA训练功能,目前仅向白名单用户开放。与LiblibAI相似,炉米Lumi将成为字节跳动在AI领域的重要布局。

image.png

【AiBase提要:】

🚀 炉米Lumi是字节跳动最新推出的AI模型分享社区平台,提供模型上传分享和训练功能。

💡 与LiblibAI功能定位相似,炉米Lumi展示了字节跳动在AI领域的全面布局策略。

💥 字节跳动在AI领域已有广泛布局,包括大模型、ChatBot、AI社交、AI虚拟陪伴等多个领域。

产品入口:https://top.aibase.com/tool/lumilumi

2、神秘大模型“小熊猫”身份揭晓:英国AI公司最新图像生成模型Recraft V3

我对最新揭晓的英国AI公司Recraft V3图像生成模型进行了点评。该模型以red_panda化名引起关注,具备强大的长文本图像生成能力,突出的文本布局和样式控制功能让用户可以精确创造专业品质的视觉效果。

image.png

【AiBase提要:】

🔍 Recraft V3实为英国AI初创公司Recraft AI推出的最新图像生成模型,以red_panda身份引发关注。

💡 Recraft V3在Artificial Analysis排行榜上以1172的ELO评分领先其他模型,收获超过10万次投票。

🚀 Recraft V3具备强大的长文本图像生成能力,增强的文本布局和样式控制功能,特别适用于品牌推广、营销和复杂图形设计领域。

详情链接:https://www.recraft.ai/

3、OpenAI宣布ChatGPT高级语音模式登陆Windows和Mac平台

OpenAI今日宣布,ChatGPT的高级语音模式(AVM)正式登陆Windows和Mac平台,基于GPT-4o模型开发,提供更自然的实时对话交互体验。用户反馈良好,但部分地区暂时无法使用。系统新增五种语音选项,支持打断和停顿,满足用户更接近人际交流的需求。AI回答准确率高,用户满意度达96%。ChatGPT还推出网页版聊天历史搜索功能,持续突破语音交互技术领域,市场推广效果待观察。

【AiBase提要:】

🔊 ChatGPT的高级语音模式(AVM)正式登陆Windows和Mac平台,提供更自然的实时对话交互体验。

🌐 系统新增五种语音选项,支持打断和停顿,满足用户更接近人际交流的需求。

💬 用户反馈良好,AI回答准确率高,用户满意度达96%。ChatGPT还推出网页版聊天历史搜索功能,持续突破语音交互技术领域。

4、专为苹果AI而生!苹果宣布推出M4Max芯片

苹果公司最新推出的M4Pro和M4Max芯片为Mac电脑带来显著性能提升和先进功能。这些芯片采用领先的制程工艺,优化了性能和能效,为专业和AI任务提供优异表现。

【AiBase提要:】

🚀 M4系列芯片采用第二代3纳米制程工艺,提升性能和能效。

💻 M4Pro和M4Max芯片支持雷雳5和统一内存带宽提升,为Mac带来更强大的功能和速度。

🧠 M4、M4Pro和M4Max芯片搭载神经网络引擎和机器学习加速器,为用户带来全新的智能化体验。

5、OpenAI 重磅升级实时 API:除了降价超50%,还推五种新语音

OpenAI 最新更新了实时 API,推出五种新的语音选项,降低了缓存费用,提供更经济实惠的开发体验。新语音包括生动可调节的 Ash、Verse 和英国风格的 Ballad,提供更自然的交流体验。然而,实时 API仍在测试阶段,无法提供客户端身份验证,且网络条件影响音频处理可靠性。开发者可通过降价和缓存功能吸引更多用户使用。

image.png

【AiBase提要:】

🌟 新增五种自然语音,提升语音应用体验

💰 实时 API通过缓存降低输入费用,开发者更划算

⚡ 实时音频处理受网络条件影响,可靠性需关注

6、好莱坞黑科技!Wonder Dynamics发布视频转3D功能

Wonder Dynamics发布了颠覆性的AI工具Wonder Animation测试版,利用人工智能重新定义影视制作流程。这项技术让创作者可以轻松转换素材为包含CG角色的3D动画场景,实现完整虚拟场景编辑。

【AiBase提要:】

✨ 创作者可使用任何相机、在任何场地拍摄,通过AI转换为3D动画场景

🎬 强大的场景重建能力,精确还原摄像机与角色、环境的位置关系和运动轨迹

🚀 让艺术家保持创作控制权,更容易制作全动画电影

详情链接:https://top.aibase.com/tool/wonder-dynamics

7、谷歌重磅升级AI语音技术:2分钟对话3秒生成,将彻底改变人机交互方式

谷歌最新发布的语音生成技术再次刷新了业界标准,突破性技术能在3秒内生成长达2分钟的自然对话,确保多说话人之间的语音连贯性和音质表现。该技术已在多个谷歌产品中得到应用,全球范围内改变着人们与数字助手和AI工具的交互方式。

【AiBase提要:】

✨ 高效语音编解码器,每秒600比特低比特率下压缩音频,保持高质量输出。

🔍 专门的Transformer架构,处理信息层次结构,预训练并微调在高质量对话数据集上。

🌐 SynthID技术整合,为AI生成的音频内容添加水印,确保技术负责任使用。

详情链接:https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

8、面壁智能与百度智能云达成合作

面壁智能与百度智能云宣布战略合作,共同致力于开发大模型端云协同解决方案。合作将提升大模型在智能终端、边缘计算等应用场景中的效果,降低推理成本,提升响应速度,提高用户体验和业务效率。面壁智能发布MiniCPM3.0和MiniCPM-V2.6,实现对GPT系列的赶超,引发国内外高度关注。

image.png

【AiBase提要:】

🤝 合作共同开发大模型端云协同解决方案,提升模型效果、降低成本、提高响应速度。

🚀 发布MiniCPM3.0,4B模型参数规模赶超GPT-3.5,在多领域脱颖而出。

💡 发布MiniCPM-V2.6,全面对标GPT-4V级水平,实现实时视频、多图联合理解,引发国内外关注。

9、19年亏损终结!Reddit CEO发文感谢AI帮助网站首度盈利

Reddit 经过19年的亏损,终于在上市后迎来了利润。第三季度净收入达到2990万美元,营收348.4亿美元,同比增长68%。CEO 哈夫曼表示,人工智能是实现盈利的关键。未来计划加速产品路线图,提升用户搜索体验。

【AiBase提要:】

🌟 Reddit 首次实现盈利,第三季度净收入2990万美元。

📈 用户增长显著,日活跃用户数达9700万,多次突破1亿。

🤖 人工智能助力翻译功能扩展,预计到2025年将覆盖30个国家。

10、波士顿动力新款Atlas机器人:全电动、完全自主,成功完成复杂任务

波士顿动力公司发布了新一代人形机器人Atlas的精彩视频,展示了其在模拟工厂环境中独立完成分拣任务的能力。视频强调了Atlas利用机器学习和升级传感器实现实时环境反馈与调整的特点,展示了完全自主工作能力。

【AiBase提要:】

🤖 波士顿动力展示了全电动Atlas机器人,能够独立完成复杂的分拣任务。

🔧 Atlas利用机器学习和升级传感器,实现了实时的环境反馈与调整。

💡 视频中显示“完全自主”的水印,强调了其在最少人类干预下的工作能力。

11、清华大学推出突破性音源仿真平台SonicSim

清华大学研究团队发布了名为SonicSim的移动音源仿真平台,解决了语音处理领域移动声源场景下数据缺乏的难题。该平台模拟真实声学环境,为语音分离和增强模型提供优质数据支持。SonicSim有效解决了现有数据集难以满足移动声源场景需求的问题。

【AiBase提要:】

🔊 SonicSim平台基于Habitat-sim构建,模拟真实声学环境

🎙 SonicSet数据集使用多场景移动音源数据,确保数据真实性和多样性

🚀 在SonicSet数据集上训练的模型取得更优异性能,证明SonicSim有效模拟真实声学环境

详情链接:https://arxiv.org/pdf/2410.01481

12、百川智能发布一站式解决方案 帮助企业最低成本私有化部署模型

百川智能科技推出的一站式解决方案旨在帮助企业以低成本实现大模型的私有化部署,并提高效率。该解决方案包括全链路优质通用训练数据、Baichuan4-Turbo和Baichuan4-Air两款模型,以及全链路领域增强工具链,能够满足企业在不同场景下的需求。

【AiBase提要:】

🔑 高达96%的多场景可用率,领先行业

🚀 Baichuan4-Turbo在核心能力上有显著提升,部署成本低

💡 Baichuan4-Air采用MoE模型,推理成本极低,降低企业运营成本

详情链接:https://platform.baichuan-ai.com/homePage