零一万物公司宣布开源Yi-9B模型,该模型是Yi系列中代码和数学能力最强的,实际参数为8.8B,默认上下文长度为4K tokens。Yi-9B在综合能力、代码能力、数学能力方面均表现优异,超越了其他开源模型。同时,Yi-9B可以轻松部署在消费级显卡上,使用成本较低,开发者友好。公司由李开复创新工场董事长兼CEO创办,之前已推出Yi-34B和Yi-6B两个开源大模型,对学术研究完全开放,同步免费商用申请。
相关AI新闻推荐

OpenAI 计划未来几个月内发布一款“开源” AI模型
OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)今天在社交媒体上宣布,该公司将在未来几个月内发布一个开源的人工智能模型。这一消息引发了广泛关注,尤其是在中国公司 DeepSeek 的 R1模型取得突破性成功后,OpenAI 感受到来自同行的压力,特别是来自 Meta 公司 Llama 系列模型的竞争。阿尔特曼表示,OpenAI 早已在考虑推出开源模型,现在时机成熟,发布这样的模型变得尤为重要。开源模型意味着用户可以免费下载、修改和在本地硬件上运行,而非仅通过云端服务访问。这种模式不仅降低了使

Google 发布 TxGemma 开源模型,助力加速治疗性药物研发
近日,谷歌宣布推出全新开源模型 TxGemma,专为提升治疗性药物的研发效率而设计。这一模型由谷歌 DeepMind 团队基于其先进的 Gemma 模型家族微调开发,融合了强大的语言理解、科学预测以及多轮对话功能,旨在为药物研发领域带来革命性的突破。TxGemma 的发布被视为人工智能技术在生物医药领域的重要进展,有望大幅缩短药物从实验室到临床的周期,同时降低高昂的研发成本和失败率。全流程支持药物研发TxGemma 的核心优势在于其能够模拟药物研发的完整流程,从早期药物筛选到后期临床

开源模型逆袭:Databricks TAO 技术微调 Llama 超越 GPT-4o
近日,数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO(Test-time Adaptive Optimization),这一技术的出现为开源模型的发展带来了新的希望。通过运用无标注数据和强化学习,TAO 不仅在降低企业成本方面表现出色,更是在一系列基准测试中取得了令人瞩目的成绩。根据科技媒体 NeoWin 的报道,TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中,展现出了优于传统标注微调方法的性能,甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品

Together AI 推出全新聊天机器人服务,支持多种开源模型与搜索功能
近日,Together AI 宣布推出其全新的聊天机器人服务,为用户提供多样化的AI交互体验。据悉,该服务整合了包括 R1、Qwen 和 FLUX 在内的一系列开源模型,旨在通过强大的计算能力和开放性,为开发者与普通用户带来高效、智能的解决方案。此次推出的聊天机器人服务不仅支持多模态交互,还特别加入了搜索功能,用户可以通过自然语言查询快速获取网络信息。这一功能依托于 Together AI 的高效推理引擎和 GPU 集群,确保响应速度快且结果准确。R1模型以其推理能力著称,Qwen 则在语言处理上表

李开复重组01.AI:拥抱 Deepseek 开源模型,挑战 OpenAI 商业模式
前谷歌中国区负责人李开复正在调整他的人工智能初创公司01.AI 的战略,全面采用 Deepseek 的开源模型,并表示这对 OpenAI 的商业模式构成了生存挑战。在接受《南华早报》采访时,李开复透露他的公司已放弃之前训练专有大型语言模型的策略,转而完全依赖 Deepseek 的开源产品。他表示,Deepseek 的发布在中国引发了"ChatGPT 时刻",带动了国内硬件和软件提供商与 Deepseek 模型的整合。这一决定是在今年1月底中国企业对 Deepseek 模型需求激增后做出的。李开复认为 Deepseek 的免费开源方式对 OpenAI
谷歌前科学家出品!Reka开源Reka Flash 3,能力超Gemma 3 27B
Reka AI是由十几个谷歌DeepMind前科学家们创办的公司,近日他们掷出了其首个开源模型—— Reka Flash3。这款拥有 210亿参数 的推理模型,一经亮相便引发业内外的广泛关注。别看 Reka Flash3只有210亿参数,据官方介绍,这款模型是 从零开始训练 的通用推理模型。它不仅在 合成和公共数据集 上进行了监督式微调,还通过 基于模型和规则的强化学习(RLOO) 进行了深度优化。如此“内外兼修”,使得 Reka Flash3在性能上展现出惊人的实力,甚至 超越了 Command A 和 Gemma327B 等参数量更大的模型。更令

李开复预测:中国大模型未来或只剩DeepSeek、阿里和字节跳动三大巨头
在人工智能行业的快速发展中,国内市场的格局正在发生剧烈变化。零一万物的创始人兼首席执行官李开复在一档对话节目中发表了他的看法,指出随着 DeepSeek 的崛起,中国市场未来可能只会留下三家主要的 AI 模型公司:DeepSeek(深度求索)、阿里巴巴和字节跳动。李开复强调,DeepSeek 的影响力正在重塑整个行业的发展模式,甚至可能让 OpenAI 的创始人感到不安。他认为,DeepSeek 的创新和技术进步让其在市场竞争中占据了领先地位,不仅推动了 AI 技术的应用,也使得传统竞争对手感受到前

Orpheus TTS:情感表达贴近人类的新一代TTS模型
3月19日,一款名为Orpheus TTS的开源文本转语音(TTS)模型正式亮相。这款模型以其接近人类的情感表达、自然流畅的语音效果以及超低延迟的实时输出流特性,迅速引起关注。据悉,Orpheus TTS在实时对话场景中表现出色,有望为智能语音交互带来新突破。Orpheus TTS主打低延迟和高情感表现,其核心特点包括: - **超低延迟**:默认延迟约200毫秒,通过输入流与模型的KV缓存优化,可将延迟压缩至25-50毫秒,满足实时对话需求。 - **情感表达**:语音输出自然流畅,能够贴近人类情感,支持丰富的语

AI日报:腾讯混元推出5个开源3D模型;Anthropic发布MCP传输机制重大升级;Mistral最新开源模型Mistral Small 3.1
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、腾讯混元推出5个开源3D模型:30秒生成,兼容多平台腾讯混元宣布推出五个全新开源3D生成模型,基于Hunyuan3D-2.0,具备更快的生成速度和更丰富的细节。通过精细的训练过程,OLMo232B在多项基准测试中超越了GPT-3.5Turbo和GPT-4omini,展现出卓越的性能和更高的训练效率。

32B参数的“逆袭”!OLMo 2 32B横空出世,叫板GPT-3.5 Turbo
近日,艾伦人工智能研究所(AI2)重磅发布了其最新的大型语言模型——OLMo232B。这款模型一经亮相便自带光环,因为它不仅是OLMo2系列的最新力作,更以“完全开放”的姿态,向那些高墙深垒的专有模型发起了强有力的挑战。OLMo232B最引人注目的特点莫过于其彻彻底底的开源属性。AI2大方地公开了这款模型的所有数据、代码、权重以及详细的训练过程. 这种“坦诚相见”的做法,与一些讳莫如深的闭源模型形成了鲜明对比。AI2希望通过这种开放协作的方式,促进更广泛的研究和创新,让全