1000 个 AI 产品融资,巨头遭受剧烈冲击:谁是下一个 “GPT”?

近日,xAI 公司推出的最新人工智能模型 Grok3在美国 App Store 上迅速攀升至榜首,成为用户热议的焦点。这一成就的背后,除了 Grok3的强大功能外,还有两位华人学者的出色贡献。他们分别是多伦多大学的助理教授 Jimmy Ba 和 xAI 的联创吴怀宇(Tony Wu)。值得注意的是,吴怀宇不仅是团队中唯一的95后,而且他的学术背景和开发经历更是引人瞩目,曾参与了 AlphaGeometry 和 AlphaStar 的核心开发。在刚刚结束的发布会上,Grok3展示了其在推理、数学、编码等多个领域的卓越能力。xAI 的官方博客称其
北京时间,2025年2月21日,专注于探索通用人工智能(AGI)的 DeepSeek AI 团队在社交媒体上发布了一则振奋人心的消息,正式拉开了他们参与 #OpenSourceWeek 活动的序幕。这家小型但充满雄心的技术团队宣布,从下周开始,他们将开源5个代码仓库,以完全透明的方式与全球开发者社区分享他们的研究进展。
近年来,随着大型语言模型(LLMs)的快速发展,自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景,展现了强大的能力。然而,传统的 “下一个 token 预测” 范式存在一定局限性,尤其是在处理复杂推理和长期任务时,模型需要经历大量训练才能掌握深层次的概念理解。为了解决这一问题,Meta 等机构的研究者们提出了一种名为 “连续概念混合”(CoCoMix)的新颖预训练框架。这一方法不仅保留了下一个 token 预测的优点,还引入了
乐天集团宣布推出其首个日本大语言模型(LLM)和小语言模型(SLM),命名为Rakuten AI2.0和Rakuten AI2.0mini。这两款模型的发布旨在推动日本的人工智能(AI)发展。Rakuten AI2.0基于混合专家(MoE)架构,是一款8x7B 的模型,由八个各自拥有70亿参数的模型组成,每个模型充当一个专家。每当处理输入的 token 时,系统会将其发送给最相关的两个专家,由路由器负责选择。这些专家和路由器不断通过大量的高质量日英双语数据进行联合训练。Rakuten AI2.0mini 则是一款全新的、参数量为15亿的稠密模型,专为