腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年3月25号 10:08

138

腾讯近日宣布推出其最新的大型语言模型——混元-T1，并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。

据腾讯介绍，混元-T1在开发过程中高度依赖强化学习，高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。

在多项基准测试中，混元-T1展现出强大的性能。在测试14个学科知识的MMLU-PRO评估中，该模型取得了87.2分，仅略低于OpenAI的o1模型。在科学推理方面，浑元-T1在GPQA-diamond测试中获得了69.3分。

尤其值得一提的是，腾讯强调混元-T1在数学方面的卓越表现。其在MATH-500基准测试中获得了高达96.2分的成绩，仅次于Deepseek-R1。此外，该模型在代码生成（LiveCodeBench:64.9分）和高难度推理(ArenaHard:91.9分)等方面也表现出色。腾讯还指出，混元-T1在多项中文任务上的准确率超过90%。

在模型训练方面，腾讯采用了课程学习的方法，逐步增加任务难度。此外，该公司还创新性地开发了自我奖励系统，利用模型的早期版本评估新版本的输出，从而驱动模型性能的持续提升。

混元-T1采用了Transformer Mamba混合架构，腾讯声称在相同条件下，该架构处理长文本的速度是传统模型的两倍。目前，Hunyuan-T1已通过腾讯云对外开放，并且在Hugging Face上提供了演示。

此次发布是继百度和阿里巴巴相继推出其声称达到o1水平的自研模型后，中国科技巨头在AI领域展开竞争的又一重要举措。值得注意的是，阿里巴巴、百度和Deepseek都在积极推行开源战略。人工智能投资者、前谷歌中国区总裁李开复此前曾公开表示，这些中国AI模型的发展对OpenAI构成了潜在的生存威胁。

清华与蚂蚁数科携手突破：BodyGen助力机器人性能跃升 60%

近年来，具身智能热度飙升，从春晚机器人精彩表演，到被写入政府工作报告，再到英伟达黄仁勋多次力推，它已成为AI领域的焦点。具身智能旨在让机器人像人类一样，在真实世界中精准感知、灵活应对。清华大学与蚂蚁数科的研究团队带来重大突破，他们在ICLR2025发表的论文中提出BodyGen算法框架。这一框架结合强化学习与深度神经网络技术，能让机器人短时间内自动演化出适应环境的最优形态及控制策略，实测性能提升60%，且代码已在GitHub开源。传统机器人设计面临诸多难题，如依赖

阿里推出全新多模态模型 Qwen2.5-VL-32B：兼顾视觉语言与数学推理

在人工智能领域，阿里巴巴再次带来了重磅消息。近日，阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。这款新模型是 Qwen2.5系列中的一员，其他版本包括3B、7B 和72B，而32B 版本在保持性能的同时，更加注重便捷的本地运行体验。Qwen2.5-VL-32B 经过强化学习的优化，在多个方面表现出色。首先，它的回答更加符合人类的认知习惯，这意味着用户在与模型互动时，将能获得更自然和流畅的交流体验。其次，这款模型在数学推理能力方面的提升也十分显著。无论是复杂的数学题还是几何体

韩国AI芯片初创公司FuriosaAI拒绝Meta 8亿美元收购

据韩国当地媒体报道，专注于人工智能应用芯片研发的初创公司FuriosaAI近日拒绝了科技巨头Meta提出的高达8亿美元的收购要约。FuriosaAI方面表示，将继续专注于自主研发和生产其AI芯片。报道指出，此次收购谈判破裂的主要原因在于收购后双方在业务战略和组织结构方面存在分歧，而非收购价格本身。与众多致力于构建大型语言模型（LLM）的科技公司类似，Meta一直在积极寻求降低对AI芯片巨头英伟达的依赖。英伟达的芯片在LLM的训练和构建领域占据主导地位。为此，Meta去年推出了其定制AI

中国AI黑马DeepSeek-V3震撼登场:20令牌/秒运行速度，能否改写AI格局?

中国人工智能初创公司DeepSeek悄然发布了大型语言模型DeepSeek-V3-0324，在人工智能行业引发了震动。该模型以641GB的体量现身于AI资源库Hugging Face，此次发布延续了DeepSeek低调却极具影响力的风格，没有大肆宣传，仅附带空的README文件和模型权重。这款模型采用MIT许可，可免费用于商业用途，且能在消费级硬件——配备M3Ultra芯片的苹果Mac Studio上直接运行。AI研究人员Awni Hannun在社交媒体透露，4位量化版本的DeepSeek-V3-0324在512GB的M3Ultra芯片上，运行速度超20令牌/秒。尽管Mac Studio价格高昂，但能在