文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

阿里发布旗舰推理模型Qwen3-Max-Thinking,参数量超万亿,预训练数据达36T Tokens。该模型通过强化学习训练,在事实知识、数学推理等方面表现优异,已接入千问PC端和网页端,App即将支持。用户可一键切换体验更强推理能力。

蚂蚁集团旗下灵波科技开源高精度空间感知模型LingBot-Depth,基于奥比中光双目3D相机数据,提升环境深度感知与三维空间理解能力,助力机器人、自动驾驶等智能终端实现更精准可靠的三维视觉,突破行业关键难题。
我国科研团队在《自然·机器智能》发表重大突破,推出全球首个兼具“自主出题”与“自动解题”能力的通用人工智能系统“通矩模型”。这标志着AI在数学推理领域从被动模仿转向主动创造,实现了从“解题机器”到“数学创作者”的范式转变。

英伟达发布Earth-2天气预报AI模型,利用人工智能提升全球气象预测精度与效率。其核心突破在于中程预报模型性能超越谷歌,且架构设计回归简洁,有望应对极端天气挑战。

阿里巴巴发布Qwen3-Max-Thinking推理模型,参数量超万亿,在复杂推理、事实知识及智能体能力上实现显著提升。该模型采用大规模强化学习训练,引入自适应工具调用和测试时扩展技术,综合性能已媲美GPT-5.2-Thinking等国际顶尖模型。

Anthropic为Claude推出交互式应用集成功能,用户可在对话界面直接调用外部办公工具,无需切换页面。首批集成应用包括Slack、Canvas等,覆盖企业办公核心环节,提升工作效率。

腾讯混元发布图像3.0图生图模型,已在元宝助手和官网上线。该模型采用混合专家架构,参数量达800亿,能根据用户指令智能编辑图片,实现“会思考”的图像处理。

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、腾讯发布混元图像3.0图生图模型:语义理解驱动,“一句话”实现精准修图腾讯混元图像3.0图生图模型凭借强大的语义理解与推理能力,为用户提供高效的图像编辑和多图融合功能,标志着大模型P图进入“意图驱动”的时代。其轻量化部署、高认知素养和强应用落地能力,重塑了光学领域的研发范式,成为科学家与工程师的数字化搭档。

腾讯混元发布80B参数图像3.0图生图模型,具备语义理解与推理能力,补齐图像编辑与多图融合版图,已在腾讯元宝全端上线。
腾讯年会上,马化腾宣布AI应用“元宝”将于2月1日启动春节分10亿元现金活动,单人最高可领万元,意在复制微信红包的成功。同时,腾讯揭晓了此前保密的社交AI项目“元宝派”,正式将AI融入其核心社交领域。该项目旨在打造AI深度参与的多人社交空间,AI可总结群聊、担任健身与阅读伙伴等角色。