AI圈再掀巨浪!阿里巴巴震撼发布并全面开源了其最新力作——通义千问QwQ-32B推理模型。这款被寄予厚望的新模型,并非徒有虚名,而是经过大规模强化学习的千锤百炼,在硬核的数学运算、复杂的代码编写以及通用的AI能力上实现了质的飞跃,整体性能已经能够正面硬刚行业标杆DeepSeek-R1,实力不容小觑。更令人兴奋的是,通义千问QwQ-32B一举打破了高性能AI模型“高价难用”的魔咒。它如同AI界的“平民英雄”,大幅降低了部署和使用门槛,即使是普通玩家的消费级显卡,也能轻松驾驭,实
波士顿动力公司于本周三宣布了一项新合作,旨在提升其电动 Atlas 人形机器人的强化学习能力。这一合作伙伴关系是与机器人与人工智能研究所(RAI Institute)建立的,后者曾名为波士顿动力人工智能研究所。该研究所由前麻省理工学院教授、波士顿动力前 CEO 马克・雷伯特创立于2022年,旨在继续推动为波士顿动力奠定基础的研究。波士顿动力和 RAI 研究所之间的合作得益于现代汽车的支持。现代汽车在2021年收购了波士顿动力,并对研究所提供资金支持,使雷伯特能够探索更多实验性和前
近日,DeepSeek 宣布推出其首个通过强化学习 (RL) 训练的推理模型 DeepSeek-R1,该模型在多个推理基准测试中取得了与 OpenAI-o1-1217相当的性能。 DeepSeek-R1基于 DeepSeek-V3-Base 模型,并采用了多阶段训练和冷启动数据来提高推理能力。DeepSeek 的研究人员首先开发了 DeepSeek-R1-Zero,这是一个完全通过大规模强化学习训练的模型,没有任何监督微调的预备步骤。DeepSeek-R1-Zero 在推理基准测试中展现出卓越的性能,例如在 AIME2024考试中,其 pass@1分数从15.6% 提升至71.0%。然而,DeepSeek-R1-Zero 也存在一些问题
OpenAI 近日在 AI 安全领域展示了其更为积极的红队测试策略,超越了其竞争对手,尤其是在多步强化学习和外部红队测试这两个关键领域。公司发布的两篇论文为提升 AI 模型的质量、可靠性和安全性设立了新的行业标准。第一篇论文《OpenAI 的 AI 模型与系统外部红队测试方法》指出,外部专业团队在发现内部测试可能遗漏的安全漏洞方面极为有效。这些外部团队由网络安全和特定领域的专家组成,能够识别模型安全边界的缺陷,以及模型中的偏差和控制问题。第二篇论文《多样化和有效的