月之暗面今日宣布发布全新视觉思考模型k1。这一模型基于强化学习技术,不仅支持端到端的图像理解,还整合了思维链技术,将能力扩展到了数学之外的更多基础科学领域,包括物理和化学。在基准能力测试中,k1模型的表现超越了全球领先的标杆模型,如OpenAI的o1、GPT-4o以及Claude3.5Sonnet。

新一代模型通过激励生成更详细的推理步骤,形成高质量的思维链,显著提升了解决复杂任务的成功率。Kimi的k1模型在图像理解与思考能力上的融合,为用户提供了更流畅的交互体验,能够直接处理用户输入的图像信息并得出答案,无需借助外部的OCR或额外视觉模型。

微信截图_20241216100218.png

k1模型的训练分为两个阶段,首先是预训练得到基础模型,然后在此基础上进行强化学习后训练。基础模型在OCRBench上取得了903分的优异成绩,并在MathVista-testmini、MMMU-val和DocVQA基准测试集中表现突出。强化学习后训练在数据质量和学习效率方面进行了优化,实现了规模化上的新突破。

Kimi还自主构建了一个标准化测试集Science Vista,涵盖不同难度的数理化图片题目,并将开放给全行业使用。尽管k1模型在内部测试中显示出一些局限性,如在分布外泛化、复杂问题上的成功率等方面有提升空间,但其在视觉噪声场景下的表现优于其他模型,显示出超强的视觉识别能力。

Kimi智能助手的k1视觉思考模型不仅在数学领域表现出色,还扩展到了物理和化学领域,展现出了广泛的基础科学能力。此外,k1模型还展现出了通用能力,能够解释和推理非数学问题,如科学家手稿的内容和背景故事。

Kimi智能助手期待与用户一起探索更大的世界,k1新模型已经上线,用户可以通过最新版的Kimi智能助手手机APP或网页版体验这一新功能。