AI製品ランキング

AI製品ランキング

グローバルAI製品の動向を検索

グローバルAI情報を検索して、AIの新しい機会を発見

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

タイプ :

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

2025-01-16 15:46:26.AIbase

阿里云、新たな数理推論モデルQwen2.5-Math-PRMを発表。7BバージョンはGPT-4oを凌駕

本日、阿里云通義チームは、新たな数理推論プロセス報酬モデルQwen2.5-Math-PRMを発表しました。72Bと7Bの2つのサイズが提供され、同種のオープンソースプロセス報酬モデルを大幅に上回る性能を示し、特に推論エラーの識別において顕著な成果を上げています。特に7Bバージョンは、業界で広く利用されているGPT-4oを上回る驚異的な成果を達成し、阿里云の数理推論モデル開発における重要な一歩となりました。

阿里云、新たな数理推論モデルQwen2.5-Math-PRMを発表。7BバージョンはGPT-4oを凌駕

2024-12-15 10:23:35.AIbase

アリババ、AIベンチマーク「PROCESSBENCH」を発表、数学的推論における誤り認識能力を評価

先日、アリババのQwenチームの研究者らが、「PROCESSBENCH」という新しいベンチマークを発表しました。これは、言語モデルが数学的推論における過程の誤りを識別する能力を測定することを目的としています。言語モデルが複雑な推論タスクで顕著な進歩を遂げる中、研究者らは、モデルは優れたパフォーマンスを示すものの、一部の難しい問題では依然として課題に直面していることを発見しました。そのため、効果的な監督方法の開発が非常に重要になります。現在、言語モデルの評価ベンチマークにはいくつかの欠点があります。一つは…

アリババ、AIベンチマーク「PROCESSBENCH」を発表、数学的推論における誤り認識能力を評価