ja
AI製品ランキング
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
ホーム
AIニュース
AIデイリー
マネタイズガイド
AIチュートリアル
AIツールナビ
AI製品ライブラリ
ja
AI製品ランキング
グローバルAI製品の動向を検索
グローバルAI情報を検索して、AIの新しい機会を発見
ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル
タイプ :
ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル
2025-01-16 15:46:26
.
AIbase
.
14.8k
阿里云、新たな数理推論モデルQwen2.5-Math-PRMを発表。7BバージョンはGPT-4oを凌駕
本日、阿里云通義チームは、新たな数理推論プロセス報酬モデルQwen2.5-Math-PRMを発表しました。72Bと7Bの2つのサイズが提供され、同種のオープンソースプロセス報酬モデルを大幅に上回る性能を示し、特に推論エラーの識別において顕著な成果を上げています。特に7Bバージョンは、業界で広く利用されているGPT-4oを上回る驚異的な成果を達成し、阿里云の数理推論モデル開発における重要な一歩となりました。
2024-12-15 10:23:35
.
AIbase
.
14.0k
アリババ、AIベンチマーク「PROCESSBENCH」を発表、数学的推論における誤り認識能力を評価
先日、アリババのQwenチームの研究者らが、「PROCESSBENCH」という新しいベンチマークを発表しました。これは、言語モデルが数学的推論における過程の誤りを識別する能力を測定することを目的としています。言語モデルが複雑な推論タスクで顕著な進歩を遂げる中、研究者らは、モデルは優れたパフォーマンスを示すものの、一部の難しい問題では依然として課題に直面していることを発見しました。そのため、効果的な監督方法の開発が非常に重要になります。現在、言語モデルの評価ベンチマークにはいくつかの欠点があります。一つは…