ja
AI製品ランキング
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
ホーム
AIニュース
AIデイリー
マネタイズガイド
AIチュートリアル
AIツールナビ
AI製品ライブラリ
ja
AI製品ランキング
グローバルAI製品の動向を検索
グローバルAI情報を検索して、AIの新しい機会を発見
ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル
タイプ :
ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル
2024-10-14 14:51:30
.
AIbase
.
12.4k
アップル研究チーム、新たなベンチマークGSM-Symbolicを発表:大規模言語モデルの数学的推論能力の欠点を明らかに!
最近、アップルの研究者らは大規模言語モデル(LLM)の数学的推論能力に関する詳細な研究を行い、GSM-Symbolicという新たなベンチマークテストを発表しました。この新たなベンチマークテストは、主に基本的な数学的能力を評価するために用いられるGSM8Kを基に開発されました。多くのLLMがGSM8Kにおいて性能向上を見せているものの、これらのモデルの推論能力については依然として疑問が残っており、既存の評価指標では真の能力を完全に反映できていない可能性があると科学界では考えられています。研究は…
2024-10-14 09:05:30
.
AIbase
.
12.3k
アップル研究:大規模言語モデルの推論能力に深刻な欠陥
最近、アップル社は、大規模言語モデル(LLM)の推論能力に関する研究を行い、これらのモデルの数学分野におけるパフォーマンスに対する懸念を引き起こしました。GSM8Kベンチマークは、モデルの小・中学校レベルの算数問題における推論能力を評価するために広く使用されていることは周知の事実です。LLMのGSM8Kにおけるパフォーマンスは近年向上していますが、研究者たちはその結果の信頼性に疑問を抱いています。そこで、彼らは、現在最先端のオープンソースとクローズドソースモデルのパフォーマンスを調査するための大規模な研究を行いました。モデルのより良い評価のために