2025-02-24 11:26:35.AIbase.
OpenAIの社員がxAIに公開で疑問を呈する:Grok 3のベンチマークテスト結果が誤解を招く
2025-02-20 10:37:18.AIbase.
OpenAIの最新ベンチマーク:AIのプログラミング能力は人間の4分の1、限界も明らかに
2025-02-18 16:55:26.AIbase.
OpenAI、SWE-Lancerベンチマークを発表:現実世界のフリーランスソフトウェアエンジニアリングにおけるモデルのパフォーマンスを評価
2025-01-20 10:04:01.AIbase.
AIベンチマーク組織、OpenAIからの資金非開示で批判
2025-01-06 09:18:36.AIbase.
ScreenSpot-Pro:高解像度環境向けに設計されたマルチモーダルLLMベンチマークツール!
2024-12-25 09:22:05.AIbase.
驚異的成果!OpenAIの新モデルo3がARC-AGIベンチマークテストで記録を更新
2024-12-20 16:10:44.AIbase.
智源と騰訊が長テキスト理解ベンチマークモデルLongBench v2を発表
2024-12-15 10:23:35.AIbase.
アリババ、AIベンチマーク「PROCESSBENCH」を発表、数学的推論における誤り認識能力を評価
2024-12-10 11:31:07.AIbase.
ARC-AGIベンチマークが突破間近だが、開発者はテスト設計の欠陥を警告
2024-12-05 14:45:53.AIbase.
バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化
2024-11-25 15:09:04.AIbase.
Meta、マルチターン多言語指示遵守能力を評価する新しいMulti-IFベンチマークを発表
2024-11-18 14:29:39.AIbase.
拡散モデルもゲームで活躍?DIAMONDがAtari 100kベンチマークで新たなSOTAを達成
2024-11-01 10:48:10.AIbase.
AI画像生成モデルの新たな寵児!Recraft v3がベンチマークテストでFlux、Ideogramを制しトップに
2024-10-31 14:28:43.AIbase.
OpenAI、新たなAIベンチマークSimpleQAを発表:言語モデルの事実の正確性を評価
2024-10-21 10:42:51.AIbase.
質の高いデータこそが重要!EPFLの研究:大規模言語モデルの性能は訓練データに左右される!
2024-10-14 14:51:30.AIbase.
アップル研究チーム、新たなベンチマークGSM-Symbolicを発表:大規模言語モデルの数学的推論能力の欠点を明らかに!
2024-10-12 11:38:17.AIbase.
OpenAIがAIエージェントの評価ベンチマークMLE-benchを発表
2024-10-11 09:35:13.AIbase.
DeepMindが新たなベンチマークMichelangeloを発表:長文脈LLMの推論における欠点を明らかに
2024-09-24 10:14:10.AIbase.
吉利汽車のスマート音声、新たなブレークスルー:独自開発の大規模モデルが業界のベンチマークを凌駕
2024-09-14 15:53:53.AIbase.