グローバルAI製品の動向を検索

  • ニュース
  • 製品アプリケーション
  • マネタイズ事例
  • AIチュートリアル
2025-02-24 11:26:35.AIbase

OpenAIの社員がxAIに公開で疑問を呈する:Grok 3のベンチマークテスト結果が誤解を招く

2025-02-20 10:37:18.AIbase

OpenAIの最新ベンチマーク:AIのプログラミング能力は人間の4分の1、限界も明らかに

2025-02-18 16:55:26.AIbase

OpenAI、SWE-Lancerベンチマークを発表:現実世界のフリーランスソフトウェアエンジニアリングにおけるモデルのパフォーマンスを評価

2025-01-20 10:04:01.AIbase

AIベンチマーク組織、OpenAIからの資金非開示で批判

2025-01-06 09:18:36.AIbase

ScreenSpot-Pro:高解像度環境向けに設計されたマルチモーダルLLMベンチマークツール!

2024-12-25 09:22:05.AIbase

驚異的成果!OpenAIの新モデルo3がARC-AGIベンチマークテストで記録を更新

2024-12-20 16:10:44.AIbase

智源と騰訊が長テキスト理解ベンチマークモデルLongBench v2を発表

2024-12-15 10:23:35.AIbase

アリババ、AIベンチマーク「PROCESSBENCH」を発表、数学的推論における誤り認識能力を評価

2024-12-10 11:31:07.AIbase

ARC-AGIベンチマークが突破間近だが、開発者はテスト設計の欠陥を警告

2024-12-05 14:45:53.AIbase

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化

2024-11-25 15:09:04.AIbase

Meta、マルチターン多言語指示遵守能力を評価する新しいMulti-IFベンチマークを発表

2024-11-18 14:29:39.AIbase

拡散モデルもゲームで活躍?DIAMONDがAtari 100kベンチマークで新たなSOTAを達成

2024-11-01 10:48:10.AIbase

AI画像生成モデルの新たな寵児!Recraft v3がベンチマークテストでFlux、Ideogramを制しトップに

2024-10-31 14:28:43.AIbase

OpenAI、新たなAIベンチマークSimpleQAを発表:言語モデルの事実の正確性を評価

2024-10-21 10:42:51.AIbase

質の高いデータこそが重要!EPFLの研究:大規模言語モデルの性能は訓練データに左右される!

2024-10-14 14:51:30.AIbase

アップル研究チーム、新たなベンチマークGSM-Symbolicを発表:大規模言語モデルの数学的推論能力の欠点を明らかに!

2024-10-12 11:38:17.AIbase

OpenAIがAIエージェントの評価ベンチマークMLE-benchを発表

2024-10-11 09:35:13.AIbase

DeepMindが新たなベンチマークMichelangeloを発表:長文脈LLMの推論における欠点を明らかに

2024-09-24 10:14:10.AIbase

吉利汽車のスマート音声、新たなブレークスルー:独自開発の大規模モデルが業界のベンチマークを凌駕

2024-09-14 15:53:53.AIbase

マイクロソフト、Windows Agent Arenaを発表。AIアシスタントのWindows環境におけるパフォーマンスをテスト