AI製品ランキング

AI製品ランキング

グローバルAI製品の動向を検索

グローバルAI情報を検索して、AIの新しい機会を発見

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

タイプ :

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

2025-02-24 11:26:35.AIbase

OpenAIの社員がxAIに公開で疑問を呈する：Grok 3のベンチマークテスト結果が誤解を招く

最近、人工知能ベンチマークテストに関する議論が公の場で激化しています。OpenAIの社員がマスク創設のAI企業xAIが誤解を招くGrok3のベンチマークテスト結果を発表したと非難し、xAIの共同創設者イーゴール・バブシンキンは会社に問題はないと主張しています。この事態の発端は、xAIがブログにGrok3のAIME2025テストでのパフォーマンスを示すグラフを発表したことです。AIME2025は最近行われた数学招待大会の一環です。

OpenAIの社員がxAIに公開で疑問を呈する：Grok 3のベンチマークテスト結果が誤解を招く

2024-12-25 09:22:05.AIbase

驚異的成果！OpenAIの新モデルo3がARC-AGIベンチマークテストで記録を更新

OpenAIが発表した最新のモデルo3が、ARC-AGIベンチマークテストで驚異的なスコアを達成しました。標準計算条件下では75.7％、高計算バージョンでは87.5％という高得点を記録しました。この成果はAI研究界に衝撃を与えましたが、人工汎用知能（AGI）が解明されたことを証明するものではありません。ARC-AGIベンチマークテストは、抽象推論コーパス（Abstract Reasoning Corpus）に基づいており、AIシステムが新しいタスクに適応する能力を評価することを目的としています。

驚異的成果！OpenAIの新モデルo3がARC-AGIベンチマークテストで記録を更新

2024-12-20 16:10:44.AIbase

智源と騰訊が長テキスト理解ベンチマークモデルLongBench v2を発表

2024年12月19日の発表会で、智源研究院と騰訊は、大規模言語モデル（LLM）の現実世界の長いテキストにおけるマルチタスクでの深い理解と推論能力を評価するために設計されたベンチマークテスト、LongBench v2を発表しました。このプラットフォームは、長テキストモデルの理解と推論能力の向上を目指しており、現在の長テキスト大規模言語モデルのアプリケーションにおける課題に対応しています。

智源と騰訊が長テキスト理解ベンチマークモデルLongBench v2を発表

2024-11-01 10:48:10.AIbase

AI画像生成モデルの新たな寵児！Recraft v3がベンチマークテストでFlux、Ideogramを制しトップに

画像AIスタートアップのRecraftが、最新のテキスト生成画像モデルRecraft v3を発表しました。このモデルは独立テストで優れた性能を示し、画像生成のパフォーマンス基準を塗り替えました。Recraftによると、v3モデルは、画像内のテキストの生成、解剖学的正確性の維持、プロンプトの理解、高品質なビジュアルコンテンツの作成において優れた性能を発揮します。最大の進歩は、一度の生成で長いテキストを正確に表示できる点です。他の多くのモデルでは、数単語を超えるテキストを処理するとしばしば問題が発生します。

AI画像生成モデルの新たな寵児！Recraft v3がベンチマークテストでFlux、Ideogramを制しトップに

2024-09-14 15:53:53.AIbase

マイクロソフト、Windows Agent Arenaを発表。AIアシスタントのWindows環境におけるパフォーマンスをテスト

マイクロソフトは最近、人工知能アシスタントの実際のWindowsオペレーティングシステム環境におけるパフォーマンスをテストするために設計された新しいプラットフォーム、Windows Agent Arena（WAA）を発表しました。この革新的なベンチマークテストツールは、AIアシスタントの開発を加速し、様々なアプリケーションで複雑な計算タスクを実行し、人間とコンピューターのインタラクションの効率性を向上させることを目的としています。研究チームはarXiv.orgで論文を発表し、大規模言語モデルがコンピューターアシスタントとして大きな可能性を示していることを指摘しています。

マイクロソフト、Windows Agent Arenaを発表。AIアシスタントのWindows環境におけるパフォーマンスをテスト

2024-08-07 16:35:17.AIbase

北大・通研院、超難基基準LooGLEを発表　長文理解テストで巨大言語モデルは全滅！

長文脈理解は自然言語処理分野における重要な課題であり、特に大規模言語モデル（LLM）がコンテキストウィンドウサイズを超えるテキストを処理する場合に顕著です。この問題に対処するため、研究者らはLooGLEベンチマークテストを開発しました。これは、超長文書（平均19.3k単語、計776篇、多様な分野を網羅）を処理する際のLLMの長文脈理解能力を評価することを目的としています。LooGLEは、短依存関係と長依存関係を網羅する7つのタスクを含んでおり、様々な長さのテキストに対するモデルの理解度を評価します。テストデータは2022年以降の公開文献から取得されています。

北大・通研院、超難基基準LooGLEを発表　長文理解テストで巨大言語モデルは全滅！

2024-06-17 14:58:57.AIbase

清華大学と北京大学が共同で長尺動画理解ベンチマークテストLVBenchを発表

最近、智譜、清華大学、北京大学は共同で、LVBenchと呼ばれる長尺動画理解ベンチマークテストプロジェクトを発表しました。既存のマルチモーダル大規模言語モデルは短尺動画の理解において目覚ましい進歩を遂げていますが、数時間の長尺動画を処理する際には依然として課題に直面しています。この空白を埋めるために、LVBenchが開発されました。

清華大学と北京大学が共同で長尺動画理解ベンチマークテストLVBenchを発表

2023-12-25 10:10:48.AIbase

グーグル、AIシステムGeminiを発表、AI分野での影響力拡大を目指す

グーグルが新型人工知能システムGeminiを発表しました。このシステムは複数のベンチマークテストにおいて既存モデルを上回る卓越した性能を示しています。Geminiシステムは、グーグルDeepMindによって開発され、テキスト、画像、音声、ビデオ、コードなど、多様なモードをサポートしています。様々な使用事例に合わせて最適化された3つのバージョンが用意されています。競合他社と比較して、Geminiシステムは性能格差の縮小に成功しています。Geminiシステムの多機能性は、クラウドサービスなどの分野における商業化の可能性を広げます。

2023-08-09 14:07:10.AIbase

清華大学チームが主導、初のAIエージェントの体系的ベンチマークテストが登場

初のAIエージェントの体系的ベンチマークテストが登場。25種類の異なる言語モデルに対する包括的な評価結果によると、GPT-4は抜きん出ている。最先端の商用言語モデルは複雑な環境下で優れた性能を発揮し、オープンソースモデルとの間に顕著な差が見られた。研究チームは、オープンソースモデルの学習能力のさらなる向上を提言している。