AI製品ランキング

AI製品ランキング

グローバルAI製品の動向を検索

グローバルAI情報を検索して、AIの新しい機会を発見

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

タイプ :

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

2025-02-24 11:26:35.AIbase

OpenAIの社員がxAIに公開で疑問を呈する：Grok 3のベンチマークテスト結果が誤解を招く

最近、人工知能ベンチマークテストに関する議論が公の場で激化しています。OpenAIの社員がマスク創設のAI企業xAIが誤解を招くGrok3のベンチマークテスト結果を発表したと非難し、xAIの共同創設者イーゴール・バブシンキンは会社に問題はないと主張しています。この事態の発端は、xAIがブログにGrok3のAIME2025テストでのパフォーマンスを示すグラフを発表したことです。AIME2025は最近行われた数学招待大会の一環です。

OpenAIの社員がxAIに公開で疑問を呈する：Grok 3のベンチマークテスト結果が誤解を招く

2025-02-20 10:37:18.AIbase

OpenAIの最新ベンチマーク：AIのプログラミング能力は人間の4分の1、限界も明らかに

OpenAIは先日、AIのプログラミング能力を評価する重要なレポートを発表しました。100万ドル相当の実開発プロジェクトを通じて、AIがソフトウェア開発分野でどのような現状にあるのかを明らかにしています。SWE-Lancerと呼ばれるこのベンチマークテストは、Upworkから集めた1400件の実プロジェクトを網羅し、AIの直接開発とプロジェクト管理の2つの分野におけるパフォーマンスを包括的に評価しました。テストの結果、最高性能を達成したAIモデルであるClaude3.5Sonnetは、コーディングタスクでの成功率が26.2％、プロジェクト管理決…

OpenAIの最新ベンチマーク：AIのプログラミング能力は人間の4分の1、限界も明らかに

2025-02-18 16:55:26.AIbase

OpenAI、SWE-Lancerベンチマークを発表：現実世界のフリーランスソフトウェアエンジニアリングにおけるモデルのパフォーマンスを評価

ソフトウェアエンジニアリングの分野では、課題が進化するにつれて、従来のベンチマーク手法では不十分になっています。フリーランスのソフトウェアエンジニアリング業務は複雑で多様であり、単なる孤立したコーディングタスクだけではありません。フリーランスのエンジニアは、コードベース全体を処理し、複数のシステムを統合し、複雑な顧客のニーズに応える必要があります。従来の評価方法は通常、単体テストに重点を置いており、フルスタックのパフォーマンスとソリューションの実際の経済的影響を十分に反映することはできません。そのため、より現実的な評価方法の開発が不可欠です。そこでOpenAIは、SWE-Lan…

OpenAI、SWE-Lancerベンチマークを発表：現実世界のフリーランスソフトウェアエンジニアリングにおけるモデルのパフォーマンスを評価

2025-01-20 10:04:01.AIbase

AIベンチマーク組織、OpenAIからの資金非開示で批判

AI数学ベンチマークを開発する非営利組織Epoch AIが、OpenAIからの資金提供を遅れて公開したことで物議を醸している。12月20日、Epoch AIは、AIの数学能力をテストするためのベンチマークであるFrontierMathプロジェクトにOpenAIが資金を提供したと発表。OpenAIはこのベンチマークを使用して、間もなく発売される主力AI製品o3の能力を披露した。Epoch AIの請負業者がLessWrongフォーラムで…

AIベンチマーク組織、OpenAIからの資金非開示で批判

2025-01-06 09:18:36.AIbase

ScreenSpot-Pro：高解像度環境向けに設計されたマルチモーダルLLMベンチマークツール！

専門環境において、グラフィカルユーザーインターフェース（GUI）エージェントは3つの主要な課題に直面しています。まず、専門アプリケーションは一般ソフトウェアよりもはるかに複雑で、複雑なレイアウトに対する深い理解が求められます。次に、専門ツールは通常、より高い解像度を持ち、ターゲットサイズが小さくなるため、位置特定の精度が低下します。最後に、ワークフローは多くの場合、追加のツールやドキュメントに依存しており、操作の複雑さを増しています。これらの課題は、これらの厳しい状況におけるGUIエージェントのパフォーマンスを向上させるための、より高度なベンチマークとソリューションを開発する必要性を浮き彫りにしています。現在

ScreenSpot-Pro：高解像度環境向けに設計されたマルチモーダルLLMベンチマークツール！

2024-12-25 09:22:05.AIbase

驚異的成果！OpenAIの新モデルo3がARC-AGIベンチマークテストで記録を更新

OpenAIが発表した最新のモデルo3が、ARC-AGIベンチマークテストで驚異的なスコアを達成しました。標準計算条件下では75.7％、高計算バージョンでは87.5％という高得点を記録しました。この成果はAI研究界に衝撃を与えましたが、人工汎用知能（AGI）が解明されたことを証明するものではありません。ARC-AGIベンチマークテストは、抽象推論コーパス（Abstract Reasoning Corpus）に基づいており、AIシステムが新しいタスクに適応する能力を評価することを目的としています。

驚異的成果！OpenAIの新モデルo3がARC-AGIベンチマークテストで記録を更新

2024-12-20 16:10:44.AIbase

智源と騰訊が長テキスト理解ベンチマークモデルLongBench v2を発表

2024年12月19日の発表会で、智源研究院と騰訊は、大規模言語モデル（LLM）の現実世界の長いテキストにおけるマルチタスクでの深い理解と推論能力を評価するために設計されたベンチマークテスト、LongBench v2を発表しました。このプラットフォームは、長テキストモデルの理解と推論能力の向上を目指しており、現在の長テキスト大規模言語モデルのアプリケーションにおける課題に対応しています。

智源と騰訊が長テキスト理解ベンチマークモデルLongBench v2を発表

2024-12-15 10:23:35.AIbase

アリババ、AIベンチマーク「PROCESSBENCH」を発表、数学的推論における誤り認識能力を評価

先日、アリババのQwenチームの研究者らが、「PROCESSBENCH」という新しいベンチマークを発表しました。これは、言語モデルが数学的推論における過程の誤りを識別する能力を測定することを目的としています。言語モデルが複雑な推論タスクで顕著な進歩を遂げる中、研究者らは、モデルは優れたパフォーマンスを示すものの、一部の難しい問題では依然として課題に直面していることを発見しました。そのため、効果的な監督方法の開発が非常に重要になります。現在、言語モデルの評価ベンチマークにはいくつかの欠点があります。一つは…

アリババ、AIベンチマーク「PROCESSBENCH」を発表、数学的推論における誤り認識能力を評価

2024-12-10 11:31:07.AIbase

ARC-AGIベンチマークが突破間近だが、開発者はテスト設計の欠陥を警告

人工知能分野における重要なベンチマークであるARC-AGI（人工知能の抽象化と推論のためのコーパス）が、まもなくブレークスルーを達成しようとしています。しかし、テストの開発者であるフランソワ・チョレは、スコアが向上したとしても、それが汎用人工知能（AGI）の実現に近づいていることを意味するわけではないと警告しています。彼は、このテスト自体に設計上の欠陥があり、真の研究上のブレークスルーを示すものではないと指摘しています。2019年にチョレがARC-AGIを発表して以来、AIシステムはテストで…

ARC-AGIベンチマークが突破間近だが、開発者はテスト設計の欠陥を警告

2024-12-05 14:45:53.AIbase

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化

12月5日、バイトダンスの豆包大規模言語モデルチームは、最新のコード大規模言語モデル評価ベンチマーク「FullStack Bench」を発表しました。これは11種類以上の現実的なシナリオを網羅し、16種類のプログラミング言語をサポート、3374個の問題を含んでいます。このベンチマークは、従来の評価基準と比べて、より広範なプログラミング分野で、大規模言語モデルのコード開発能力をより正確に評価でき、現実世界のプログラミングタスクにおけるモデルの最適化を促進します。HumanEvalやMBPPなど、現在主流のコード評価ベンチマークは、通常、基礎と高度なレベルに集中しています。

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化

2024-11-25 15:09:04.AIbase

Meta、マルチターン多言語指示遵守能力を評価する新しいMulti-IFベンチマークを発表

Metaは最近、大規模言語モデル（LLM）のマルチターン会話と多言語環境における指示遵守能力を評価することを目的とした、新しいベンチマークであるMulti-IFを発表しました。このベンチマークは8つの言語を網羅し、4501個の3ターン会話タスクを含んでおり、複雑なマルチターンと多言語シナリオにおける現在のモデルのパフォーマンスに焦点を当てています。既存の評価基準のほとんどは、シングルターンの会話と単一言語タスクに集中しており、モデルの実際のアプリケーションにおけるパフォーマンスを包括的に反映することは困難です。Multi-IFの発表はまさにそのためです。

Meta、マルチターン多言語指示遵守能力を評価する新しいMulti-IFベンチマークを発表

2024-11-18 14:29:39.AIbase

拡散モデルもゲームで活躍？DIAMONDがAtari 100kベンチマークで新たなSOTAを達成

近年、強化学習は多くの成功を収めてきましたが、サンプル効率の低さが実世界への応用を妨げています。ワールドモデルは環境生成モデルとして、この問題解決への期待を高めています。シミュレーション環境として機能し、より高いサンプル効率で強化学習エージェントを訓練できます。現在、ほとんどのワールドモデルは離散潜在変数系列を用いて環境ダイナミクスをシミュレートしています。しかし、このコンパクトな離散表現への圧縮は、強化学習に不可欠な視覚的詳細を見落とす可能性があります。一方、拡散モデルは画像生成分野で主流となっています。

拡散モデルもゲームで活躍？DIAMONDがAtari 100kベンチマークで新たなSOTAを達成

2024-11-01 10:48:10.AIbase

AI画像生成モデルの新たな寵児！Recraft v3がベンチマークテストでFlux、Ideogramを制しトップに

画像AIスタートアップのRecraftが、最新のテキスト生成画像モデルRecraft v3を発表しました。このモデルは独立テストで優れた性能を示し、画像生成のパフォーマンス基準を塗り替えました。Recraftによると、v3モデルは、画像内のテキストの生成、解剖学的正確性の維持、プロンプトの理解、高品質なビジュアルコンテンツの作成において優れた性能を発揮します。最大の進歩は、一度の生成で長いテキストを正確に表示できる点です。他の多くのモデルでは、数単語を超えるテキストを処理するとしばしば問題が発生します。

AI画像生成モデルの新たな寵児！Recraft v3がベンチマークテストでFlux、Ideogramを制しトップに

2024-10-31 14:28:43.AIbase

OpenAI、新たなAIベンチマークSimpleQAを発表：言語モデルの事実の正確性を評価

最近、OpenAIはSimpleQAという新しいベンチマークを発表しました。これは、言語モデルが生成する回答の事実の正確性を評価することを目的としています。大規模言語モデルの急速な発展に伴い、生成されたコンテンツの正確性を確保することが大きな課題となっています。特に、モデルが自信を持って聞こえるが実際には間違っているか、検証できない情報を生成する「幻覚」現象が問題となっています。これは、AIからの情報取得に多くの人が依存するようになってきている状況において、特に重要です。SimpleQAの設計の特徴は、

OpenAI、新たなAIベンチマークSimpleQAを発表：言語モデルの事実の正確性を評価

2024-10-21 10:42:51.AIbase

質の高いデータこそが重要！EPFLの研究：大規模言語モデルの性能は訓練データに左右される！

スイス連邦工科大学ローザンヌ校（EPFL）の最新の研究では、2つの主流の大規模言語モデル（LLM）適応型訓練方法、コンテキスト学習（ICL）と指示微調整（IFT）を比較しました。研究者らは、MT-Benchベンチマークを使用してモデルの指示遵守能力を評価し、特定の状況下では、両方の方法がそれぞれ長所と短所を持つことを発見しました。研究によると、利用可能な訓練サンプル数が少ない場合（例えば50個以下）、ICLとIFTの性能は非常に近似しています。

質の高いデータこそが重要！EPFLの研究：大規模言語モデルの性能は訓練データに左右される！

2024-10-14 14:51:30.AIbase

アップル研究チーム、新たなベンチマークGSM-Symbolicを発表：大規模言語モデルの数学的推論能力の欠点を明らかに！

最近、アップルの研究者らは大規模言語モデル（LLM）の数学的推論能力に関する詳細な研究を行い、GSM-Symbolicという新たなベンチマークテストを発表しました。この新たなベンチマークテストは、主に基本的な数学的能力を評価するために用いられるGSM8Kを基に開発されました。多くのLLMがGSM8Kにおいて性能向上を見せているものの、これらのモデルの推論能力については依然として疑問が残っており、既存の評価指標では真の能力を完全に反映できていない可能性があると科学界では考えられています。研究は…

アップル研究チーム、新たなベンチマークGSM-Symbolicを発表：大規模言語モデルの数学的推論能力の欠点を明らかに！

2024-10-12 11:38:17.AIbase

OpenAIがAIエージェントの評価ベンチマークMLE-benchを発表

最近の研究で、OpenAI研究チームは、機械学習エンジニアリングにおけるAIエージェントの性能を評価するための新しいベンチマーク、MLE-benchを発表しました。この研究は、Kaggleの75の機械学習エンジニアリング関連コンペティションに焦点を当てており、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の様々なスキルをテストすることを目的としています。より良い評価のために、研究チームはKaggleの公開ランキングの基本データを使用し、各コンペティションの...

OpenAIがAIエージェントの評価ベンチマークMLE-benchを発表

2024-10-11 09:35:13.AIbase

DeepMindが新たなベンチマークMichelangeloを発表：長文脈LLMの推論における欠点を明らかに

近年、超長文脈ウィンドウを持つ大規模言語モデル（LLM）が注目を集めています。これらのモデルは、数十万、場合によっては数百万ものトークンを1つのプロンプトで処理でき、開発者にとって多くの新しい可能性を切り開きます。しかし、これらの長文脈LLMは、受信した大量の情報をどの程度うまく理解し、活用できるのでしょうか？この問題に対処するため、Google DeepMindの研究者らは、長文脈推論能力を評価することを目的としたMichelangeloという新しいベンチマークを発表しました。研究結果は、

DeepMindが新たなベンチマークMichelangeloを発表：長文脈LLMの推論における欠点を明らかに

2024-09-24 10:14:10.AIbase

吉利汽車のスマート音声、新たなブレークスルー：独自開発の大規模モデルが業界のベンチマークを凌駕

吉利汽車は先日、音声合成分野で大きなブレークスルーを達成しました。同社が独自開発したHAM-TTS大規模モデルの性能が業界のベンチマークであるVALL-Eを上回り、業界の注目を集めています。星睿と名付けられたこのAI大規模モデルは、発音の正確性、自然さ、話者類似度などの主要指標において顕著な向上を実現しました。HAM-TTSモデルは、トークンベースのゼロショットテキスト音声変換階層音響モデリング技術を採用しており、スマートコックピットにおけるユーザーインタラクション体験を大幅に向上させています。4億パラメーターという同一条件下で、HAM-TTSモデルは...

吉利汽車のスマート音声、新たなブレークスルー：独自開発の大規模モデルが業界のベンチマークを凌駕

2024-09-14 15:53:53.AIbase

マイクロソフト、Windows Agent Arenaを発表。AIアシスタントのWindows環境におけるパフォーマンスをテスト

マイクロソフトは最近、人工知能アシスタントの実際のWindowsオペレーティングシステム環境におけるパフォーマンスをテストするために設計された新しいプラットフォーム、Windows Agent Arena（WAA）を発表しました。この革新的なベンチマークテストツールは、AIアシスタントの開発を加速し、様々なアプリケーションで複雑な計算タスクを実行し、人間とコンピューターのインタラクションの効率性を向上させることを目的としています。研究チームはarXiv.orgで論文を発表し、大規模言語モデルがコンピューターアシスタントとして大きな可能性を示していることを指摘しています。

マイクロソフト、Windows Agent Arenaを発表。AIアシスタントのWindows環境におけるパフォーマンスをテスト