アマゾンAWS、AIモデル評価改善のための人間によるベンチマークチームを発表

站长之家

公開日AIニュース · 1 分で読めます · Nov 30, 2023

モデル評価

アマゾンは、ユーザーが人工知能モデルをより適切に評価し、より多くの人がこのプロセスに参加することを望んでいます。AWSは、リポジトリ内のモデルを評価するために、Bedrock上のモデル評価を導入しました。モデル評価には、自動評価と人的評価の2つの部分があり、さまざまな指標に基づいてモデルのパフォーマンスを評価できます。AWSはまた、人的評価チームをユーザーと協力して提供し、自動システムでは検出できない指標を検出します。

重要なのは、モデルが顧客にとって機能することであり、どのモデルが最適かを把握することです。私たちは、それをより適切に評価する方法を提供しています。

OpenAIの社員がxAIに公開で疑問を呈する：Grok 3のベンチマークテスト結果が誤解を招く

最近、人工知能ベンチマークテストに関する議論が公の場で激化しています。OpenAIの社員がマスク創設のAI企業xAIが誤解を招くGrok3のベンチマークテスト結果を発表したと非難し、xAIの共同創設者イーゴール・バブシンキンは会社に問題はないと主張しています。この事態の発端は、xAIがブログにGrok3のAIME2025テストでのパフォーマンスを示すグラフを発表したことです。AIME2025は最近行われた数学招待大会の一環です。

OpenAIの最新ベンチマーク：AIのプログラミング能力は人間の4分の1、限界も明らかに

OpenAIは先日、AIのプログラミング能力を評価する重要なレポートを発表しました。100万ドル相当の実開発プロジェクトを通じて、AIがソフトウェア開発分野でどのような現状にあるのかを明らかにしています。SWE-Lancerと呼ばれるこのベンチマークテストは、Upworkから集めた1400件の実プロジェクトを網羅し、AIの直接開発とプロジェクト管理の2つの分野におけるパフォーマンスを包括的に評価しました。テストの結果、最高性能を達成したAIモデルであるClaude3.5Sonnetは、コーディングタスクでの成功率が26.2％、プロジェクト管理決…

OpenAI、SWE-Lancerベンチマークを発表：現実世界のフリーランスソフトウェアエンジニアリングにおけるモデルのパフォーマンスを評価

ソフトウェアエンジニアリングの分野では、課題が進化するにつれて、従来のベンチマーク手法では不十分になっています。フリーランスのソフトウェアエンジニアリング業務は複雑で多様であり、単なる孤立したコーディングタスクだけではありません。フリーランスのエンジニアは、コードベース全体を処理し、複数のシステムを統合し、複雑な顧客のニーズに応える必要があります。従来の評価方法は通常、単体テストに重点を置いており、フルスタックのパフォーマンスとソリューションの実際の経済的影響を十分に反映することはできません。そのため、より現実的な評価方法の開発が不可欠です。そこでOpenAIは、SWE-Lan…

AIベンチマーク組織、OpenAIからの資金非開示で批判

AI数学ベンチマークを開発する非営利組織Epoch AIが、OpenAIからの資金提供を遅れて公開したことで物議を醸している。12月20日、Epoch AIは、AIの数学能力をテストするためのベンチマークであるFrontierMathプロジェクトにOpenAIが資金を提供したと発表。OpenAIはこのベンチマークを使用して、間もなく発売される主力AI製品o3の能力を披露した。Epoch AIの請負業者がLessWrongフォーラムで…