AI製品ランキング

AI製品ランキング

グローバルAI製品の動向を検索

グローバルAI情報を検索して、AIの新しい機会を発見

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

タイプ :

ニュース
製品アプリケーション
マネタイズ事例
AIチュートリアル

2025-01-10 15:49:29.AIbase

智譜GLM-4-9Bモデル、幻覚率わずか1.3％で世界の大規模言語モデル評価で首位獲得

人工知能分野において、大規模言語モデルの幻覚問題は業界を悩ませる重要な課題となっています。最近、HHEM-2.1-Open評価システムに基づいたテスト結果によると、智譜AIのGLM-4-9Bモデルは注目すべき成果を上げました。テストデータによると、評価に参加した85個の大規模言語モデルの中で、GLM-4-9Bは98.7％の事実一致率と100％の回答率で首位を獲得しました。特に注目すべきは、このモデルの幻覚率がわずか1.3％であることであり、この成果は…

智譜GLM-4-9Bモデル、幻覚率わずか1.3％で世界の大規模言語モデル評価で首位獲得

2024-12-19 17:47:00.AIbase

大規模言語モデル評価プラットフォームCompassArenaがアップグレード、新しいJudge Copilot機能が登場

上海人工知能研究所司南OpenCompassチームと魔搭ModelScopeが共同で発表した大規模言語モデル評価プラットフォームCompassArena（大規模言語モデル競技場）が最近アップグレードされました。ユーザーにより科学的で包括的なモデル評価体験を提供することを目指しています。公開以来、このプラットフォームは多くのコミュニティユーザーが参加し、データを提供してきました。これらのデータに基づいて、CompassArenaは継続的に最適化されており、今回のアップグレードには新しいJudge Copilot機能とランキングアルゴリズムの改善が含まれています。

大規模言語モデル評価プラットフォームCompassArenaがアップグレード、新しいJudge Copilot機能が登場

2024-12-05 14:45:53.AIbase

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化

12月5日、バイトダンスの豆包大規模言語モデルチームは、最新のコード大規模言語モデル評価ベンチマーク「FullStack Bench」を発表しました。これは11種類以上の現実的なシナリオを網羅し、16種類のプログラミング言語をサポート、3374個の問題を含んでいます。このベンチマークは、従来の評価基準と比べて、より広範なプログラミング分野で、大規模言語モデルのコード開発能力をより正確に評価でき、現実世界のプログラミングタスクにおけるモデルの最適化を促進します。HumanEvalやMBPPなど、現在主流のコード評価ベンチマークは、通常、基礎と高度なレベルに集中しています。

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化

2024-09-29 15:33:05.AIbase

Salesforce AI、Llama3ベースの新しい大規模言語モデル評価ファミリーSFR-Judgeを発表

自然言語処理分野では、大規模言語モデル（LLM）が急速に発展しており、多くの分野で目覚ましい進歩を遂げています。しかし、モデルの複雑性が増すにつれ、その出力を正確に評価することが非常に重要になります。従来は、人間による評価に依存していましたが、この方法は時間と費用がかかり、規模を拡大することが難しく、モデルの急速な発展のペースについていくことができません。この状況を変えるため、Salesforce AI研究チームは、3つの大規模言語モデルで構成されるSFR-Judgeを発表しました。

Salesforce AI、Llama3ベースの新しい大規模言語モデル評価ファミリーSFR-Judgeを発表

2024-08-13 08:11:01.AIbase

大規模言語モデル評価プラットフォームCompass Arenaにマルチモーダル大規模言語モデル競技セクション追加

上海人工知能研究所の司南 OpenCompassチームと魔搭 ModelScopeが協力して、Compass Multi-Modal Arenaをリリースしました。これは大規模言語モデル評価プラットフォームの新しいセクションであり、マルチモーダル大規模言語モデルに焦点を当てています。ユーザーは画像をアップロードして質問を入力することで、2つの匿名のマルチモーダル大規模言語モデルに回答を生成させ、生成されたコンテンツの質に基づいて主観的な評価を行い、より優れたパフォーマンスを示したモデルを選択できます。プラットフォームはシンプルで使いやすいインターフェースと特徴的な問題集を提供しており、問題集の側面は…

大規模言語モデル評価プラットフォームCompass Arenaにマルチモーダル大規模言語モデル競技セクション追加

2023-11-13 08:59:01.AIbase

智源研究院、JudgeLM 裁判モデルをオープンソース化：様々な大規模言語モデルを評価しスコアを出力

智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90％以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90％を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。

2023-11-02 15:21:41.AIbase

アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表

アリババグループと北京大学は共同で、DevOps分野向けの大規模言語モデル評価基準を発表しました。この評価基準には、計画、コーディング、ビルド、テスト、リリースなど8つのカテゴリの選択問題4850問が含まれています。また、AIOpsタスクに対する詳細な評価も行われています。評価結果によると、各モデルのスコアに大きな差は見られませんでした。

2023-09-25 09:54:21.AIbase

大規模言語モデル評価の混沌：パラメータ規模は万能ではない

パラメータ数は、大規模言語モデルを評価する唯一の尺度ではありません。評価データセットの違いによってランキングに大きな差異が生じ、主観的な問題の割合が増加するとランキングにも影響し、評価の公平性に疑問が生じます。OpenCompassやFlagEvalなどの第三者評価機関が注目を集めており、学界ではモデルの堅牢性や安全性など、多角的な評価を行うべきだと考えられています。真に包括的で効果的な評価方法は、依然として模索段階にあります。

2023-08-29 10:09:08.AIbase

8月ランキング！SuperCLUE中国語大規模言語モデル評価基準最新ランキング発表

SuperCLUEが8月ランキングを発表しました。5つのランキングで、16の汎用的大規模言語モデルを評価し、3337問の新しいテスト問題を使用しました。中国のモデルは、中国語タスクにおけるGPT3.5との差を縮めています。