最近、人工知能研究組織Artificial Analysisは、「Artificial Analysis Text to Image Leaderboard & Arena」(テキスト画像ランキング&アリーナ)という新たな取り組みを発表しました。これは、これらのモデルの性能を包括的に評価することを目的としています。

評価プラットフォームの概要

拡散モデルベースの画像生成器が導入されてから2年、AI画像モデルは写真レベルに近い品質に達しました。Artificial Analysis Text to Image Leaderboard & Arenaは、オープンソースとプロプライエタリの画像生成モデルを比較し、人間の好みを基にその効果と正確性を判断することに重点を置いています。

このプラットフォームのランキングは、Artificial Analysis Image Arenaで収集された45,000件を超える人間の画像の好みを基に、ELOレーティングシステムを使用して更新されます。評価対象には、Midjourney、OpenAIのDALL・E、Stable Diffusion、Playground AIなど、主要な画像モデルが含まれています。

image.png

評価方法

このプラットフォームは、大規模な人間の好みデータを収集するために、クラウドソーシング方式を採用しています。参加者は、プロンプトと生成された2つの画像が表示され、プロンプトに最も合致する画像を選択します。各モデルは、人物肖像、集団、動物、自然、芸術など、さまざまなスタイルとカテゴリを網羅した700枚以上の画像を生成します。収集された好みデータを使用して各モデルのELOスコアを計算し、比較ランキングを作成します。

初期の知見

ランキングによると、プロプライエタリモデルは性能でリードしていますが、オープンソースの代替手段はますます競争力を高めています。Midjourney、Stable Diffusion 3、DALL・E 3HDなどのモデルが上位にランクインしており、オープンソースモデルのPlayground AI v2.5も著しい進歩を遂げ、OpenAIのDALL・E 3を上回っています。

注目すべきは、画像生成モデルの状況が急速に変化していることです。例えば、昨年はトップに位置していたDALL・E 2は、現在アリーナで選ばれる割合が25%未満となっており、ランキング最下位に落ち込んでいます。

一般参加

Artificial Analysisは、一般の人々の参加を推奨しています。ユーザーはHugging Face上のランキングにアクセスし、Image Arenaを通じてランキングプロセスに参加できます。30回の画像選択を完了すると、参加者は個々のモデルランキングを確認でき、自分の好みに合わせた洞察を得ることができます。

この取り組みは、AI画像生成モデルの理解と改善に向けた重要な一歩です。人間の好みと厳格なクラウドソーシング手法を活用することで、このプラットフォームは、主要な画像モデルの比較性能に関する貴重な知見を提供します。この分野が発展していくにつれて、このようなプラットフォームは、AI駆動の画像生成の将来の発展とイノベーションを導く上で重要な役割を果たすでしょう。

ランキングへのリンク:https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard