画像生成分野において、高解像度でリアルな画像生成は、特にテキストから画像への合成において、多くの課題を抱えてきました。従来の生成手法は、拡散モデルや変分自己回帰(VAR)フレームワークに大きく依存していました。

これらのモデルは高品質な画像を生成できますが、膨大な計算資源を必要とするため、リアルタイムアプリケーションへの適用には柔軟性に欠けていました。同時に、VARモデルは離散的なトークンを処理する際に累積誤差が発生しやすく、生成画像の詳細が失われ、リアルさが損なわれるという問題がありました。

image.png

これらの欠点を克服するため、バイトダンスの研究チームは、「Infinity」という新しいフレームワークを発表しました。このフレームワークは、テキストから画像への合成の効率と品質を向上させることを目的としています。

Infinityは、従来のインデックスレベルのトークンではなくビットレベルのトークンを導入することで、より細かい粒度の表現を実現し、量子化誤差を大幅に削減し、生成画像のリアルさを向上させました。さらに、無限語彙分類器(IVC)を使用することで、トークンの語彙を2^64に拡張し、メモリと計算の必要性を大幅に削減しています。

image.png

Infinityアーキテクチャは、主に3つの部分で構成されています。画像の特徴をバイナリトークンに変換するビットレベルのマルチスケール量子化トークナイザー(計算コストを抑えるため)、テキストプロンプトと以前の出力に基づいて残差を予測するトランスフォーマーベースの自己回帰モデル、そして訓練中にランダムなビット反転を導入することでモデルの誤差に対する堅牢性を高める自己修正メカニズムです。研究チームは、LAIONやOpenImagesなどの大規模データセットを用いて訓練を行い、256×256から1024×1024へと段階的に画像解像度を向上させることで、顕著な進歩を遂げました。

評価の結果、Infinityは主要な指標において優れた性能を示しました。GenEvalスコアは0.、Fréchet Inception Distance(FID)は3.48に低下し、生成速度と品質の向上が実証されました。Infinityは0.8秒で1024×1024の高解像度画像を生成でき、その効率性と信頼性を示しています。生成された画像は、視覚的にリアルで詳細に富んでいるだけでなく、複雑なテキスト指示にも正確に応答し、高い人間の嗜好評価を得ています。

Infinityの発表は、高解像度テキストから画像への合成分野における新たなベンチマークを打ち立てました。革新的な設計により、長年存在してきたスケーラビリティと詳細品質の問題を解決し、生成AIのさらなる発展を推進しています。

論文:https://arxiv.org/abs/2412.04431

要点:

🌟 **革新的なフレームワークInfinity:** バイトダンスが発表したInfinityフレームワークは、ビットレベルのトークン化と無限語彙分類器により、高解像度画像生成の効率を大幅に向上させました。

⚡ **卓越した性能:** Infinityは主要な評価指標において既存のモデルを凌駕し、0.8秒で1024×1024の高品質画像を生成できます。

🖼️ **リアルなディテールと応答性:** 生成された画像は視覚的にリアルなだけでなく、複雑なテキストプロンプトにも正確に応答し、高い人間の嗜好評価を得ています。