香港大学とバイトダンスの研究チームは最近、LlamaGenという革新的な技術を発表しました。これは、大規模言語モデルの従来の次のトークン予測パラダイムを画像生成分野に応用したものです。画像トークナイザーの設計空間、画像生成モデルのスケーラビリティ特性、そしてトレーニングデータの質を見直すことで、LlamaGenと呼ばれる新しい画像生成モデルを開発することに成功しました。
製品入口:https://top.aibase.com/tool/llamagen
LlamaGenは、従来の画像生成モデルに対する画期的な革新です。これは、視覚的信号の帰納バイアスがない場合でも、適切にスケールアップされた単純な自己回帰モデルが、最先端の画像生成性能を実現できることを証明しています。LlamaGenの自己回帰、つまりTransformerは、次のトークンを出力として予測し、それを次のトークンの入力として使用します。LLaMAアーキテクチャを使用しており、拡散モデルは使用していません。この発見は、画像生成分野に新たな可能性と示唆を与え、将来の画像生成研究のための新たな視点と方向性を提供します。
LlamaGenの特長は以下のとおりです。
画像トークナイザー:16倍のダウンサンプリング率、0.94の再構成品質、97%のコードブック使用率を備えた画像トークナイザーを導入し、ImageNetベンチマークで優れた性能を発揮しました。
クラス条件付き画像生成モデル:1億1100万から31億パラメーターの範囲のクラス条件付き画像生成モデルを導入し、ImageNet 256×256ベンチマークでFID 2.18を達成し、一般的な拡散モデルを上回りました。
テキスト条件付き画像生成モデル:7億7500万パラメーターのテキスト条件付き画像生成モデルを導入し、LAION-COCOによる2段階のトレーニングを経て、高品質で美的な画像を生成し、優れた視覚品質とテキストアライメント性能を示しました。
サービスフレームワーク vllm:LLMサービスフレームワークが画像生成モデルの推論速度の最適化に有効であることを検証し、326%から414%の高速化を実現しました。
このプロジェクトでは、研究チームは2種類の画像セグメンテーションモデル、7種類のクラス条件付き生成モデル、2種類のテキスト条件付き生成モデルを発表し、オンラインデモと高スループットのサービスフレームワークを提供しています。これらのモデルとツールの公開により、開発者と研究者は、LlamaGen技術をより深く理解し、応用するための豊富なリソースとツールを利用できるようになりました。