香港大学とバイトダンスの研究者らが共同開発したLlamaGenは、自己回帰モデルLlamaに基づく画像生成手法であり、従来の拡散モデルを凌駕する可能性を示しています。
LlamaGenのオープンソース化は、GitHub上で約900個ものスターを獲得するなど、大きな注目を集めています。この成果は、自己回帰モデルの画像生成における競争力を証明するだけでなく、オープンソースコミュニティに新たな活気と革新をもたらしました。
ImageNetのベンチマークテストにおいて、LlamaGenはLDM、DiTなどの拡散モデルを上回る性能を示しました。これは、研究チームによる自己回帰モデルアーキテクチャの深い理解と最適化によるものです。彼らはImage Tokenizerを再トレーニングすることで、VQGAN、ViT-VQGAN、MaskGIなど従来のTokenizerを上回る成果をImageNetとCOCOで達成しました。
LlamaGenの技術的実現は、画像圧縮/量子化器、拡張可能な画像生成モデル、そして高品質なトレーニングデータといういくつかの重要な設計原則に基づいています。研究チームはVQ-GANに似たCNNアーキテクチャを採用し、連続画像を離散トークンに変換することで、2段階のトレーニングプロセスにおいて画像の視覚品質と解像度を大幅に向上させました。
プロジェクトアドレス: https://top.aibase.com/tool/llamagen
オンライン体験アドレス: https://huggingface.co/spaces/FoundationVision/LlamaGen
第一段階では、モデルはLAION-COCOの5000万サブセット(256×256ピクセル)でトレーニングされました。研究チームは有効な画像URL、美的スコア、ウォーターマークスコアなどを選別することで、高品質な画像データセットを選定しました。第二段階では、1000万規模の内部高美的品質画像で微調整を行い、解像度を512×512ピクセルに向上させ、生成画像の視覚品質をさらに向上させました。
LlamaGenの強みは、優れたImage TokenizerとLlamaアーキテクチャの拡張性です。実際の生成プロセスにおいて、LlamaGenはFID、IS、Precision、Recallなどの指標で非常に高い競争力を示しました。以前の自己回帰モデルと比較して、LlamaGenはあらゆるパラメータ規模で優れた性能を発揮します。
LlamaGenは目覚ましい成果を上げていますが、研究者らは、現在のLlamaGenはStable Diffusion v1段階に達したに過ぎないと指摘しています。今後の改善の方向性としては、より高い解像度、より多くのアスペクト比、より高い制御性、そして動画生成などが挙げられます。
現在、LlamaGenはオンラインで体験可能です。興味のある方は、Hugging FaceのLlamaGenスペースにアクセスして、この革新的な画像生成技術を直接試すことができます。さらに、LlamaGenのオープンソース化は、世界中の開発者や研究者にとって、共同で参加し貢献できるプラットフォームを提供します。