Stable Diffusionなどのモデルが登場したことで画像生成分野は大きな進歩を遂げましたが、自己回帰言語モデルとの根本的な違いが、統一的な言語ビジュアルモデルの開発を妨げていました。この問題を解決するために、研究者たちはMeissonicを発表しました。これは、非自己回帰マスク画像モデリング(MIM)によるテキストから画像への技術を、SDXLなどの最先端の拡散モデルに匹敵するレベルまで向上させたものです。
Meissonicの中核は、一連のアーキテクチャの革新、高度な位置符号化戦略、最適化されたサンプリング条件にあります。これらの改良により、MIMのパフォーマンスと効率が大幅に向上しました。さらに、Meissonicは高品質のトレーニングデータを利用し、人間の好みスコアに基づく微調整条件を統合し、特徴圧縮層を採用することで、画像の忠実度と解像度をさらに向上させています。
SDXLやDeepFloyd-XLなどの大規模拡散モデルとは異なり、Meissonicのパラメータ数はわずか10億個ですが、1024×1024解像度の高品質な画像を生成でき、追加のモデル最適化なしで、わずか8GBのVRAMしかない一般消費者向けのGPUでも動作します。さらに、Meissonicは単色の背景を持つ画像を簡単に生成できますが、これは拡散モデルでは通常、モデルの微調整やノイズオフセット調整が必要となります。
効率的なトレーニングを実現するために、Meissonicのトレーニングプロセスは4つの段階に分けられています。
第一段階:大量のデータから基本的な概念を理解します。Meissonicは厳選されたLAION-2Bデータセットを使用して、256×256解像度でトレーニングを行い、基本的な概念を学習します。
第二段階:長いプロンプトを使用してテキストと画像を合わせます。トレーニング解像度は512×512に引き上げられ、高品質の合成画像テキストペアと内部データセットを使用して、モデルが長い記述的なプロンプトを理解する能力を高めます。
第三段階:高解像度生成を実現するための特徴圧縮を習得します。特徴圧縮層を導入することで、Meissonicは512×512から1024×1024へのシームレスな生成が可能になり、厳選された高品質の高解像度画像テキストペアを使用してトレーニングを行います。
第四段階:高解像度で美しい画像生成を最適化します。この段階では、モデルは小さな学習率で微調整され、人間の好みスコアが微調整条件として追加され、モデルが高品質な画像を生成する性能が向上します。
HPS、MPS、GenEvalベンチマーク、GPT4o評価など、一連の定量的および定性的指標による評価を通じて、Meissonicは優れた性能と効率を示しました。DALL-E2やSDXLと比較して、Meissonicは人間の性能とテキストの整合性において競争力のある結果を示し、その効率性も示しています。
さらに、Meissonicはゼロショット画像から画像への編集においても優れた性能を示しています。EMU-Editデータセットにおいて、Meissonicは背景変更、画像内容変更、スタイル変更、オブジェクト削除、オブジェクト追加、部分修正、色/テクスチャ変更など、7種類の異なる操作でトップクラスの結果を達成しました。これは、画像編集に特化したデータや指示セットでトレーニングや微調整を行う必要がないことを意味します。
プロジェクトアドレス:https://github.com/viiika/Meissonic