DALLE3やAdobe Firefly3などのAI(人工知能)駆動型テキストツーイメージ(T2I)生成モデルは、優れた生成能力を示し、現実世界の応用において無限の可能性を秘めています。しかし、これらのモデルは通常数十億ものパラメータを持ち、メモリ消費が非常に大きいため、モバイルデバイスなどのリソースが限られたプラットフォームへの展開が大きな課題となっています。

ByteDanceとPOSTECHの研究者たちは、これらの問題を解決するために、T2Iモデルの超低ビット量子化技術を研究しました。数多くの先進モデルの中でも、FLUX.1-devは公開されており性能も優れているため、研究対象として選ばれました。

研究者たちは、{-1、0、+1}の3つの数値のみを使用する1.58ビット量子化と呼ばれる手法を用いて、FLUXモデルのビジョン変換器の重みを圧縮しました。この量子化手法は、画像データへのアクセスを必要とせず、FLUX.1-devモデルの自己教師あり学習のみで実行可能です。BitNet b1.58手法とは異なり、大規模言語モデルを最初から訓練するのではなく、T2Iモデルに対する訓練後の量子化ソリューションとして機能します。

image.png

この手法により、1.58ビット重みは2ビットの符号付き整数で保存されるため、16ビット精度からの圧縮を実現し、モデルのストレージ容量を7.7倍削減しました。さらに推論効率を向上させるため、低ビット計算に最適化されたカスタムカーネルも開発されました。このカーネルにより、推論メモリ使用量は5.1倍以上削減され、推論遅延も改善されました。

GenEvalとT2I Compbenchベンチマークテストによる評価では、1.58ビットFLUXは、全精度FLUXモデルと同等の生成品質を維持しながら、計算効率を大幅に向上させることが示されました。

具体的には、研究者たちはFLUXモデルのビジョン変換器パラメータの99.5%(合計119億)を1.58ビットに量子化することで、ストレージの需要を大幅に削減しました。

実験結果によると、1.58ビットFLUXは、T2I CompBenchとGenEvalデータセットにおいて、元のFLUXモデルと同等の性能を示しました。推論速度に関しては、低性能GPU(L20やA10など)においてより顕著な改善が見られました。

image.png

結論として、1.58ビットFLUXの登場は、高品質なT2Iモデルをメモリと遅延の制約のあるデバイスで実際に展開できるようになるという重要な一歩を意味します。

1.58ビットFLUXは、速度の向上や高解像度画像の詳細なレンダリングにおいてまだいくつかの限界がありますが、モデル効率の向上とリソース消費の削減における大きな可能性は、将来の研究に新たな方向性を提供するでしょう。

主な改善点のまとめ:

モデル圧縮:モデルのストレージ容量を7.7倍削減。

メモリ最適化:推論メモリ使用量を5.1倍以上削減。

性能維持:GenEvalとT2I Compbenchベンチマークテストにおいて、1.58ビットFLUXは全精度FLUXモデルと同等の性能を維持。

画像データ不要:量子化プロセスは画像データへのアクセスを必要とせず、モデル自身の自己教師あり学習に依存。

カスタムカーネル:低ビット計算に最適化されたカスタムカーネルを採用し、推論効率を向上。

プロジェクトページ:https://chenglin-yang.github.io/1.58bit.flux.github.io/

論文アドレス:https://arxiv.org/pdf/2412.18653

モデルアドレス:https://huggingface.co/papers/2412.18653