人工知能の分野では、日々画期的な変革が起こりうる時代です。Midjourneyの大規模アップデートの翌日、オープンソースの画像生成分野に、注目すべきダークホース——FLUX.1が登場しました。この突然現れた新参者は、DALL・E3、Midjourney V6などのクローズドソースモデルを大幅に上回る性能を謳うだけでなく、オープンソースのSD3シリーズを全面的に凌駕し、瞬く間にAI業界を席巻しました。
FLUX.1の立役者を見てみましょう。創設者のRobin Rombach氏は無名の人物ではありません。拡散モデル分野の権威であり、VQGAN、Taming Transformers、Latent Diffusionなどの代表作を持ち、Stability AIの最高科学者を務め、世界的に有名なStable Diffusionシリーズプロジェクトを率いていました。Robin Rombach氏は、AI画像生成分野のまさに「ベテラン中のベテラン」と言えるでしょう。
今年3月、Stability AI社内で混乱が生じたため、Robin氏は退社しました。4ヶ月間の充電期間を経て、彼は新たなオープンソースの大規模モデルプラットフォームFLUX.1と共に、満を持して帰ってきました。さらに驚くべきことに、FLUX.1は初登場で、著名なベンチャーキャピタルであるAndreessen Horowitzをリードインベスターとする3200万ドルのシードラウンド資金調達を実現しました。これはFLUX.1の将来の発展に大きな弾みをつけるでしょう。
では、FLUX.1の優れた点は何か?まず、Vision Transformerアーキテクチャをベースとし、フローマッチングトレーニング手法を採用し、回転位置埋め込みと並列アテンション層を使用して、モデルの性能とハードウェアの利用効率を向上させています。この120億パラメーターのモデルは、3つのバージョンで提供されています。
Pro版:API経由で使用し、最も強力な性能を発揮します。
Dev版:非商用の教師あり蒸留モデルで、Pro版の性能の大部分を継承しています。
Schnell版:商用利用可能なオープンソースモデルで、性能も非常に優れています。
FLUX.1チームのテストデータによると、オープンソースのSchnell版でさえ、テキストの意味の再現性、画像の質、動作の一貫性、連続性、多様性などの点で、Midjourney v6.0、DALL・E3(HD)、SD3-Ultraなどの主流モデルを上回っています。特にテキストから画像を生成する点において、FLUX.1は明確な優位性を示しています。
ここでは、AIbaseが公式からいくつかの生成結果を選びました。参考にしてください。
リアルな写真画像
プロンプト:無限のポラロイド写真を生成し、空中に飛ばす機械。実写ナショナルジオグラフィック写真
プロンプト:古い教室の黒板の写真。黒板にはチョークで「一緒に素晴らしいものを作ろう」と書かれており、単語の後ろには赤いチョークでハートが描かれています。窓から太陽光が差し込んでいます。
超現実主義画像
プロンプト:Hajime Sorayamaデザインの抽象的なクローム80年代SFオートマトンエアブラシ静物、単一の垂直線、ジェネレーティブアート、p5js、ジッター
プロンプト:ドーナツ イエス ミックス 神話生物
動物画像
プロンプト:ヴィクトリア朝風の衣装を着た2匹のかわいいクモが小さなティーパーティーを開いている様子。小さなテーブルがあり、葉っぱの上にティーポットが置かれています。マクロ写真
プロンプト:神話上の生き物をクローズアップで自由度高くレンダリング。詳細な螺旋状のフラクタルと巻きひげ、詳細な再帰的な皮膚のテクスチャ
アニメ画像
プロンプト:精巧なアニメーション作品、かわいいアニメの猫娘、悲しそうな表情で、紙を持っており、紙には笑顔が描かれていて、泣きそう
AIbaseは以前の猫の守護神もテストしましたが、全く問題ありませんでした。FLUX.1はプロンプトの理解が非常に正確です。
もちろん、FLUX.1の野望はそれだけではありません。チームは、テキストから画像への生成は始まりに過ぎず、将来的にはテキストからビデオへの生成モデルを開発し、Sora、Gen-3、Lumaなどのトップ製品に挑戦する計画であると述べています。
開発者やAI愛好家にとって、FLUX.1の登場は大きな朗報です。Schnell版は完全にオープンソース化されており、ComfyUIのサポートも得ています。36GB以上のVRAMがあれば、t5のfp16バージョンを実行することも可能です。ただし、t5xxl_fp16.safetensorsやclip_l.safetensors、VAEは別途ダウンロードする必要があることに注意してください。
FLUX.1の登場は、オープンソースのAI画像生成分野に新たな希望をもたらしただけでなく、AI業界全体に新たな活力を吹き込みました。その強力な性能とオープンソースの特性は、AI画像生成技術の普及と革新を加速させる可能性が高いです。一般ユーザーにとっては、Midjourneyに匹敵する、あるいはそれを超えるAI画像生成モデルを、すぐに自宅のパソコンで実行できるようになるかもしれません。
プロジェクトアドレス:https://github.com/black-forest-labs/flux
試用アドレス:https://replicate.com/black-forest-labs/flux-pro
ComfyUIワークフロー:https://comfyanonymous.github.io/ComfyUI_examples/flux/