AI画像生成に新たな覇者！オープンソースモデルFLUX.1が誕生、Midjourney、DALL・E 3は警戒？

人工知能の分野では、日々画期的な変革が起こりうる時代です。Midjourneyの大規模アップデートの翌日、オープンソースの画像生成分野に、注目すべきダークホース——FLUX.1が登場しました。この突然現れた新参者は、DALL・E3、Midjourney V6などのクローズドソースモデルを大幅に上回る性能を謳うだけでなく、オープンソースのSD3シリーズを全面的に凌駕し、瞬く間にAI業界を席巻しました。

FLUX.1の立役者を見てみましょう。創設者のRobin Rombach氏は無名の人物ではありません。拡散モデル分野の権威であり、VQGAN、Taming Transformers、Latent Diffusionなどの代表作を持ち、Stability AIの最高科学者を務め、世界的に有名なStable Diffusionシリーズプロジェクトを率いていました。Robin Rombach氏は、AI画像生成分野のまさに「ベテラン中のベテラン」と言えるでしょう。

今年3月、Stability AI社内で混乱が生じたため、Robin氏は退社しました。4ヶ月間の充電期間を経て、彼は新たなオープンソースの大規模モデルプラットフォームFLUX.1と共に、満を持して帰ってきました。さらに驚くべきことに、FLUX.1は初登場で、著名なベンチャーキャピタルであるAndreessen Horowitzをリードインベスターとする3200万ドルのシードラウンド資金調達を実現しました。これはFLUX.1の将来の発展に大きな弾みをつけるでしょう。

では、FLUX.1の優れた点は何か？まず、Vision Transformerアーキテクチャをベースとし、フローマッチングトレーニング手法を採用し、回転位置埋め込みと並列アテンション層を使用して、モデルの性能とハードウェアの利用効率を向上させています。この120億パラメーターのモデルは、3つのバージョンで提供されています。

Pro版:API経由で使用し、最も強力な性能を発揮します。
Dev版:非商用の教師あり蒸留モデルで、Pro版の性能の大部分を継承しています。
Schnell版:商用利用可能なオープンソースモデルで、性能も非常に優れています。

FLUX.1チームのテストデータによると、オープンソースのSchnell版でさえ、テキストの意味の再現性、画像の質、動作の一貫性、連続性、多様性などの点で、Midjourney v6.0、DALL・E3（HD）、SD3-Ultraなどの主流モデルを上回っています。特にテキストから画像を生成する点において、FLUX.1は明確な優位性を示しています。

ここでは、AIbaseが公式からいくつかの生成結果を選びました。参考にしてください。

リアルな写真画像

プロンプト：無限のポラロイド写真を生成し、空中に飛ばす機械。実写ナショナルジオグラフィック写真

プロンプト：古い教室の黒板の写真。黒板にはチョークで「一緒に素晴らしいものを作ろう」と書かれており、単語の後ろには赤いチョークでハートが描かれています。窓から太陽光が差し込んでいます。

超現実主義画像

プロンプト：Hajime Sorayamaデザインの抽象的なクローム80年代SFオートマトンエアブラシ静物、単一の垂直線、ジェネレーティブアート、p5js、ジッター

プロンプト：ドーナツ　イエス　ミックス　神話生物

動物画像

プロンプト：ヴィクトリア朝風の衣装を着た2匹のかわいいクモが小さなティーパーティーを開いている様子。小さなテーブルがあり、葉っぱの上にティーポットが置かれています。マクロ写真

プロンプト：神話上の生き物をクローズアップで自由度高くレンダリング。詳細な螺旋状のフラクタルと巻きひげ、詳細な再帰的な皮膚のテクスチャ

アニメ画像

プロンプト：精巧なアニメーション作品、かわいいアニメの猫娘、悲しそうな表情で、紙を持っており、紙には笑顔が描かれていて、泣きそう

QQ截图20240802091854.jpg

AIbaseは以前の猫の守護神もテストしましたが、全く問題ありませんでした。FLUX.1はプロンプトの理解が非常に正確です。

もちろん、FLUX.1の野望はそれだけではありません。チームは、テキストから画像への生成は始まりに過ぎず、将来的にはテキストからビデオへの生成モデルを開発し、Sora、Gen-3、Lumaなどのトップ製品に挑戦する計画であると述べています。

開発者やAI愛好家にとって、FLUX.1の登場は大きな朗報です。Schnell版は完全にオープンソース化されており、ComfyUIのサポートも得ています。36GB以上のVRAMがあれば、t5のfp16バージョンを実行することも可能です。ただし、t5xxl_fp16.safetensorsやclip_l.safetensors、VAEは別途ダウンロードする必要があることに注意してください。

FLUX.1の登場は、オープンソースのAI画像生成分野に新たな希望をもたらしただけでなく、AI業界全体に新たな活力を吹き込みました。その強力な性能とオープンソースの特性は、AI画像生成技術の普及と革新を加速させる可能性が高いです。一般ユーザーにとっては、Midjourneyに匹敵する、あるいはそれを超えるAI画像生成モデルを、すぐに自宅のパソコンで実行できるようになるかもしれません。

プロジェクトアドレス:https://github.com/black-forest-labs/flux

試用アドレス:https://replicate.com/black-forest-labs/flux-pro

ComfyUIワークフロー:https://comfyanonymous.github.io/ComfyUI_examples/flux/

AIニュース

AI画像生成に新たな覇者！オープンソースモデルFLUX.1が誕生、Midjourney、DALL・E 3は警戒？

AIbase基地

関連AIニュースの推奨

ChatGPTがバラの画像生成を拒否、ネット上で議論勃発 AI禁忌語に新たな事例

Ideogram 2a 画像モデル正式リリース：高速化、低コスト化でAI画像生成が新たなブレークスルー

通義万相オープンソース動画生成モデルWan2.1：8.2GBのVRAMで480P動画生成が可能

Midjourneyウェブサイト、複数組織機能を追加し、ユーザーエクスペリエンスを向上