阿里巴巴がFLUX.1-Turbo-Alphaを発表：FLUX.1-devベース、8段階蒸留LoRA

AIbase基地

公開日AIニュース · 1 分で読めます · Oct 14, 2024

847

この度、アリババママクリエイティブチームは、FLUX.1-devモデルをベースに訓練された8ステップ蒸留LoraモデルであるFLUX.1-Turbo-Alphaを発表しました。

このモデルはマルチヘッド識別器を採用することで、蒸留の質を大幅に向上させ、テキストから画像の生成、修復コントロールネットなど、様々なFLUX関連アプリケーションに対応しています。チームは、使用時にはガイダンススケールを3.5、Loraスケールを1に設定することを推奨しており、今後、ステップ数の少ないバージョンもリリースする予定です。

FLUX.1-Turbo-Alphaは、Diffusersフレームワークと直接連携して使用できます。数行のコードだけでモデルを読み込み、必要な画像を生成できます。例えば、「皮ジャケット、カウボーイハット、チェック柄スカート、リボンをつけた笑顔のナマケモノが、街並みが描かれた光沢のあるフォルクスワーゲンバスの前に立っている」という面白いシーンを作成できます。パラメータを簡単に調整するだけで、1024x1024の高解像度で高品質な画像を生成できます。

さらに、このモデルはComfyUIにも対応しており、テキストから画像への高速なワークフローに使用したり、修復コントロールネットにおいてより効率的な生成効果を実現したりできます。この技術により、生成された画像は元の出力にうまく追従し、ユーザーの創作体験を向上させます。

FLUX.1-Turbo-Alphaのトレーニングプロセスも注目に値します。このモデルは100万枚以上のオープンソースと内部リソースの画像でトレーニングされており、6.3以上の美的評価を得ており、解像度はすべて800以上です。チームはトレーニングプロセスにおいて敵対的トレーニング手法を採用し、画像の質を向上させ、各トランスフォーマー層にマルチヘッド設計を追加しました。トレーニングプロセスにおけるガイダンススケールは3.5に固定され、時間オフセットは3に設定され、混合精度bf16が使用され、学習率は2e-5、バッチサイズは64、画像サイズは1024x1024に設定されました。

FLUX.1-Turbo-Alphaの発表は、アリババママによる画像生成分野における新たなブレークスルーであり、人工知能技術の普及と応用を促進します。

プロジェクト入口:https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha

要点:
🌟 このモデルはFLUX.1-devをベースとし、8ステップ蒸留とマルチヘッド識別器を採用することで、画像生成の質を向上させています。
🖼️ テキストから画像の生成と修復コントロールネットに対応しており、ユーザーは様々な面白いシーンを簡単に作成できます。
📊 トレーニングプロセスでは敵対的トレーニングを採用し、100万枚以上の画像でトレーニングすることで、高品質な出力を確保しています。

Runway、映画レベルのビジュアル表現を生み出す新たなAI画像ジェネレーター「Frames」を発表

AIメディアテクノロジー企業Runwayは、最新のテキストから画像生成モデル「Frames」を発表しました。AIビデオモデルで知られるRunwayが、画像創作分野における影響力の拡大を目指した取り組みです。Framesは、特に映画のような視覚効果の生成において高い評価を得ており、ユーザーから広く好評を得ています。このモデルは2024年11月に初めて発表され、過去数週間はRunwayクリエイタープログラムのユーザーに先行体験版が提供されていました。

NVIDIAがオープンソース化したテキストから画像生成モデルSana：ノートPCでも4K超高画質画像を高速生成

AI画像生成技術は急速に発展していますが、モデルのサイズが大きくなり、一般ユーザーにとっての学習や使用コストが高くなっています。今、"Sana"と呼ばれる新しいテキストから画像へのフレームワークが登場し、最大4096×4096ピクセルの超高解像度画像を効率的に、そして驚くべき速度で生成します。ノートPCのGPUでも動作可能です。Sanaの中核設計には、深層圧縮自己符号化器が含まれています。従来の自己符号化器が画像を8倍に圧縮するのに対し、Sanaが使用する自己符号化器は…

バイトダンスAIアシスタントDoubao、指定テキスト付き画像の一括生成に対応

バイトダンス傘下のAIアシスタントDoubaoは、テキストから画像を生成する機能をアップグレードし、指定テキストを含む画像をワンクリックで生成できるようになりました。Doubaoの大規模言語モデルチームの責任者によると、Doubaoのテキストから画像生成モデルは、LLM（大規模言語モデル）とDIT（デジタル画像技術）を統合したアーキテクチャを採用し、中国語データの学習能力を最適化することで、漢字の生成能力を強化し、生成効果を大幅に向上させました。

阿里云通義万相、新しい画像編集モデルACEを発表　ワンクリックで画像編集を実現

今週、阿里云通義万相チームは新しい画像編集モデルACEを発表しました。ユーザーにより便利でスマートな画像生成と編集サービスを提供することを目的としています。ユーザーは簡単な口語的な指示だけで画像を生成または編集でき、画像編集の複雑さを大幅に簡素化します。このツールは、スタイル写真、分鏡制作、室内デザインなど、幅広い用途に対応しています。ACEモデルは、テキストから画像を生成する機能だけでなく、強力な画像編集機能も備えています。ユーザーは対話形式で制御可能なビジュアル編集や要素修正を行うことができます。

AIニュース