バイトダンスと中国・シンガポール大学の研究チームが共同開発した新型AI画像編集システム「PhotoDoodle」は、画像創作に対する私たちの理解を塗り替えています。Flux.1モデルをベースにしたこの革新的な技術は、少量のサンプルから芸術様式を学習し、特定の編集指示を正確に実行することで、クリエイティブな表現に新たな可能性を切り開きます。
Flux.1を基盤に
PhotoDoodleの中核は、研究チームが最初に開発したOmniEditorシステムです。これは、ドイツのスタートアップ企業Black Forest LabsのFlux.1画像生成モデルを、LoRA(低ランク適応)技術を用いて巧みに改良したものです。この手法は、元のモデルの重みを完全に作り直す必要がなく、専用の小型行列を追加することで、微細な概念調整から完全なスタイル変換までを実現します。
その後、研究者たちはEditLoRAという変種を用いてOmniEditorを訓練し、独自の芸術様式を複製できるようにしました。アーティストと協力して作成された厳選された画像ペアを通じて、システムは各芸術様式の微妙なニュアンスを習得します。
PhotoDoodleは元の画像の構図を維持しながら、モンスター、魔法効果、装飾的なイラストなどの面白い要素を追加します。| 画像:Huangら
「位置エンコーディングクローン」:画面の調和と統一性を維持
PhotoDoodleで最も注目すべき革新は、「位置エンコーディングクローン」技術です。この技術により、AIは元の画像の各ピクセルの正確な位置を記憶できるため、新しい要素を追加しても画面の構図の整合性を維持し、新しく追加された要素が自然に背景に溶け込むようにすることができます。
これは、従来の画像編集AIの重要な課題、つまり、画像全体のスタイルを変更するか、局所領域のみを編集するかしかできず、元の視点や背景を維持しながら新しい装飾要素を取り込むことが難しいという問題を解決します。PhotoDoodleは、追加のパラメータトレーニングなしでこのブレークスルーを実現し、処理効率を大幅に向上させます。
PhotoDoodleは、かわいい漫画のモンスターから手描きの線画や色彩効果まで、さまざまな芸術様式を用いて日常写真を変換します。| 画像:Huangら
単一画像トレーニングへの展望
実際のテストでは、PhotoDoodleは「猫をもう少し白くする」から「建物を登るピンクのモンスターを追加する」まで、さまざまな複雑な指示に容易に対応します。既存の技術と比較して、画像とテキストの説明の類似度などのベンチマークテストで優れたパフォーマンスを示し、ターゲット指向の編集とグローバルな画像変更の両方において、同類製品をはるかに凌駕しています。
PhotoDoodleと既存のAI画像編集システムの比較では、特定の指示の実行品質に明確な違いが見られます。| 画像:Huangら
現在、PhotoDoodleは新しいスタイルを習得するために数十対の画像と数千回のトレーニングステップを必要としています。研究チームは、より効率的な単一画像トレーニング手法を目指しており、6種類の異なる芸術様式と300以上の画像ペアを含むデータセットを公開し、関連コードもGitHubでオープンソース化することで、将来の研究のための堅実な基盤を提供しています。
アドレス:https://github.com/showlab/PhotoDoodle