グーグルの研究チームは最近、画期的な技術「Alchemist」を発表しました。この技術を使えば、専門的な画像編集ソフトやスキルがなくても、画像内の物体の材質属性(色、光沢、透明度など)を正確に編集できます。

Alchemist技術の中核は、微調整された「テキストから画像へ」(Text-to-Image、T2I)生成モデルです。研究チームは合成データセットを作成し、Stable Diffusion 1.5モデルのアーキテクチャを修正することで、材質パラメータの精密な制御を実現しました。

QQ截图20240729101021.jpg

具体的には、研究者たちはまず、コンピュータグラフィックスと物理ベースのレンダリング技術を用いて、大量の合成画像を生成しました。これらの画像には様々な3Dモデルが含まれており、材質、カメラアングル、照明条件はランダムに選択されています。その後、これらの画像の単一属性を変更し、編集強度が異なる複数のバージョンを作成しました。

これらの合成データで微調整を行うことで、モデルは、コンテキスト画像、指示、編集強度値が与えられた場合に、指定された材質属性のみを変更し、物体の形状や画像の照明は維持する方法を学習しました。

実験結果によると、この技術は物体の外観を効果的に変更できます(金属感を高めたり、透明度を調整したりなど)。ユーザー調査では、ベースライン手法と比較して、写真写実性とユーザーの嗜好性の両方で顕著な利点が見られました。

QQ截图20240729101033.jpg

この技術の応用範囲は広大です。インテリアデザイナーが部屋の塗り替えの効果をプレビューしたり、建築家、アーティスト、デザイナーが新しい製品のデザインスケッチを迅速に作成したりするのに役立ちます。さらに、編集効果が視覚的に一貫しているため、NeRF(ニューラル放射場)の再構築などの下流の3Dタスクにも使用できます。

Alchemist技術は材質編集において著しい進歩を遂げていますが、研究チームはいくつかの限界も指摘しています。例えば、画像内の隠れた細部を処理する場合、モデルはまだ改善の余地があります。

しかし、研究者たちは、この技術が制御可能な材質編集において大きな可能性を秘めていると確信しています。さらなる研究と最適化によって、Alchemistは画像編集分野に革命的な変化をもたらし、複雑な材質編集タスクをより簡単で直感的にするでしょう。

グーグルのAlchemist技術は、人工知能が画像処理分野で達成したもう一つの大きなブレークスルーです。複雑な画像編集プロセスを簡素化するだけでなく、クリエイティブ産業に新たな可能性をもたらし、デザイン、アート、仮想現実など多くの分野に大きな影響を与えるでしょう。

プロジェクトアドレス:https://prafullsharma.net/alchemist/