アリババの画像生成モデルQwen2vl-Fluxがオープンソース化、画像融合やスタイル変換などをサポート

先日、アリババは最新の画像生成モデルQwen2vl-Fluxのオープンソース化を発表しました。このモデルは、編集、融合、混合など多様な機能を備え、ユーザーが画像またはテキストを入力すると、非常に類似した新しい画像を生成できます。

Qwen2vl-Fluxは強力な画像変換機能を提供します。ユーザーは画像を1枚入力するだけで、テキストプロンプトは不要です。モデルは元の画像に基づいて、複数の類似画像を生成します。例えば、人物写真をアップロードすると、モデルは様々な角度から人物の姿を生成し、異なる視点や感情表現を提示します。

また、テキストによる画像混合もサポートしています。ユーザーが画像と関連するテキストプロンプトを入力すると、Qwen2vl-Fluxは入力画像とテキスト内容を巧みに融合させ、新しい画像効果を生み出します。

上記機能に加え、Qwen2vl-Fluxは画像による画像混合機能も備えています。ユーザーは2枚の異なる画像を組み合わせ、キャラクターの合体やシーンの変換を実現できます。例えば、キャラクターと別の背景を組み合わせると、モデルはシームレスに両者を融合させ、新しい視覚効果を生み出します。

モデルのグリッドスタイル転送機能により、ユーザーは画像を詳細に制御できます。特定の部分を修正し、精密な創作が可能です。例えば、ハイテクと自然環境が融合した画像に、生物発光技術のディテールや森の朝霧の効果を追加し、より豊かな視覚体験を実現できます。

プロジェクトへのアクセス:https://huggingface.co/Djrango/Qwen2vl-Flux

要点:
🌟 Qwen2vl-Fluxはオープンソースで、強力な画像生成と編集機能を備えています。
🖼️ 画像変換とテキストによる画像混合をサポートし、全く新しい視覚効果を生み出します。
🔍 画像による画像混合とグリッドスタイル転送を提供し、ユーザーによる精密な制御を可能にします。

AIニュース