AIGC分野において、テキストプロンプトの技術は極めて重要です。RunwayのGen-3 Alphaモデルのリリースは、生成AIをどのように正確に制御するかについての革命をもたらしました。これは技術の勝利であるだけでなく、創造性と表現力の飛躍でもあります。
Gen-3などの生成AI製品を使用する際、生成結果は期待と大きく異なる場合があります。これは通常、プロンプトが不十分または不正確であるためです。「砂漠の夕日」という単純なプロンプトは曖昧すぎて、モデルが真意を理解できません。
正しい方法は、詳細な視覚的な説明を提供することです。「起伏する砂丘に金色の夕日が降り注ぐ砂漠、隊列を組んで遠方から帰ってくるラクダの群れ、舞い上がる砂塵、高解像度リアルなスローモーション」といった記述は、モデルがあなたのアイデアをより正確に捉えるのに役立ちます。
Gen-3のテキストプロンプト構造
Runwayは、シーン、テーマ、カメラワークの詳細を異なるモジュールに分割することを推奨しています。この構造は明確で、最適な効果が得られます。Gen-3の標準的なプロンプト構造には、シーン設定のためのテキストプロンプトと追加の詳細が含まれます。例えば:
近接撮影:高解像度、指の上にいる好奇心旺盛なミニチュア犬。
シーンの切り替え:アイルランドの城を飛び越え、未来的なサイバーパンク都市の高層ビルを発見する。
Runway Gen-3は効果が高いものの、会員料金が高いため、多くのユーザーがためらっています。Gen-3の会員登録をためらっている方もご安心ください。同じプロンプトは、Stable Diffusionなどの他の生成AIツールにも適用できます。
ただし、製品によってロジックが異なる場合があります。「高解像度、指の上にいる好奇心旺盛なミニチュア犬」というプロンプトをStable Diffusionに直接使用すると、生成結果が期待通りにならない可能性があります。Stable Diffusionは現実的なロジックに基づいて動作するため、生成される犬はミニチュアサイズではなく、Runway Gen-3のような現実と虚構が混ざり合った効果は得られないでしょう。
そのため、Stable Diffusionで同様の効果を得るには、プロンプトを修正する必要があります。生成する犬の小ささを大規模言語モデルに伝える必要があります。
次に、AIbaseはこのロジックを使用して、指先の上のミニチュアシマウマを再現します。プロンプトは以下の通りです。高解像度、指の上を歩く可愛らしいミニチュアシマウマ、アリのように小さい、縮小されたシマウマ
そして、あなたはこんな可愛らしいミニチュアシマウマを得ることができます:
同じ方法で、動物の名前を変えるだけで、様々なミニチュアパンダやトラなどを制作できます。
以下は、公式が提供する詳細なプロンプト例です:
シームレスなトランジション
連続超高速FPVショット:カメラが氷河峡谷をシームレスに飛び越え、夢のような雲の景色に到達する。
カメラワーク
夜、輝く海、発光生物が水中を漂う。発光クラゲのクローズアップから始まり、徐々に広がり、星空の下、様々な発光色で照らされた海全体を映し出す。カメラワーク:クラゲのクローズアップから始まり、ゆっくりと後方に引いて上昇し、輝く海全体を見せる。
テキストタイトルカード
ダイナミックな動きのあるタイトル画面。カラフルなペイントが塗られた壁からシーンが始まる。突然、黒いペイントが壁を流れ落ち、「Runway」という言葉が形成される。滴るペイントはディテールが豊富で、テクスチャが鮮明で、中央に配置され、優れた映画照明効果が施されている。
キーワード
キーワードは、出力で特定のスタイルを実現するのに役立ちます。キーワードを全体のプロンプトと一致させることで、出力でより明確になります。
例えば、広角レンズでは、カメラが顔にピントを合わせられない場合、肌のテクスチャに関するキーワードを追加してもあまり意味がありません。代わりに、環境に関する詳細を追加すると、広角レンズに大きな効果があります。
この整合性を念頭に置いて、プロンプト作成時に試せる様々なキーワードを以下に示します。