AI画像生成技術で広く知られるMidjourneyは、人工知能分野における更なる野心を静かに示しつつあります。膨大なユーザーを抱えるこのテクノロジー企業は、独自開発の計算技術とAIハードウェアに関する発表の後、最近、ニューヨーク大学(NYU)の機械学習専門家と協力し、大規模言語モデル(LLM)のトレーニングに関する最新の研究成果を発表しました。

QQ_1742869272075.png

この研究は、LLMの創造的な文章作成能力の向上に焦点を当てており、MetaのLlamaやMistralなどのオープンソースモデルのように、より創造的なテキストを作成できるAIモデルを目指しています。

画像だけではない:Midjourneyが創造的なテキスト生成に注力

拡散モデルによるAI画像生成技術で知られる企業にとって、Midjourneyによるテキスト生成分野への取り組みは、彼らの目標が視覚コンテンツだけではないことを明確に示しています。研究者らが述べているように、「百聞は一見に如かず」という従来の考え方は変わる可能性があり、テキストの創造的な可能性も深く掘り下げる価値があります。Midjourneyは、AI分野における探求が多様であることを実践で証明しています。

「型にはまらない」:革新的な技術でAIライティングの多様性を向上

AIコードコミュニティHugging Faceで発表されたこの研究論文では、「多様化直接選好最適化」(Diversified Direct Preference Optimization、DDPO)と「多様化オッズ比選好最適化」(Diversified Odds Ratio Preference Optimization、DORPO)という2つの新しい技術を革新的に提案しています。これらの技術の中心的な目標は、AIモデルが生成するテキストの範囲を広げ、一貫性と可読性を維持しながら、より豊かで多様なコンテンツを提供することです。

研究者らは、現在のLLMは事実確認の質問応答やコード支援などの分野で優れた性能を示し、「最適解」を生成できるものの、創造的な文章作成分野では、その開放性から、同じプロンプトに対して複数の有効な回答が存在するべきだと指摘しています。例えば、「月面で暮らす犬の物語を書いてください」というプロンプトに対して、人間は、宇宙飛行士が月面に置き去りにしたペット犬、未来の犬の宇宙植民地の犬、あるいは宇宙生物と友達になった野良犬など、全く異なる複数の筋書きを思い付く可能性があります。

しかし、指示調整されたLLMは、類似したストーリーラインとテーマに収束することがよくあります。これは主に、後期のトレーニング技術が独創性よりもユーザーの好みに重点を置いているため、人気のあるが反復的な回答が強化されるためです。また、指示調整は変動性を平滑化し、モデルが「安全」だが独創性に欠ける回答を生成する傾向を生み出す可能性もあります。さらに、既存の多様性促進技術(温度調整など)は通常、モデルの推論段階でのみ機能し、モデルの学習プロセスには組み込まれていません。これにより、最終的にAIが生成する創造的な文章は同質化され、驚きと深みに欠けることになります。

AIモデルに「別の道」を開かせる

これらの限界を克服するために、Midjourneyの研究チームは既存の選好最適化手法を改良し、DDPOとDORPOを導入しました。「偏差」(deviation)つまり、ある応答と他の応答の違いの程度を利用してモデルのトレーニングを導くことが、これらの革新の中心です。

具体的には、トレーニング中に、モデルは書き込みプロンプトと複数の可能な回答を受け取ります。その後、各回答は同じプロンプトの下での他の回答と比較され、偏差スコアが計算されます。まれだが高品質な応答は、トレーニングでより高い重みが与えられ、モデルがより多様な例から学習することを促します。偏差を直接選好最適化(DPO)とオッズ比選好最適化(ORPO)に組み込むことで、モデルはより高品質でより多様な応答を学習することができます。この方法により、AIが生成する物語は、単一の予測可能な構造に限定されることなく、人間作家のように、より幅広い役割、設定、テーマを探求することができます。

これらの新しい手法の有効性を検証するために、研究者らはRedditコミュニティr/writingPromptsのデータセットを使用してLLMをトレーニングしました。MetaのLlama-3.1-8B(80億パラメーターのモデル)とMistral AIのMistral-7B-v0.3(70億パラメーターのモデル)を基本モデルとして選択しました。

トレーニングプロセスには、教師あり微調整(SFT)と選好最適化の2つの段階が含まれます。選好最適化段階では、まず標準のDPOとORPOをベースラインとして使用し、次にDDPOとDORPOを適用して偏差に基づく重み付けを導入しました。最後に、自動評価(意味と文体の多様性を測定)と人的評価(出力の多様性と魅力を判断し、GPT-4とClaude3.5と比較)によってモデルの性能を評価しました。

実験の結果、DDPOは出力の品質を維持しながら、標準のDPOを大幅に上回ることが示されました。DDPOを搭載したLlama-3.1-8Bは、品質と多様性のバランスが最適であり、生成された応答はGPT-4よりも多様性が高く、良好な一貫性を維持していました。データセットの規模を縮小した場合でも、DDPOモデルは一定の多様性を維持することができました。

様々な業界への活用:AI創造的コンテンツの可能性は無限大

この研究は、AIで創造的なテキストを生成する必要がある企業にとって、重要な現実的な意味を持ちます。例えば、マーケティングコピー、企業ストーリーテリング、映画やゲームの脚本作成などの分野では、AI生成コンテンツの多様性と品質の向上は非常に重要です。LLMの展開を担当するAIチームにとって、品質を確保しながら出力の多様性を高める方法は重要な課題です。Midjourneyの研究はこの課題に対する新しいアプローチを提供しています。

この研究では、品質を犠牲にすることなく創造性を高めることができる新しいLLM後トレーニング手法が提案されています。また、推論時の多様性調整(温度調整など)に代わる実用的な代替手段を提供し、多様性をモデルの学習プロセスに直接組み込んでいます。これにより、AIアシストライティングツールや応答を動的に調整できる仮想アシスタントなど、より魅力的なAIアプリケーションを開発できる可能性があります。

AIモデルのオーケストレーションと自動化を担当する専門家にとって、この研究は、展開後の後処理調整の必要性を減らすために、トレーニング段階でモデルを調整することの重要性を強調しています。また、コンテンツの可変性を確保しながら高品質を維持する、AI駆動型アプリケーションに適応型ナラティブを導入する方法を提供しています。さらに、この手法はLLMの出力をより人間らしくすることに役立ち、インタラクティブなナラティブ、顧客とのやり取り、または動的なコンテンツ作成を必要とするアプリケーションにとって非常に重要です。

結論

DDPOとDORPOの成功は、多様性を目標としたLLMのトレーニングが、創造的な文章作成において著しい進歩をもたらす可能性を示しています。今後、顧客向けアプリケーションにおける応答の多様性を高めるために、偏差に基づく学習手法を企業のAIモデルに統合すること、詩、脚本、ゲームのストーリーなどの他の生成タスクにおけるこれらの手法の応用を探求すること、そして多様性と指示遵守能力のバランスをとる混合トレーニング手法を開発することは、期待される研究方向です。

Midjourneyの研究チームはコードを公開する予定であり、これはこれらの技術を適用したい開発者にとって貴重なリソースとなるでしょう。これらの革新的な技術を採用することで、AIチームは硬直的で定型的な出力パターンを打破し、インテリジェントで真に想像力豊かなAIシステムを構築できる可能性があります。

論文:https://huggingface.co/papers/2503.17126