Midjourneyとニューヨーク大学の研究者らが共同で、創造的なテキスト生成における言語モデルの多様性を大幅に向上させながら、品質の低下を最小限に抑える革新的な手法を開発しました。

最新の研究論文で発表されたこの技術の中核は、「偏差指標」をAIのトレーニングプロセスに導入することです。その動作原理は、生成された各テキストと、同じプロンプトに対して作成された他のテキストとの間の差異を定量化することです。研究者らは、テキストとそのペアの余弦距離を用いてこれらの差異を計算し、システムにテキストの変動性を理解するための数学的枠組みを提供しました。この新しいトレーニング手法は、大規模言語モデル(LLM)の応答間の差異を評価することで、出力の多様性を強化します。

1743301982904.png

このトレーニング方法は、LLMの応答間の差異を評価することで出力の多様性を強化します。|画像:Chung et al.

予備的なテスト結果は有望です。この新しいトレーニング手法を採用したモデルは、テキストの多様性が23%向上し、Redditの報酬システムによる評価では、品質スコアはわずか5%低下しました。

具体的なテストケースは、この手法の効果を明確に示しています。研究者らが標準的なGPT-4oモデルに「愛しい人よ、なぜ震えているのか?今はお前が王だ」というプロンプトを与えたところ、モデルは主に緊張した新国王に関する物語を生成しました。しかし、改良されたLlama-3.1-8Bモデル(規模は小さいものの)は、熊の王子に関するダークファンタジーや、水中での超自然的な伝説など、さまざまなテーマを網羅した、スタイルの異なる物語を生み出し、以前のモデルをはるかに凌駕する創造性を示しました。人間のテスト参加者のフィードバックもこれらの発見を裏付けており、彼らはこれらのテキストが品質を維持しながら、より豊かな多様性を示していると評価しました。注目すべきは、研究者らが対象としたのは、より自然なテキストを生成する新世代のGPT-4.5ではなく、比較的古いGPT-4oモデルであることです。研究データは、改良されたモデルが、他のモデルよりも物語の質と多様性の両方において優れていることを示しています。

研究チームは、意味の変化(異なる物語の内容と筋書き)と文体の変化(異なる作者の作品のように聞こえる書き方)の2種類の多様性に焦点を当てました。彼らはそれぞれのタイプに対して特定のバリエーションを開発しましたが、実験の結果、両方を組み合わせることで最適な結果が得られることがわかりました。

1743302009026.png

データは、修正されたモデルが他のモデルよりも物語の質と多様性の両方において優れていることを示しています。|画像:Chung et al.

研究では、Redditコミュニティr/WritingPromptsから10万組以上のプロンプトと応答のデータを使用しました。彼らは、プロンプトごとに4つの異なる応答があれば、モデルの多様性を大幅に向上させることができることを発見しました。さらに、このシステムは、厳選されたトレーニングサンプルを使用したり、異なる応答に対して最低品質基準を設定したりすることで、出力の品質を維持することができ、出力の多様性を向上させる上で他の手法よりも柔軟性があります。

将来性のある技術ですが、さらなる調査が必要な課題もいくつかあります。研究者らは、彼らの手法が技術文書や要約など、異なる処理が必要となる可能性のある創造的なライティング以外の分野にも適用できるかどうかを検証していません。また、多くの大型モデルで使用されているオンライントレーニング環境におけるこの技術の有効性も十分にテストされていません。

さらに、品質を測定するために使用されたRedditのいいね数システム自体にも限界があります。いいね数はテキストの品質に関する一定の参考を提供しますが、技術的な正確性、一貫性、専門的なライティング基準などの重要な要素を無視しているため、将来的にはより包括的な評価方法が必要となる可能性があります。

これらの未解決の問題があるにもかかわらず、この新技術は、現在のモデルがしばしば反復的なパターンに陥りがちな創造的なライティングタスクにおける大規模言語モデルの処理方法を根本的に変える可能性があります。研究者らは、他の研究者や開発者が参考にできるように、GitHubでコードを公開する予定です。