Midjourney, bekannt für seine KI-Bildgenerierungstechnologie, zeigt zunehmende Ambitionen im Bereich der künstlichen Intelligenz. Das Unternehmen mit einer großen Nutzerbasis hat nach Ankündigungen zu selbst entwickelten Berechnungen und KI-Hardware kürzlich gemeinsam mit Machine-Learning-Experten der New York University (NYU) neue Forschungsergebnisse zur Schulung großer Sprachmodelle (LLMs) für die Textgenerierung veröffentlicht.

QQ_1742869272075.png

Die Studie konzentriert sich auf die Verbesserung der Fähigkeiten von LLMs im kreativen Schreiben, mit dem Ziel, dass KI-Modelle, ähnlich wie Open-Source-Modelle wie Metas Llama und Mistral, kreativere Texte erstellen können.

Mehr als nur Bilder: Midjourney setzt auf kreative Textgenerierung

Für ein Unternehmen, das für seine Diffusionsmodell-basierte KI-Bildgenerierung bekannt ist, sendet Midjourneys Vorstoß in die Textgenerierung ein klares Signal: Ihre Ziele gehen weit über visuelle Inhalte hinaus. Wie die Forscher sagen, könnte das Sprichwort „Ein Bild sagt mehr als tausend Worte“ umgeschrieben werden, denn auch das kreative Potenzial von Texten verdient eine gründliche Erforschung. Midjourney beweist mit seinen Taten, dass seine KI-Forschung vielfältig ist.

Weg von der Routine: Innovative Technologien verbessern die Vielfalt des KI-Schreibens

Die auf der KI-Code-Community Hugging Face veröffentlichte Forschungsarbeit stellt zwei neue Technologien vor: „Diversified Direct Preference Optimization“ (DDPO) und „Diversified Odds Ratio Preference Optimization“ (DORPO). Das Hauptziel dieser Technologien ist es, den Umfang der von KI-Modellen generierten Texte zu erweitern, um abwechslungsreichere Inhalte zu liefern, während Kohärenz und Lesbarkeit erhalten bleiben.

Die Forscher weisen darauf hin, dass aktuelle LLMs zwar in Bereichen wie der Beantwortung von Faktenfragen oder der Code-Unterstützung hervorragende Leistungen zeigen und „optimale Lösungen“ generieren können, im Bereich des kreativen Schreibens jedoch aufgrund der Offenheit des Themas mehrere gültige Antworten auf dieselbe Eingabeaufforderung existieren sollten. Beispielsweise könnte ein Mensch auf die Aufforderung „Schreibe eine Geschichte über einen Hund auf dem Mond“ verschiedene Geschichten erfinden: einen von Astronauten zurückgelassenen Hund, Hunde in einer zukünftigen Hunde-Raumkolonie oder einen streunenden Hund, der sich mit Außerirdischen anfreundet.

Durch Anweisungsoptimierung trainierte LLMs tendieren jedoch oft zu ähnlichen Handlungssträngen und Themen. Dies liegt hauptsächlich daran, dass die Nachtraining-Techniken eher auf Benutzerpräferenzen als auf Originalität ausgerichtet sind und beliebte, aber repetitive Antworten verstärken; gleichzeitig glättet die Anweisungsoptimierung möglicherweise die Variabilität und führt dazu, dass das Modell „sichere“, aber wenig originelle Antworten generiert. Darüber hinaus wirken sich bestehende Technologien zur Förderung der Vielfalt (wie die Temperaturregelung) in der Regel nur in der Modellinferenzphase aus, ohne in den Lernprozess des Modells integriert zu werden. Dies führt letztendlich dazu, dass KI-generierte kreative Texte homogen und wenig überraschend wirken.

KI-Modelle neue Wege beschreiten lassen

Um diese Einschränkungen zu überwinden, hat das Midjourney-Forschungsteam bestehende Präferenzoptimierungsmethoden verbessert und DDPO und DORPO eingeführt. Der Kern dieser Innovationen liegt in der Nutzung der „Abweichung“ – dem Unterschied einer Antwort zu anderen Antworten – zur Steuerung des Modelltrainings.

Konkret erhält das Modell während des Trainings eine Schreibaufforderung und mehrere mögliche Antworten. Anschließend wird jede Antwort mit anderen Antworten auf dieselbe Aufforderung verglichen, und es wird ein Abweichungswert berechnet. Seltene, aber hochwertige Antworten erhalten im Training ein höheres Gewicht, wodurch das Modell dazu angeregt wird, aus vielfältigeren Beispielen zu lernen. Durch die Integration der Abweichung in die direkte Präferenzoptimierung (DPO) und die Odds-Ratio-Präferenzoptimierung (ORPO) kann das Modell lernen, qualitativ hochwertigere und abwechslungsreichere Antworten zu generieren. Diese Methode stellt sicher, dass die von der KI generierten Geschichten nicht auf eine einzige, vorhersehbare Struktur beschränkt sind, sondern eine größere Bandbreite an Charakteren, Einstellungen und Themen erkunden können, ähnlich wie menschliche Autoren.

Um die Wirksamkeit dieser neuen Methoden zu überprüfen, trainierten die Forscher ein LLM mit einem Datensatz aus der Reddit-Community r/writingPrompts. Sie wählten Metas Llama-3.1-8B (ein Modell mit 8 Milliarden Parametern) und Mistral AIs Mistral-7B-v0.3 (ein Modell mit 7 Milliarden Parametern) als Basismodelle.

Der Trainingsprozess umfasste zwei Phasen: überwachtes Feintuning (SFT) und Präferenzoptimierung. In der Präferenzoptimierungsphase verwendeten sie zunächst Standard-DPO und ORPO als Baseline und wandten dann DDPO und DORPO an, um abweichungsbasierte Gewichte einzuführen. Schließlich wurde die Modellleistung durch automatische Bewertung (Messung der semantischen und stilistischen Vielfalt) und manuelle Bewertung (Bewertung der Vielfalt und Attraktivität der Ausgaben und Vergleich mit GPT-4 und Claude 3.5) bewertet.

Die Ergebnisse zeigten, dass DDPO bei gleichbleibender Ausgabequalität deutlich besser abschnitt als Standard-DPO. Llama-3.1-8B mit DDPO erzielte das beste Gleichgewicht zwischen Qualität und Vielfalt; die generierten Antworten waren vielfältiger als die von GPT-4 und blieben dennoch kohärent. Auch bei verkleinerten Datensätzen konnte das DDPO-Modell eine gewisse Vielfalt beibehalten.

Stärkung verschiedener Branchen: Grenzenloses Potenzial für kreative KI-Inhalte

Diese Forschung ist für Unternehmen, die KI zur Generierung kreativer Texte einsetzen, von großer praktischer Bedeutung. In Bereichen wie Marketingtexten, Unternehmensgeschichten und der Erstellung von Drehbüchern für Filme und Spiele ist die Verbesserung der Vielfalt und Qualität von KI-generierten Inhalten von entscheidender Bedeutung. Für KI-Teams, die für die Bereitstellung von LLMs verantwortlich sind, ist es eine zentrale Herausforderung, die Vielfalt der Ausgaben bei gleichbleibender Qualität zu verbessern. Die Midjourney-Forschung bietet einen neuen Ansatz zur Lösung dieses Problems.

Die Studie stellt eine neue Methode zum Nachtraining von LLMs vor, die die Kreativität verbessert, ohne die Qualität zu beeinträchtigen. Sie bietet auch eine praktikable Alternative zu Anpassungen der Vielfalt während der Inferenz (z. B. Anpassung der Temperatur), indem sie die Vielfalt direkt in den Lernprozess des Modells integriert. Dies könnte zu ansprechenderen KI-Anwendungen führen, z. B. KI-gestützten Schreibwerkzeugen und virtuellen Assistenten, die ihre Antworten dynamisch anpassen können.

Für Fachleute, die für die Orchestrierung und Automatisierung von KI-Modellen verantwortlich sind, unterstreicht diese Forschung die Bedeutung der Anpassung von Modellen in der Trainingsphase, um die Notwendigkeit von Nachbearbeitungen nach der Bereitstellung zu reduzieren. Sie bietet auch einen Weg, adaptive Erzählungen in KI-gesteuerte Anwendungen einzuführen, um die Variabilität der Inhalte bei gleichbleibend hoher Qualität zu gewährleisten. Darüber hinaus trägt dieser Ansatz dazu bei, dass die Ausgaben von LLMs menschlicher wirken, was für Anwendungen wichtig ist, die interaktive Erzählungen, Kundeninteraktionen oder die Erstellung dynamischer Inhalte erfordern.

Schlussfolgerung

Der Erfolg von DDPO und DORPO zeigt, dass das Training von LLMs mit dem Ziel der Vielfalt zu erheblichen Fortschritten im kreativen Schreiben führen kann. Zukünftige Forschungsrichtungen könnten die Integration abweichungsbasierter Lernmethoden in unternehmerische KI-Modelle zur Verbesserung der Antwortvielfalt in kundenorientierten Anwendungen, die Erforschung dieser Methoden für andere Generierungsaufgaben wie Gedichte, Drehbuchschreiben oder Spielege-schichten sowie die Entwicklung hybrider Trainingsmethoden zum Ausgleich von Vielfalt und Anweisungsbefolgung umfassen.

Das Midjourney-Forschungsteam plant, seinen Code öffentlich zugänglich zu machen, was Entwicklern, die diese Technologien einsetzen möchten, wertvolle Ressourcen bietet. Durch die Übernahme dieser innovativen Technologien können KI-Teams starre, formelhafte Ausgabemuster überwinden und KI-Systeme schaffen, die nicht nur intelligent, sondern auch wirklich fantasievoll sind.

Forschungsarbeit: https://huggingface.co/papers/2503.17126