Midjourney, célèbre pour sa technologie de génération d'images par IA, révèle insidieusement ses ambitions plus vastes dans le domaine de l'intelligence artificielle. Cette entreprise technologique, qui compte un vaste bassin d'utilisateurs, a récemment publié, en collaboration avec des experts en apprentissage automatique de l'Université de New York (NYU), les résultats d'une nouvelle étude sur l'entraînement de grands modèles linguistiques (LLM) pour la génération de texte, suite à des annonces concernant le développement de son propre calcul et matériel IA.

QQ_1742869272075.png

Cette étude se concentre sur l'amélioration des capacités de création littéraire des LLM, visant à permettre aux modèles d'IA de produire des textes plus créatifs, à l'instar des modèles open source tels que Llama de Meta et Mistral.

Au-delà de l'image : Midjourney se lance dans la génération de texte créatif

Pour une entreprise réputée pour sa technologie de génération d'images par IA basée sur les modèles de diffusion, l'initiative de Midjourney dans le domaine de la génération de texte envoie un message clair : ses ambitions dépassent largement le contenu visuel. Comme le disent les chercheurs, le dicton « une image vaut mille mots » pourrait être remis en question, le potentiel créatif du texte méritant une exploration approfondie. Midjourney prouve par ses actions que ses explorations dans le domaine de l'IA sont diversifiées.

Dire adieu aux « formules » : des technologies innovantes pour une plus grande diversité d'écriture par IA

L'article de recherche, publié sur la communauté de code IA Hugging Face, présente deux nouvelles techniques, nommées « optimisation des préférences directes diversifiées » (Diversified Direct Preference Optimization, DDPO) et « optimisation des préférences du ratio de cotes diversifiées » (Diversified Odds Ratio Preference Optimization, DORPO). L'objectif principal de ces deux techniques est d'élargir la portée des textes générés par les modèles d'IA, afin qu'ils présentent un contenu plus riche et varié, tout en maintenant la cohérence et la lisibilité.

Les chercheurs soulignent que si les LLM actuels excellent dans les domaines de la réponse factuelle ou de l'assistance au codage, capables de générer des « solutions optimales », le domaine de la création littéraire, en raison de son caractère ouvert, devrait permettre plusieurs réponses valides à une même consigne. Par exemple, pour une consigne comme « écrivez une histoire sur un chien sur la Lune », un humain pourrait imaginer un chien de compagnie oublié par un astronaute, des chiens dans une future colonie spatiale canine, ou encore un chien errant se liant d'amitié avec des créatures extraterrestres, autant de scénarios radicalement différents.

Cependant, les LLM optimisés par instructions ont tendance à converger vers des intrigues et des thèmes similaires. Cela est principalement dû au fait que les techniques d'entraînement ultérieures privilégient les préférences des utilisateurs plutôt que l'originalité, renforçant ainsi les réponses populaires mais répétitives ; l'optimisation par instructions peut également lisser la variabilité, incitant le modèle à générer des réponses « sûres » mais manquant de nouveauté. De plus, les techniques existantes de promotion de la diversité (comme l'ajustement de la température) agissent généralement uniquement au stade de l'inférence du modèle, sans être intégrées au processus d'apprentissage du modèle. Cela conduit finalement à une homogénéisation des écrits créatifs générés par l'IA, manquant de surprise et de profondeur.

Permettre aux modèles d'IA de « sortir des sentiers battus »

Pour surmonter ces limitations, l'équipe de recherche de Midjourney a amélioré les méthodes d'optimisation des préférences existantes, en introduisant DDPO et DORPO. L'élément central de ces innovations réside dans l'utilisation de la « déviation » — c'est-à-dire le degré de différence entre une réponse et les autres réponses — pour guider l'entraînement du modèle.

Concrètement, pendant l'entraînement, le modèle reçoit une consigne d'écriture et plusieurs réponses possibles. Ensuite, chaque réponse est comparée aux autres réponses pour la même consigne, et un score de déviation est calculé. Les réponses rares mais de haute qualité reçoivent un poids plus important pendant l'entraînement, encourageant ainsi le modèle à apprendre à partir d'exemples plus diversifiés. En intégrant la déviation dans l'optimisation des préférences directes (DPO) et l'optimisation des préférences du ratio de cotes (ORPO), le modèle peut apprendre à générer des réponses de meilleure qualité et plus diversifiées. Cette méthode garantit que les histoires générées par l'IA ne se limitent pas à une structure unique et prévisible, mais peuvent explorer un éventail plus large de personnages, de contextes et de thèmes, à l'instar des écrivains humains.

Pour vérifier l'efficacité de ces nouvelles méthodes, les chercheurs ont utilisé un jeu de données de la communauté Reddit r/writingPrompts pour entraîner le LLM. Ils ont choisi Llama-3.1-8B de Meta (un modèle à 8 milliards de paramètres) et Mistral-7B-v0.3 de Mistral AI (un modèle à 7 milliards de paramètres) comme modèles de base.

Le processus d'entraînement comprenait deux phases : l'ajustement fin supervisé (SFT) et l'optimisation des préférences. Dans la phase d'optimisation des préférences, ils ont d'abord utilisé les DPO et ORPO standard comme référence, puis ont appliqué DDPO et DORPO pour introduire des poids basés sur la déviation. Enfin, les performances du modèle ont été évaluées par une évaluation automatique (mesurant la diversité sémantique et stylistique) et une évaluation humaine (jugeant la diversité et l'attrait des sorties, et en les comparant à GPT-4 et Claude 3.5).

Les résultats expérimentaux montrent que DDPO surpasse de manière significative le DPO standard tout en maintenant la qualité des sorties. Le Llama-3.1-8B équipé de DDPO a trouvé le meilleur équilibre entre qualité et diversité, ses réponses étant plus diversifiées que celles de GPT-4 tout en conservant une bonne cohérence. Même avec une réduction de la taille du jeu de données, le modèle DDPO a pu maintenir une certaine diversité.

Donner des moyens d'agir à divers secteurs : le potentiel infini du contenu créatif par IA

Cette recherche revêt une importance pratique considérable pour les entreprises qui ont besoin de générer du texte créatif à l'aide de l'IA. Par exemple, dans les domaines du marketing, du récit d'entreprise et de la création de scénarios pour le cinéma et les jeux vidéo, l'amélioration de la diversité et de la qualité du contenu généré par l'IA est essentielle. Pour les équipes d'IA responsables du déploiement des LLM, savoir comment améliorer la diversité des sorties tout en garantissant la qualité est un défi majeur. La recherche de Midjourney propose une nouvelle approche pour résoudre ce problème.

Cette étude propose une nouvelle méthode d'entraînement post-LLM qui permet d'améliorer la créativité sans sacrifier la qualité. Elle fournit également une solution pratique qui peut remplacer les ajustements de diversité au moment de l'inférence (comme l'ajustement de la température), en intégrant la diversité directement dans le processus d'apprentissage du modèle. Cela pourrait permettre de développer des applications d'IA plus attrayantes, telles que des outils d'aide à l'écriture par IA et des assistants virtuels capables d'adapter dynamiquement leurs réponses.

Pour les professionnels chargés de l'orchestration et de l'automatisation des modèles d'IA, cette recherche souligne l'importance d'ajuster les modèles au stade de l'entraînement, réduisant ainsi le besoin d'ajustements post-traitement après le déploiement. Elle propose également une méthode pour introduire une narration adaptative dans les applications pilotées par l'IA, garantissant la variabilité du contenu tout en maintenant une haute qualité. De plus, cette méthode contribue à rendre les sorties des LLM plus humaines, ce qui est essentiel pour les applications nécessitant une narration interactive, une interaction client ou une création de contenu dynamique.

Conclusion

Le succès de DDPO et DORPO montre que l'entraînement des LLM axé sur la diversité peut permettre des progrès significatifs dans le domaine de la création littéraire. À l'avenir, l'intégration de méthodes d'apprentissage basées sur la déviation dans les modèles d'IA d'entreprise afin d'améliorer la diversité des réponses dans les applications orientées client, l'exploration de ces méthodes dans d'autres tâches de génération telles que la poésie, la création de scénarios ou les histoires de jeux, ainsi que le développement de méthodes d'entraînement mixtes permettant d'équilibrer la diversité et le respect des instructions, seront des axes de recherche prometteurs.

L'équipe de recherche de Midjourney prévoit de rendre son code public, ce qui offrira aux développeurs qui souhaitent utiliser ces technologies une ressource précieuse. En adoptant ces technologies innovantes, les équipes d'IA pourront dépasser les modèles de sortie rigides et formulés, pour construire des systèmes d'IA non seulement intelligents, mais aussi véritablement imaginatifs.

Article : https://huggingface.co/papers/2503.17126