Le projet GPT-5 très attendu (nom de code Orion) est en développement depuis plus de 18 mois, mais n'a toujours pas vu le jour. Selon un récent article du Wall Street Journal, des sources bien informées ont révélé qu'Orion, bien qu'il surpasse les modèles actuels d'OpenAI, n'a pas suffisamment progressé pour justifier des investissements supplémentaires considérables. Plus inquiétant encore, la pénurie de données mondiales pourrait constituer le principal obstacle à l'amélioration de l'intelligence de GPT-5.

GPT-5 aurait subi au moins deux phases d'entraînement, chacune révélant de nouveaux problèmes et n'atteignant pas les attentes des chercheurs. Chaque phase d'entraînement a duré plusieurs mois, avec des coûts de calcul atteignant 500 millions de dollars. Le succès et le calendrier de ce projet restent incertains.

OpenAI, ChatGPT, Intelligence Artificielle, IA

Un chemin d'entraînement semé d'embûches : le goulot d'étranglement des données

Depuis la sortie de GPT-4 en mars 2023, OpenAI a commencé à développer GPT-5. Généralement, les capacités d'un modèle d'IA augmentent avec la quantité de données qu'il absorbe. Le processus d'entraînement nécessite une quantité massive de données, prend des mois et repose sur un grand nombre de puces de calcul coûteuses. Le PDG d'OpenAI, Altman, a révélé que le coût d'entraînement de GPT-4 a dépassé 100 millions de dollars, et que les coûts d'entraînement des futurs modèles d'IA devraient dépasser 1 milliard de dollars.

Pour réduire les risques, OpenAI effectue généralement des tests à petite échelle afin de vérifier la faisabilité du modèle. Cependant, le développement de GPT-5 a rencontré des défis dès le départ. Au milieu de l'année 2023, OpenAI a lancé une expérience d'entraînement appelée « Arrakis » pour tester la nouvelle conception de GPT-5. Mais les progrès ont été lents et coûteux, et les résultats ont montré que le développement de GPT-5 était plus complexe et difficile que prévu.

Par conséquent, l'équipe de recherche d'OpenAI a décidé d'apporter une série d'ajustements techniques à Orion et a réalisé que les données publiques disponibles sur Internet ne suffisaient plus aux besoins du modèle. Pour améliorer les performances de GPT-5, ils ont désespérément besoin de données plus variées et de meilleure qualité.

« Créer des données à partir de zéro » : faire face à la pénurie de données

Pour pallier le manque de données, OpenAI a décidé de « créer des données à partir de zéro ». Ils ont embauché des ingénieurs logiciels et des mathématiciens pour écrire de nouveaux codes logiciels ou résoudre des problèmes mathématiques, permettant à Orion d'apprendre de ces tâches. OpenAI demande également à ces experts d'expliquer leur processus de travail, transformant l'intelligence humaine en connaissances exploitables par les machines.

De nombreux chercheurs estiment que le code, en tant que langage logiciel, peut aider les grands modèles à résoudre des problèmes qu'ils n'ont jamais rencontrés. Jonathan Siddharth, PDG de Turing, a déclaré : « Nous sommes en train de transférer l'intelligence humaine du cerveau humain au cerveau machine. »

OpenAI a même collaboré avec des experts de domaines tels que la physique théorique, leur demandant d'expliquer comment résoudre les problèmes complexes de leurs domaines respectifs. Cependant, cette méthode de « création de données à partir de zéro » n'est pas très efficace. Les données d'entraînement de GPT-4 comprenaient environ 13 000 milliards de jetons. Même avec 1000 personnes écrivant 5000 mots par jour, il faudrait des mois pour produire 1 milliard de jetons.

Pour accélérer l'entraînement, OpenAI a également essayé d'utiliser des « données synthétiques » générées par l'IA. Mais des recherches ont montré que l'utilisation de données générées par l'IA dans une boucle de rétroaction pour l'entraînement de l'IA peut parfois entraîner des erreurs dans le modèle ou la génération de réponses absurdes. À cet égard, les scientifiques d'OpenAI pensent que l'utilisation de données générées par o1 peut éviter ces problèmes.

Problèmes internes et externes : OpenAI confronté à de multiples défis

OpenAI est non seulement confronté à des défis techniques, mais aussi à des troubles internes et au recrutement de ses concurrents. Parallèlement, les pressions techniques et financières augmentent. Chaque phase d'entraînement coûte 500 millions de dollars, et le coût total de l'entraînement pourrait dépasser 1 milliard de dollars. Dans le même temps, des concurrents tels qu'Anthropic et Google lancent de nouveaux modèles de nouvelle génération pour tenter de dépasser OpenAI.

La fuite de talents et les divergences internes ont encore ralenti le développement. L'année dernière, le conseil d'administration d'OpenAI a licencié Altman de manière inattendue, ce qui a conduit certains chercheurs à remettre en question l'avenir de l'entreprise. Bien qu'Altman ait rapidement été nommé à nouveau PDG et ait commencé à réformer la gouvernance de l'entreprise, plus de 20 cadres supérieurs, chercheurs et employés de longue date, dont le cofondateur et scientifique en chef Ilya Sutskever et la responsable technique Mira Murati, ont quitté l'entreprise cette année.

Avec le ralentissement du projet Orion, OpenAI a commencé à développer d'autres projets et applications, notamment une version simplifiée de GPT-4 et le produit de génération de vidéos IA Sora. Mais cela a entraîné une concurrence entre les différentes équipes pour l'accès aux ressources de calcul limitées, notamment entre les équipes de développement de nouveaux produits et l'équipe de recherche Orion.

Un goulot d'étranglement du développement de l'IA ? Le secteur doit réfléchir profondément

Les difficultés rencontrées par GPT-5 pourraient révéler un problème plus important du secteur : l'IA est-elle en train d'approcher un « goulot d'étranglement » de son développement ? Des experts du secteur soulignent que la stratégie consistant à utiliser des quantités massives de données et des modèles plus importants est en train de perdre de son efficacité. L'ancien scientifique d'OpenAI, Sutskever, a déclaré : « Nous n'avons qu'un seul Internet », la croissance des données ralentit, et ce « combustible fossile » qui a propulsé les progrès de l'IA est en train de s'épuiser.

Altman n'a toujours pas donné de calendrier précis pour l'avenir de GPT-5. Nous ne savons toujours pas quand, ni même si, OpenAI lancera un modèle digne d'être appelé GPT-5. Les difficultés rencontrées par GPT-5 ont également suscité une réflexion approfondie sur l'avenir du développement de l'IA.