Lors d'une récente conversation en direct, Elon Musk, PDG de Tesla et SpaceX, a déclaré que les données du monde réel utilisables pour entraîner des modèles d'intelligence artificielle étaient presque épuisées. Il s'entretenait avec Mark Penn, président du conseil d'administration de Stagwell. Musk a mentionné : « Nous avons essentiellement épuisé toutes les connaissances humaines accumulées… pour l'entraînement de l'IA. Ce phénomène s'est produit essentiellement l'année dernière. »

Ce point de vue de Musk rejoint la théorie du « pic de données » proposée par Ilya Sutskever, ancien scientifique en chef d'OpenAI, lors de la conférence NeurIPS de décembre dernier. Sutskever a déclaré que l'industrie de l'IA était confrontée à un défi de pénurie de données, et que le manque de données d'entraînement suffisantes à l'avenir obligerait à modifier les méthodes de développement des modèles d'IA.

Pour résoudre ce problème, Musk estime que les données synthétiques constitueront une solution de remplacement viable. Il a souligné que la seule façon de compléter les données du monde réel était d'utiliser des données synthétiques, c'est-à-dire de laisser l'intelligence artificielle elle-même générer des données d'entraînement. Musk a déclaré que l'IA pouvait améliorer ses performances en s'auto-évaluant et en s'optimisant continuellement.

Actuellement, de nombreuses entreprises technologiques telles que Microsoft, Meta, OpenAI et Anthropic utilisent des données synthétiques pour entraîner leurs principaux modèles d'IA. Selon Gartner, 60 % des données utilisées pour les projets d'intelligence artificielle et d'analyse de données seront synthétiques d'ici 2024.

Un avantage notable des données synthétiques est la réduction significative des coûts de développement. Cependant, Musk et d'autres experts soulignent que les données synthétiques ne sont pas sans risques. Des études montrent que les données synthétiques peuvent entraîner une baisse des performances des modèles, des résultats moins innovants et des biais. Si les données synthétiques elles-mêmes présentent des limitations, les résultats finaux du modèle seront également affectés par ces problèmes.

Points clés :

🌍 Les données du monde réel utilisables pour entraîner l'IA sont presque épuisées, ce qui inquiète Musk.   

💡 Les données synthétiques sont considérées comme une solution importante pour l'avenir, et de nombreuses entreprises technologiques les utilisent déjà.   

💰 L'utilisation de données synthétiques permet de réduire considérablement les coûts de développement, mais elle présente également le risque d'une baisse des performances des modèles.