Récemment, Epochai, un institut de recherche spécialisé dans l'AIGC, a publié un rapport d'étude majeur. Ce rapport indique que les ensembles de données d'entraînement textuelles de haute qualité accessibles publiquement contiennent environ 300 000 milliards de jetons. Cependant, avec l'appétit croissant des grands modèles comme ChatGPT, ces données pourraient être épuisées entre 2026 et 2032 !
Les chercheurs soulignent particulièrement que le « sur-entraînement » est le principal responsable de la consommation accélérée des données d'entraînement. Par exemple, le sur-entraînement de la version 8B du modèle Llama3 récemment open-sourcé par Meta a atteint le chiffre étonnant de 100 fois ! Si tous les modèles adoptent cette approche, nos données pourraient disparaître dès 2025.
Mais ne vous inquiétez pas, il existe des solutions. Epochai propose quatre nouvelles méthodes pour obtenir des données d'entraînement, afin de mettre fin au cauchemar de la « pénurie de données » dans le domaine de l'IA.
1) Données synthétiques : À l'image d'un plat préparé avec un kit de cuisine, les données synthétiques utilisent l'apprentissage profond pour simuler des données réelles et générer de nouvelles données. Cependant, il ne faut pas se réjouir trop vite, car la qualité des données synthétiques peut être inégale, entraînant un risque de sur-apprentissage et un manque de subtilités linguistiques propres aux textes réels.
2) Apprentissage multi-modal et inter-domaines : Cette méthode ne se limite pas au texte, mais inclut également des données de plusieurs types, telles que des images, des vidéos et des fichiers audio. Comme dans un karaoké, où l'on peut chanter, danser et jouer, l'apprentissage multi-modal permet aux modèles de comprendre et de traiter les tâches complexes de manière plus complète.
3) Données privées : Le volume total actuel des données textuelles privées dans le monde est d'environ 31 000 milliards de jetons, soit plus de 10 fois le volume des données publiques ! Cependant, l'utilisation de données privées nécessite une extrême prudence, car la confidentialité et la sécurité sont des éléments essentiels. De plus, le processus d'acquisition et d'intégration de données non publiques peut être très complexe.
4) Apprentissage par interaction en temps réel avec le monde réel : Permettre aux modèles d'apprendre et de progresser grâce à une interaction directe avec le monde réel. Cette méthode exige que les modèles possèdent une autonomie et une capacité d'adaptation, qu'ils comprennent précisément les instructions des utilisateurs et qu'ils puissent agir dans le monde réel.