Les chercheurs du laboratoire Tencent Youtu et de l'Université Jiao Tong de Shanghai ont collaboré pour développer une méthode révolutionnaire d'augmentation des connaissances, ouvrant de nouvelles voies pour l'optimisation des grands modèles. Cette innovation révolutionnaire abandonne les limites du réglage fin traditionnel des modèles, extrayant directement les connaissances à partir de données open source. Cela simplifie considérablement le processus d'optimisation des modèles et permet d'obtenir des performances supérieures aux techniques de pointe (SOTA) actuelles sur plusieurs tâches.
Ces dernières années, les grands modèles de langage (LLM) ont fait des progrès considérables dans divers domaines, mais ils restent confrontés à de nombreux défis dans les applications réelles. Les méthodes traditionnelles d'ajustement fin des modèles nécessitent d'énormes quantités de données annotées et de ressources de calcul, ce qui est souvent difficile à mettre en œuvre pour de nombreuses applications commerciales. Bien que la communauté open source fournisse de nombreux modèles d'ajustement fin et des ensembles de données d'instructions, la manière d'utiliser efficacement ces ressources avec un nombre limité d'échantillons annotés pour améliorer les capacités et les performances de généralisation du modèle reste un défi majeur pour le secteur.
Pour répondre à ce problème, l'équipe de recherche a proposé un nouveau cadre expérimental axé sur l'amélioration des capacités du modèle en utilisant des connaissances open source dans des conditions de données réelles étiquetées K-shot. Ce cadre exploite pleinement la valeur des échantillons limités, améliorant les performances des grands modèles de langage pour des tâches spécifiques.
Les principales innovations de cette recherche incluent :
Sélection efficace des modèles : Évaluation globale de la perplexité de l'inférence, des performances du modèle et de la richesse des connaissances pour maximiser le potentiel des modèles existants avec des données limitées.
Optimisation de l'extraction des connaissances : Conception de méthodes d'extraction des connaissances pertinentes à partir de données open source. Une stratégie de sélection des données équilibrant similarité et diversité fournit des informations complémentaires au modèle tout en réduisant le risque de sur-apprentissage.
Système de modèles adaptatif : Construction d'un système adaptatif basé sur une architecture de modèle d'expert mixte pour permettre la complémentarité des connaissances entre plusieurs modèles efficaces et améliorer les performances globales.
Lors de la phase expérimentale, l'équipe de recherche a effectué une évaluation complète à l'aide de six ensembles de données open source. Les résultats montrent que cette nouvelle méthode surpasse les méthodes de référence et d'autres méthodes de pointe pour toutes les tâches. La visualisation des modes d'activation des experts a également révélé que la contribution de chaque expert au modèle est indispensable, confirmant ainsi l'efficacité de la méthode.
Cette recherche met non seulement en évidence l'énorme potentiel des connaissances open source dans le domaine des grands modèles, mais offre également de nouvelles perspectives pour le développement futur des technologies d'intelligence artificielle. Elle dépasse les limites de l'optimisation traditionnelle des modèles et fournit aux entreprises et aux organismes de recherche des solutions réalisables pour améliorer les performances des modèles avec des ressources limitées.
Avec l'amélioration et la promotion continue de cette technologie, nous pouvons raisonnablement croire qu'elle jouera un rôle important dans la mise à niveau intelligente de divers secteurs. La collaboration entre Tencent Youtu et l'Université Jiao Tong de Shanghai est non seulement un exemple de collaboration entre le monde universitaire et l'industrie, mais aussi une étape importante pour faire progresser la technologie de l'intelligence artificielle vers un niveau supérieur.
Adresse de l'article : https://www.arxiv.org/pdf/2408.15915