Dans le monde de l'intelligence artificielle, les grands modèles de langage (LLM) sont devenus une force motrice essentielle pour les tâches de traitement du langage naturel (TLN). Cependant, pour que ces modèles puissent véritablement comprendre et générer du contenu multi-modal, comme la parole et le texte, il reste encore un long chemin à parcourir. Une équipe de chercheurs de l'Université Fudan propose une solution innovante dans leur article "SpeechGPT : Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities" : SpeechGPT.
SpeechGPT est un nouveau type de grand modèle de langage capable non seulement de comprendre la parole et le texte, mais aussi de passer facilement de l'un à l'autre. Le cœur de cette technologie réside dans la discrétisation des signaux vocaux continus, permettant une unification avec la modalité textuelle et conférant ainsi au modèle la capacité de percevoir et de générer de la parole.
En termes simples, il peut percevoir et exprimer des émotions, et fournir des réponses vocales de styles variés en fonction du contexte et des instructions humaines. Qu'il s'agisse de rap, de théâtre, de voix de robot, d'humour ou de chuchotements, SpeechGPT peut générer des voix de style approprié grâce à plus de 100 000 heures de données vocales académiques et collectées sur le terrain, couvrant un large éventail de contextes et de styles vocaux.
Pour entraîner SpeechGPT, l'équipe de recherche a adopté une stratégie d'entraînement en trois phases :
Pré-entraînement d'adaptation modale : Dans cette phase, le modèle est entraîné sur un grand nombre de données vocales non étiquetées pour prédire l'unité discrète suivante, s'adaptant ainsi à la modalité vocale.
Ajustement fin des instructions multimodales : En utilisant l'ensemble de données SpeechInstruct, qui contient des instructions pour diverses tâches, le modèle apprend à comprendre et à exécuter des instructions multimodales à cette étape.
Ajustement fin des instructions de chaîne modale : Dans cette phase, le modèle est affiné pour optimiser ses capacités de conversion entre les modalités.
Pour soutenir l'entraînement de SpeechGPT, l'équipe de recherche a créé le premier ensemble de données d'instructions vocales multimodales à grande échelle, SpeechInstruct. Cet ensemble de données contient des données d'instructions multimodales et des données d'instructions de chaîne modale, couvrant divers types de tâches.
Les résultats expérimentaux montrent que SpeechGPT présente de fortes capacités dans les tâches textuelles, les tâches multimodales et les tâches de dialogue oral. Il peut comprendre et exécuter avec précision diverses instructions, qu'il s'agisse de transcrire de la parole en texte, de convertir du texte en parole ou de mener un dialogue oral.
Il est à noter que, bien que SpeechGPT présente des capacités exceptionnelles, il présente encore quelques lacunes en termes de robustesse au bruit de la compréhension vocale et de stabilité de la qualité sonore de la génération vocale. Ces défis sont principalement dus aux limitations des ressources de calcul et de données. Actuellement, SpeechGPT est encore en développement, et l'équipe prévoit de publier prochainement le rapport technique, le code et les poids du modèle en open source, afin que la communauté de recherche puisse participer plus largement au développement et à l'amélioration de cette technologie.
Adresse de la page du projet : https://top.aibase.com/tool/speechgpt2