NExT-GPT : Un Modèle Linguistique Multimodal de l'Université Nationale de Singapour

L'Université Nationale de Singapour a publié NExT-GPT, un modèle linguistique multimodal capable de traiter du texte, des images, des vidéos et de l'audio, stimulant ainsi le développement des applications d'intelligence artificielle multimédia. Le modèle adopte une architecture à trois niveaux, utilisant la technologie MosIT pour l'entraînement de la couche intermédiaire. Sa mise à disposition en open source offre aux chercheurs et développeurs la possibilité d'intégrer des entrées multimodales.

La particularité de NExT-GPT réside dans sa capacité à générer des marqueurs de signalisation modale, ouvrant des perspectives d'applications prometteuses dans les domaines de la génération de contenu et de l'analyse multimédia.