L'Université Nationale de Singapour a publié NExT-GPT, un modèle linguistique multimodal capable de traiter du texte, des images, des vidéos et de l'audio, stimulant ainsi le développement des applications d'intelligence artificielle multimédia. Le modèle adopte une architecture à trois niveaux, utilisant la technologie MosIT pour l'entraînement de la couche intermédiaire. Sa mise à disposition en open source offre aux chercheurs et développeurs la possibilité d'intégrer des entrées multimodales.
La particularité de NExT-GPT réside dans sa capacité à générer des marqueurs de signalisation modale, ouvrant des perspectives d'applications prometteuses dans les domaines de la génération de contenu et de l'analyse multimédia.