Récemment, des chercheurs du laboratoire Tencent Youtu et d'autres institutions ont lancé VITA, le premier modèle linguistique multimodal open source. Capable de traiter simultanément des vidéos, des images, du texte et de l'audio, il offre une expérience interactive de premier ordre.
VITA a été créé pour combler les lacunes des grands modèles linguistiques dans le traitement des dialectes chinois. Basé sur le puissant modèle Mixtral 8×7B, il a étendu son vocabulaire chinois et a bénéficié d'un réglage fin des instructions bilingues, permettant à VITA de maîtriser non seulement l'anglais, mais aussi le chinois couramment.
Principales caractéristiques :
Compréhension multimodale : VITA peut traiter des vidéos, des images, du texte et de l'audio, ce qui est sans précédent pour un modèle open source.
Interaction naturelle : Pas besoin de dire « Hey, VITA » à chaque fois. Il répondra à vos paroles instantanément, même lors de conversations avec d'autres personnes, en restant poli et sans interrompre inutilement.
Pionnier de l'open source : VITA représente une avancée majeure de la communauté open source dans la compréhension et l'interaction multimodales, jetant les bases de recherches futures.
La magie de VITA réside dans son déploiement de double modèle. Un modèle génère des réponses aux requêtes de l'utilisateur, tandis que l'autre suit en continu les entrées de l'environnement, garantissant ainsi une interaction précise et rapide à chaque fois.
VITA peut non seulement discuter, mais aussi vous tenir compagnie pendant vos séances de sport, ou vous donner des conseils pendant vos voyages. Il peut également répondre à des questions basées sur des images ou des vidéos que vous lui fournissez, démontrant ainsi sa grande utilité.
Bien que VITA ait déjà démontré un potentiel énorme, il continue d'évoluer dans des domaines tels que la synthèse vocale émotionnelle et la prise en charge multimodale. Les chercheurs prévoient que la prochaine génération de VITA sera capable de générer de l'audio de haute qualité à partir d'entrées vidéo et textuelles, et exploreront même la possibilité de générer simultanément de l'audio et de la vidéo de haute qualité.
L'open source du modèle VITA n'est pas seulement une victoire technologique, mais aussi une révolution profonde des modes d'interaction intelligents. Avec l'approfondissement des recherches, nous avons toutes les raisons de croire que VITA nous apportera une expérience interactive plus intelligente et plus humaine.
Adresse de l'article : https://arxiv.org/pdf/2408.05211