VITA-1.5 est un modèle linguistique multimodal open source conçu pour offrir une interaction visuelle et vocale quasi instantanée. Il améliore considérablement la fluidité de l'interaction utilisateur en réduisant significativement le délai d'interaction et en augmentant les performances multimodales. Ce modèle prend en charge l'anglais et le chinois et convient à de nombreuses applications, telles que la reconnaissance d'images, la reconnaissance vocale et le traitement du langage naturel. Ses principaux avantages résident dans ses capacités efficaces de traitement de la parole et sa puissante capacité de compréhension multimodale.