SpeechGPT 2.0 - version préliminaire est un modèle d'interaction vocale avancé développé par le laboratoire de traitement du langage naturel de l'Université Fudan. Entraîné sur un volume massif de données vocales, il offre une interaction vocale à faible latence et hautement naturelle. Ce modèle est capable de simuler des expressions vocales avec diverses émotions, styles et rôles, tout en prenant en charge des fonctionnalités telles que l'appel d'outils, la recherche en ligne et l'accès à des bases de connaissances externes. Ses principaux avantages incluent une puissante capacité de généralisation du style vocal, la simulation multi-rôles et une expérience interactive à faible latence. Actuellement, ce modèle ne prend en charge que l'interaction vocale en chinois, avec une extension à d'autres langues prévue à l'avenir.