SpeechGPT est un modèle linguistique multimodal doté d'une capacité intrinsèque de dialogue multi-modal. Il peut percevoir et générer du contenu multimodal et suivre les instructions humaines multimodales. SpeechGPT-Gen est un modèle de génération vocale étendu avec une chaîne d'informations. SpeechAgents est une simulation de communication humaine avec un système multi-agents multimodal. SpeechTokenizer est un tokeniseur vocal unifié adapté aux modèles linguistiques vocaux. Les dates de publication et les informations relatives à ces modèles et ensembles de données sont disponibles sur le site officiel.