O SpeechGPT é um modelo de linguagem multimodal com capacidade inerente de diálogo intermodal. Ele pode perceber e gerar conteúdo multimodal, seguindo instruções humanas multimodais. O SpeechGPT-Gen é um modelo de geração de voz que expande a cadeia de informações. O SpeechAgents é uma simulação de comunicação humana com um sistema multiagente multimodal. O SpeechTokenizer é um tokenizador de voz unificado, adequado para modelos de linguagem de voz. As datas de lançamento e informações relacionadas desses modelos e conjuntos de dados podem ser encontradas no site oficial.