Aujourd'hui, Volcano Engine, la plateforme de services cloud de ByteDance, a annoncé que son grand modèle linguistique Doubao prend désormais en charge une nouvelle fonctionnalité d'appels vocaux en temps réel.

Selon les informations disponibles, la solution d'interaction en temps réel basée sur l'IA conversationnelle fournie par Volcano Engine combine la plateforme de services de grands modèles linguistiques Volcano Ark et les modèles de reconnaissance et de synthèse vocale de Doubao. Cela simplifie le processus de conversion de la parole en texte et du texte en parole. Cette solution permet une collecte, un traitement et une transmission efficaces des données vocales, offrant des capacités exceptionnelles de dialogue intelligent et de traitement du langage naturel.

Le grand modèle linguistique Doubao de ByteDance

Volcano Engine RTC, basé sur la technologie de traitement audio 3A, résout efficacement le problème de la « double parole », garantissant ainsi la précision et la rapidité de la reconnaissance vocale. Simultanément, en utilisant le réseau de transmission WebRTC, il fournit un service de transmission audio et vidéo en temps réel stable, fiable et à très faible latence à l'échelle mondiale.

Volcano Engine propose également des solutions d'intégration flexibles et diversifiées, notamment des solutions d'intégration personnalisées et des solutions basées sur le protocole standard WebRTC, afin de répondre aux besoins spécifiques des différentes entreprises.

De plus, le service d'interaction multimodale en temps réel basé sur les grands modèles linguistiques de Volcano Engine fournit déjà des capacités de voix en temps réel basées sur l'IA à certaines applications de chat de personnages virtuels IA de premier plan en Chine, offrant une expérience interactive nouvelle. Volcano Engine continuera à fournir des capacités audiovisuelles et d'IA de haute qualité pour aider les entreprises à innover dans le domaine de l'audio et de la vidéo en temps réel basés sur l'IA.