Hoje, a Volcano Engine, plataforma de serviços em nuvem da ByteDance, anunciou que o modelo de linguagem grande Doubao agora suporta um novo recurso de chamada de voz em tempo real.

Segundo informações, a solução de interação em tempo real de IA conversacional oferecida pela Volcano Engine combina a plataforma de serviços de modelos de linguagem grandes Volcano Ark com os modelos de reconhecimento e síntese de voz do Doubao, simplificando o processo de conversão de voz para texto e texto para voz. Essa solução permite a coleta, o processamento e a transmissão eficientes de dados de voz, fornecendo capacidades excepcionais de diálogo inteligente e processamento de linguagem natural.

Modelo de linguagem grande Doubao do ByteDance Douyin

O RTC da Volcano Engine, baseado na tecnologia de processamento de áudio 3A, resolve eficazmente o fenômeno de "fala dupla", garantindo a precisão e a simultaneidade do reconhecimento de voz. Ao mesmo tempo, utilizando a rede de transmissão WebRTC, ele oferece um serviço de transmissão de áudio e vídeo em tempo real estável e de baixa latência em todo o mundo.

A Volcano Engine também oferece soluções de acesso flexíveis e diversificadas, incluindo soluções de autointegração e soluções de rede de transmissão baseadas no protocolo padrão WebRTC, para atender às necessidades específicas de diferentes empresas.

Além disso, o serviço de interação em tempo real multimídia do modelo de linguagem grande da Volcano Engine já forneceu capacidades de voz em tempo real de IA para alguns aplicativos de bate-papo de personagens virtuais de IA líderes na China, trazendo uma experiência de interação totalmente nova. A Volcano Engine continuará fornecendo capacidades de áudio e vídeo e IA de alta qualidade para ajudar as empresas a inovar no campo de áudio e vídeo em tempo real com IA.