A Geely recentemente alcançou um grande avanço na área de síntese de voz. Seu modelo de linguagem grande HAM-TTS, desenvolvido internamente, superou o VALL-E, referência do setor, chamando a atenção da indústria. Este modelo de IA, chamado "Xing Rui", apresentou melhorias significativas em precisão de pronúncia, naturalidade e semelhança com a voz do locutor.

O modelo HAM-TTS utiliza a tecnologia de modelagem acústica hierárquica de conversão de texto em fala de amostra zero baseada em tokens, melhorando significativamente a experiência de interação do usuário em cabines inteligentes. Com os mesmos 400 milhões de parâmetros, a taxa de erro de caracteres do modelo HAM-TTS foi 1,5% menor que a do VALL-E; na versão completa com 800 milhões de parâmetros, a taxa de erro de caracteres caiu impressionantes 2,3%. Em consistência de estilo, consistência de tom e pontuação geral, o modelo HAM-TTS obteve uma melhoria notável de 10%.

QQ20240924-101224.jpg

As vantagens do modelo Xing Rui não se limitam apenas aos indicadores de desempenho; sua utilidade prática também é impressionante. Ele consegue manter a estabilidade da voz do locutor em diversos cenários, como interação com avatares virtuais, navegação por voz e transmissão de notícias, ajustando inteligentemente o tom, a entonação, as pausas e as emoções de acordo com o contexto. Ainda mais notável é sua capacidade de alternar perfeitamente entre diferentes idiomas, incluindo dialetos e línguas estrangeiras, e sua capacidade de replicar uma voz com apenas 3 segundos de amostra de entrada, superando os mais de 10 segundos geralmente necessários na indústria.

image.png

A equipe da Geely inovou ao introduzir a modelagem acústica hierárquica, melhorando significativamente o desempenho do modelo. Eles resolveram o problema da pronúncia imprecisa e introduziram um preditor de sequência de variáveis ​​de espaço latente e um alinhador de texto, tornando a correspondência entre texto e som mais precisa, resultando em uma fala sintetizada mais natural e fluida.

Este avanço não apenas demonstra a capacidade de pesquisa e desenvolvimento da Geely em tecnologias inteligentes, mas também reflete sua ambição na área de IA. O sistema de modelos de IA Xing Rui da Geely já foi expandido para várias direções, incluindo modelos de linguagem grandes multimodais e modelos de linguagem grandes, estabelecendo uma base sólida para a tecnologia de veículos inteligentes. Além disso, a capacidade de computação em nuvem da Geely aumentou de 81 quintilhões de operações por segundo no ano passado para 102 quintilhões de operações por segundo, demonstrando seu investimento contínuo em tecnologia.

Após o sucesso inicial da eletrificação, este avanço da Geely na área de inteligência artificial oferece novas perspectivas e possibilidades para o futuro da indústria automobilística. Isso não apenas redefine nossa percepção dos fabricantes de automóveis tradicionais, mas também indica que a inteligência artificial se tornará um campo de batalha crucial na indústria automobilística do futuro.

Endereço do artigo: https://arxiv.org/pdf/2403.05989