A iFlytek anunciou recentemente o lançamento de seu mais novo modelo de interação multimodais, o iFlytek StarFire, que já está em operação. Este avanço tecnológico marca uma nova fase para a iFlytek, expandindo sua atuação de tecnologia de interação de voz única para a interação multimodais em tempo real de fluxo de áudio e vídeo. O novo modelo integra funções de interação de voz, visão e avatar digital, permitindo que os usuários combinem os três com um único toque.
O lançamento do modelo de interação multimodais iFlytek StarFire introduz pela primeira vez a tecnologia de avatar digital hiper-realista. Essa tecnologia permite que os movimentos do tronco e dos membros do avatar digital correspondam precisamente ao conteúdo de voz, gerando rapidamente expressões e ações, aumentando significativamente a vivacidade e o realismo da IA. Ao integrar texto, voz e expressões, o novo modelo consegue alcançar a consistência semântica multimodais, tornando a expressão emocional mais autêntica e fluida.
Além disso, o iFlytek StarFire suporta tecnologia de interação ultrarrápida hiper-realista, utilizando uma rede neural unificada para realizar modelagem de ponta a ponta de voz para voz, resultando em uma resposta mais rápida e fluida. Essa tecnologia consegue perceber mudanças de humor com precisão e ajustar livremente o ritmo, o volume e a personalidade da voz de acordo com as instruções, proporcionando uma experiência de interação mais personalizada.
No aspecto da interação visual multimodais, o iFlytek StarFire consegue "ouvir o mundo" e "reconhecer todas as coisas", percebendo completamente informações como cenários de fundo específicos e status de logística, tornando a compreensão das tarefas mais precisa. Ao integrar informações como voz, gestos, comportamento e emoções, o modelo pode fornecer respostas adequadas, oferecendo aos usuários uma experiência de interação mais rica e precisa.
SDK do Modelo de Interação Multimodais: https://www.xfyun.cn/solutions/Multimodel