El modelo de interacción multimodal de iFlytek StarFire está en línea, logrando la integración de "interacción de voz, visión y persona digital"

iFlytek ha anunciado recientemente el lanzamiento de su nuevo modelo de interacción multimodal, iFlytek StarFire. Este avance tecnológico marca una nueva etapa para iFlytek, expandiéndose desde la interacción de voz única a la interacción multimodal en tiempo real de flujo de audio y video.

El nuevo modelo integra funciones de interacción de voz, visión y persona digital, permitiendo a los usuarios combinarlas sin problemas con una sola llamada.

微信截图_20241115083401.png

El lanzamiento del modelo de interacción multimodal iFlytek StarFire introduce por primera vez la tecnología de persona digital súper realista. Esta tecnología permite que los movimientos del tronco y las extremidades de la persona digital coincidan con precisión con el contenido de voz, generando rápidamente expresiones y movimientos, lo que aumenta considerablemente la vivacidad y el realismo de la IA. Al integrar texto, voz y expresiones, el nuevo modelo puede lograr una coherencia semántica multi-modal, haciendo que la expresión emocional sea más auténtica y fluida.

微信截图_20241115083600.png

Además, iFlytek StarFire admite la tecnología de interacción ultrarrápida súper realista, utilizando una red neuronal unificada para lograr un modelado de extremo a extremo de voz a voz, lo que hace que la respuesta sea más rápida y fluida. Esta tecnología puede percibir con precisión los cambios emocionales y ajustar libremente el ritmo, el volumen y la personalidad del sonido según las instrucciones, proporcionando una experiencia de interacción más personalizada.

En cuanto a la interacción visual multimodal, iFlytek StarFire puede "escuchar el mundo" y "reconocer todas las cosas", percibiendo completamente información específica del contexto, el estado de la logística, etc., lo que permite una comprensión más precisa de las tareas. Al integrar información diversa como voz, gestos, comportamiento y emociones, el modelo puede dar respuestas apropiadas, proporcionando a los usuarios una experiencia de interacción más rica y precisa.

SDK de modelo de interacción multimodal: https://www.xfyun.cn/solutions/Multimodel

Noticias de IA

El modelo de interacción multimodal de iFlytek StarFire está en línea, logrando la integración de "interacción de voz, visión y persona digital"

AIbase基地