Recientemente, en la Conferencia Mundial de Desarrolladores (GDC), la empresa Mobvoi presentó oficialmente su último producto: Xiao Wen, un avatar digital móvil. Este producto, con su cuerpo flexible y móvil, sus capacidades de respuesta de alta inteligencia y su fluida experiencia de interacción, atrajo la atención de numerosos visitantes, convirtiéndose en uno de los puntos destacados de la conferencia.
Según se informa, Xiao Wen es un producto de inteligencia encarnada cuidadosamente desarrollado por Mobvoi basándose en DeepSeek, su propio modelo de lenguaje grande "Sequoia Monkey" y el chip Qualcomm QCS8550. No solo posee un "cuerpo" móvil y flexible, sino que también está equipado con un "cerebro" de alta inteligencia, una imagen de alta calidad, una voz natural y realista, y una capacidad de interacción ágil y fluida. Estas características permiten a Xiao Wen buscar información, responder preguntas rápidamente y destacar en aspectos como la evitación de obstáculos, el seguimiento y el reconocimiento facial.
En cuanto a las aplicaciones, Xiao Wen demuestra una amplia adaptabilidad. Puede funcionar como guía AI en salas de exposiciones y museos; como recepcionista AI para empresas, gobiernos y aeropuertos, ofreciendo servicios de consulta y orientación; y como guía turística AI, proporcionando planificación de rutas precisas e información en tiempo real. La expansión de estos escenarios de aplicación muestra el enorme potencial de Xiao Wen para reducir costos, aumentar la eficiencia y mejorar la experiencia del usuario.
Cabe destacar que Xiao Wen también ha logrado varias innovaciones tecnológicas. Emplea tecnología de computación perimetral, integrando la renderización local del avatar digital, el algoritmo de disposición de micrófonos y el algoritmo de visión local, lo que permite una renderización eficiente en el dispositivo y una interacción de baja latencia. Además, Xiao Wen admite la interacción con avatares digitales multimodales, incluyendo avatares 2.5D, 3D y avatares a partir de fotografías, ofreciendo al usuario una experiencia diversificada.
Asimismo, Xiao Wen destaca en el apartado de audio. Utiliza la tecnología de clonación de voz de modelos de lenguaje grandes de vanguardia en la industria, pudiendo clonar una voz en tan solo 3 segundos. Además, cuenta con una extensa biblioteca de voces de IA, con más de 1000 voces disponibles y soporte para múltiples idiomas, proporcionando al usuario una rica experiencia auditiva.
En cuanto al futuro desarrollo de Xiao Wen, Mobvoi afirma que continuará profundizando en la tecnología de modelos de lenguaje grandes multimodales, mejorando continuamente el nivel de inteligencia y la experiencia de interacción del producto. Al mismo tiempo, la empresa ampliará activamente los escenarios de aplicación, impulsando el importante papel de Xiao Wen en un mayor número de campos.