Un equipo de investigación de la Universidad Tecnológica de Nanyang en Singapur ha presentado recientemente SOLAMI, una tecnología de IA capaz de crear personajes virtuales 3D realistas que interactúan en tiempo real en entornos de RV. ¡Estos personajes entienden tu voz y tus movimientos, y pueden charlar, bailar, ¡incluso boxear contigo! ¡Una gran noticia para los juegos, las redes sociales virtuales y… ¡los solteros!

image.png

image.png

SOLAMI es un marco de modelado visual-lingüístico-de-acción (VLA) de extremo a extremo que utiliza el aprendizaje profundo para convertir el habla y los movimientos del usuario en un "lenguaje" que el personaje virtual puede comprender, generando respuestas de voz y movimiento correspondientes. En pocas palabras, traduce tu voz y movimientos a un lenguaje que la IA entiende, haciendo que el personaje virtual reaccione de forma natural y fluida, a diferencia de la rigidez y la artificialidad de los personajes de IA anteriores.

image.png

El equipo de investigación se esforzó mucho para entrenar a este "experto social" de IA.

Crearon un conjunto de datos sintéticos llamado SynMSI, que contiene una gran cantidad de datos de conversación, movimiento y voz. Estos datos no se recopilaron al azar, sino que se generaron mediante un diseño y procesamiento cuidadosos utilizando bases de datos de movimiento existentes y potentes modelos de lenguaje.

Lo que es aún más impresionante es que SOLAMI incluye una interfaz de RV que te permite interactuar con los personajes virtuales de forma inmersiva.

Con un dispositivo de RV puesto, verás al personaje virtual frente a ti, charlando y realizando movimientos, como si estuvieras en una escena social real.

El equipo de investigación afirma que SOLAMI tiene un amplio potencial de aplicación y podría revolucionar los juegos, las redes sociales virtuales y la formación educativa, entre otros campos.

image.png

Por ejemplo, los personajes NPC en los juegos podrían volverse más inteligentes y realistas; los avatares en las plataformas de redes sociales virtuales podrían ser más personalizados, permitiendo encontrar amigos con intereses similares en el mundo virtual; e incluso se podrían crear profesores virtuales para hacer el aprendizaje más dinámico e interesante.

Aunque SOLAMI se encuentra actualmente en fase de investigación, su enorme potencial ha entusiasmado al mundo de la tecnología.

A través de una serie de experimentos, el equipo de investigación demostró que SOLAMI supera a los métodos existentes en cuanto a calidad de movimiento, calidad de voz y velocidad de respuesta. Más importante aún, los resultados de las pruebas con usuarios muestran una gran satisfacción con los personajes virtuales creados por SOLAMI. ¡Parece que la era de las "esposas/maridos de IA" está llegando!

Puntos clave de la tecnología SOLAMI:

Modelo VLA de extremo a extremo: Convierte directamente el habla y los movimientos del usuario en respuestas de voz y movimiento del personaje virtual, logrando una interacción natural y fluida.

Conjunto de datos sintéticos SynMSI: Utiliza conjuntos de datos de movimiento existentes y modelos de lenguaje grandes para generar automáticamente una gran cantidad de datos de conversación multimodal de varias rondas, resolviendo el problema de la falta de datos de entrenamiento.

Interfaz de RV inmersiva: Los usuarios pueden interactuar cara a cara con los personajes virtuales a través de dispositivos de RV, experimentando una interacción más realista.

Más inteligente y humano: SOLAMI puede crear personajes virtuales más inteligentes y realistas, haciendo que la experiencia de interacción virtual sea más "humana".

El equipo de investigación indica que la tecnología SOLAMI tiene un amplio potencial de aplicación en juegos, redes sociales virtuales, formación educativa, etc. Por ejemplo, en los juegos, SOLAMI puede crear personajes NPC más inteligentes y realistas, mejorando la experiencia del jugador; en las redes sociales virtuales, SOLAMI puede ayudar a los usuarios a crear avatares más personalizados, mejorando la inmersión de las redes sociales virtuales; y en la formación educativa, SOLAMI puede crear profesores virtuales más dinámicos, mejorando la eficacia de la enseñanza.

El equipo de investigación también llevó a cabo una serie de experimentos, y los resultados mostraron que la tecnología SOLAMI es superior a otros métodos existentes en términos de calidad de movimiento, calidad de voz y retraso de inferencia. Los estudios de usuarios también mostraron una alta satisfacción con los personajes virtuales 3D creados con la tecnología SOLAMI.

Actualmente, la tecnología SOLAMI se encuentra en fase de investigación, pero su potencial futuro es enorme, y promete ofrecernos experiencias de interacción virtual más inteligentes y humanas.

Página del proyecto: https://solami-ai.github.io/

Informe técnico: https://arxiv.org/abs/2412.00174

Vídeo de presentación completo: https://www.bilibili.com/video/BV1D6zpYHEyc/