El laboratorio de investigación de IA de código abierto francés Kyutai ha lanzado un nuevo modelo multimodal de gran tamaño llamado Moshi. Esto no es solo un gran avance tecnológico, sino también un audaz desafío a las tecnologías de IA existentes.
En la madrugada del 4 de julio, Kyutai anunció la llegada de Moshi en su sitio web. Las funciones de este modelo son comparables a las de GPT-4o, presentado por OpenAI en mayo, capaz de escuchar preguntas de voz y responder con razonamiento en tiempo real. Sin embargo, a diferencia del modo de voz de GPT-4o, que no estará completamente disponible hasta el otoño, Moshi ya está disponible para su uso.
Características principales:
Capacidad multimodal: Moshi puede escuchar preguntas de voz y responder con razonamiento en tiempo real. Su modo de voz ya está disponible, mucho antes que el lanzamiento previsto de GPT-4o en otoño.
Sin restricciones regionales: Puedes usar Moshi desde cualquier lugar del mundo.
Compatible con dispositivos móviles: Aunque el soporte para mandarín no es muy bueno, funciona perfectamente con preguntas en inglés.
Próximamente de código abierto: Kyutai planea liberar Moshi como código abierto pronto, publicando el código, los pesos del modelo y el documento de investigación.
Dirección de prueba: https://top.aibase.com/tool/moshi-chat
El lanzamiento de Moshi es, sin duda, un intento audaz en el campo de la tecnología de IA. No solo tiene la capacidad de escuchar y hablar, sino que en el futuro también podría mostrar la capacidad de "ver". Esto nos llena de expectativas sobre el futuro de la IA. Además, el proceso de uso de Moshi es muy sencillo: solo necesitas iniciar sesión en el sitio web, rellenar tu dirección de correo electrónico, hacer clic en "Unirse" y podrás empezar a conversar con Moshi.
Video de demostración oficial
Cabe mencionar que el soporte de Moshi para el mandarín aún necesita mejoras; obtendrás una mejor experiencia usando inglés. Además, Moshi no tiene restricciones geográficas, por lo que puedes usarlo directamente desde cualquier parte del mundo, lo que ofrece una gran comodidad a los entusiastas de la IA de todo el planeta.
Demostración oficial
Esta iniciativa del laboratorio Kyutai también demuestra su compromiso con el espíritu de código abierto. Planean liberar Moshi como código abierto pronto, publicando el código, los pesos del modelo y el documento de investigación, para que desarrolladores e investigadores de todo el mundo puedan participar en el desarrollo y la optimización de Moshi.
Experiencia de uso
Velocidad de respuesta rápida: Incluso usando líneas nacionales, Moshi responde a las preguntas casi sin demora.
Soporte de idiomas: Actualmente, Moshi admite principalmente inglés y francés. El soporte para mandarín necesita mejoras.
Fácil de usar: El proceso de registro es sencillo, solo necesitas proporcionar tu correo electrónico.
Demostración de capacidades: Moshi ha demostrado su capacidad para escuchar y hablar, y en el futuro podría añadir la capacidad de "ver". El tono antropomórfico de Moshi es una de sus principales características, con poco sabor a máquina, lo que hace que la experiencia de conversación sea más natural y fluida.
Por supuesto, el contenido de las respuestas de Moshi es actualmente bastante limitado, solo proporciona un esquema general. Pero con la continua iteración y optimización del producto, creemos que las respuestas de Moshi serán más completas y precisas.
Además, el lanzamiento de Moshi tendrá un profundo impacto en el sector educativo. Por ejemplo, la IA puede ofrecer explicaciones cíclicas a los estudiantes, lo que supone una gran ayuda para la educación. Esperamos que en el futuro aparezcan más productos similares que admitan más idiomas locales, haciendo que la tecnología de IA esté más cerca de la vida de las personas.