Sesame lanza el modelo CSM: la síntesis de voz con IA y personalización emocional en tiempo real alcanza nuevas cotas

AIbase基地

Publicado elNoticias de IA · 3 minutos de lectura · Mar 14, 2025

El 13 de marzo, la compañía Sesame lanzó su último modelo de síntesis de voz, CSM, generando gran interés en la industria. Según la información oficial, CSM emplea una arquitectura de aprendizaje multimodal basada en Transformer de extremo a extremo, capaz de comprender el contexto y generar voz natural y emotiva, con una calidad de sonido sorprendentemente realista.

Este modelo admite la generación de voz en tiempo real, puede procesar entradas de texto y audio, y los usuarios pueden controlar características como el tono, la entonación, el ritmo y las emociones ajustando los parámetros, mostrando una gran flexibilidad.

CSM se considera un gran avance en la tecnología de voz AI. Su naturalidad vocal es tan alta que incluso es "imposible distinguir si es una síntesis artificial o una voz humana". Algunos usuarios han grabado videos mostrando el rendimiento casi sin retardo de CSM, calificándolo como el "modelo más potente que han probado". Anteriormente, Sesame lanzó una versión reducida de código abierto, CSM-1B, que admite la generación de voz coherente en conversaciones de varias rondas, recibiendo excelentes críticas.

Actualmente, CSM está principalmente entrenado para inglés y muestra un rendimiento excelente, pero aún tiene limitaciones en el soporte multilingüe. Por el momento no admite chino, pero se espera su expansión en el futuro.

Sesame ha declarado que compartirá parte de los resultados de su investigación en código abierto, y los desarrolladores de la comunidad ya están debatiendo su potencial en GitHub. CSM no solo es adecuado para la IA conversacional, sino que también podría revolucionar la experiencia de interacción de voz en campos como la educación y el entretenimiento. Los expertos de la industria creen que CSM podría redefinir el estándar de los asistentes de voz con IA, ofreciendo una interacción humano-máquina más natural.

¡Impacta el mundo de la tecnología! xAI lanza Grok-2, ¡el "transformer" de los asistentes de IA!

xAI ha lanzado dos nuevos modelos de inteligencia artificial, Grok-2 y Grok-2mini, con un rendimiento significativamente mejorado. Estos modelos poseen capacidades avanzadas de razonamiento, programación, conversación y generación de imágenes, superando a Claude 3.5 y GPT-4 Turbo. Los nuevos modelos destacan en la resolución de problemas matemáticos, búsqueda de noticias, redacción de cartas de presentación, recomendación de juegos y más. Integrados con FLUX.1, permiten la realización de múltiples tareas. Se ofrece una interfaz y funciones actualizadas en la plataforma 𝕏, con servicios mejorados para usuarios Premium y Premium+.

El UP de Bilibili “XiaoChongGe_” clona la voz de un personaje de Genshin Impact con el modelo de síntesis de voz VITS

El UP de Bilibili “XiaoChongGe_” publicó un video de creación de fans de Genshin Impact, imitando a Faruzan, manteniendo la voz original, con más de 1.36 millones de reproducciones. El UP utilizó el modelo de síntesis de voz VITS, subiendo texto de voz para extraer características lingüísticas, conservando la voz única del personaje de Genshin Impact. La tecnología de clonación de voz con IA ya está generalizada, herramientas como HeyGen y AI Dubbing han reducido el umbral de uso. La mejora de la tecnología de IA ha atraído la atención de los creadores, la clave está en cómo crear obras originales en contenido y forma. El artículo explora los principios del modelo VITS.

Noticias de IA

Sesame lanza el modelo CSM: la síntesis de voz con IA y personalización emocional en tiempo real alcanza nuevas cotas

AIbase基地

Noticias de IA relacionadas recomendadas

¡Impacta el mundo de la tecnología! xAI lanza Grok-2, ¡el "transformer" de los asistentes de IA!

El UP de Bilibili “XiaoChongGe_” clona la voz de un personaje de Genshin Impact con el modelo de síntesis de voz VITS