El 13 de marzo, la compañía Sesame lanzó su último modelo de síntesis de voz, CSM, generando gran interés en la industria. Según la información oficial, CSM emplea una arquitectura de aprendizaje multimodal basada en Transformer de extremo a extremo, capaz de comprender el contexto y generar voz natural y emotiva, con una calidad de sonido sorprendentemente realista.
Este modelo admite la generación de voz en tiempo real, puede procesar entradas de texto y audio, y los usuarios pueden controlar características como el tono, la entonación, el ritmo y las emociones ajustando los parámetros, mostrando una gran flexibilidad.
CSM se considera un gran avance en la tecnología de voz AI. Su naturalidad vocal es tan alta que incluso es "imposible distinguir si es una síntesis artificial o una voz humana". Algunos usuarios han grabado videos mostrando el rendimiento casi sin retardo de CSM, calificándolo como el "modelo más potente que han probado". Anteriormente, Sesame lanzó una versión reducida de código abierto, CSM-1B, que admite la generación de voz coherente en conversaciones de varias rondas, recibiendo excelentes críticas.
Actualmente, CSM está principalmente entrenado para inglés y muestra un rendimiento excelente, pero aún tiene limitaciones en el soporte multilingüe. Por el momento no admite chino, pero se espera su expansión en el futuro.
Sesame ha declarado que compartirá parte de los resultados de su investigación en código abierto, y los desarrolladores de la comunidad ya están debatiendo su potencial en GitHub. CSM no solo es adecuado para la IA conversacional, sino que también podría revolucionar la experiencia de interacción de voz en campos como la educación y el entretenimiento. Los expertos de la industria creen que CSM podría redefinir el estándar de los asistentes de voz con IA, ofreciendo una interacción humano-máquina más natural.