Recientemente, Play AI lanzó oficialmente su producto más ambicioso: PlayDialog beta, capaz de generar audio de podcasts conversacionales.
Este modelo de voz AI de extremo a extremo, utilizando el contexto histórico de la conversación, puede controlar el tono, la emoción y la velocidad del habla para lograr una síntesis de voz más natural, marcando un nuevo hito en la interacción humano-máquina. PlayDialog es especialmente adecuado para crear experiencias de conversación realistas, como narraciones, doblaje de voz, podcasts sintéticos, etc., y también puede proporcionar una experiencia inmersiva de comunicación de voz individual en entornos comerciales, similar a Google NotebookLM.
Al mismo tiempo, Play AI también lanzó PlayNote, una herramienta que puede convertir varios archivos multimedia (como PDF, texto, video, etc.) en experiencias conversacionales. Los usuarios pueden generar podcasts, informes, narraciones e incluso cuentos infantiles en minutos, disfrutando de los efectos de voz fluidos y naturales de PlayDialog. Lo único de PlayNote es que también proporciona una interfaz API, lo que permite a los usuarios generar contenido de audio de forma programática sin depender de la interfaz de usuario.
PlayDialog beta ha sido entrenado con cientos de millones de conversaciones reales, con un tamaño de modelo aproximadamente diez veces mayor que Play AI 3.0 mini, capaz de igualar la expresión vocal humana en cuanto a tono (como la inflexión y la velocidad del habla). En las pruebas a ciegas, PlayDialog beta superó en el doble a los modelos de la competencia líderes en el mercado, obteniendo la puntuación más alta en expresividad.
A diferencia de los modelos de voz anteriores, PlayDialog beta puede comprender el contexto de toda la conversación, lo que a su vez afecta al resultado de la generación de voz. Play AI ha construido una nueva arquitectura llamada "Dispositivo de contextualización de voz adaptativa" (ASC), que permite al modelo utilizar el historial completo de la conversación para responder, haciendo que cada frase no sea una salida aislada, sino una salida rica con el tono, la emoción y el tono adecuados, haciendo que el podcast sintético parezca que los oyentes están experimentando una conversación en el mismo espacio.
Ya sea una discusión animada o un tema delicado que requiere empatía, PlayDialog se adapta sin problemas, haciendo que la interacción sea más natural y humana.
Los usuarios pueden experimentar todo esto a través de PlayNote, utilizándolo para crear narraciones, podcasts e informes potentes y naturales en cuestión de minutos. PlayNote también se puede utilizar a través de una interfaz API, permitiendo a los desarrolladores generar contenido atractivo de forma programática a gran escala.
Acceso a PlayNote: https://play.ai/playnote
Presentación en el blog oficial: https://blog.play.ai/blog/introducing-playdialog
Puntos clave:
🌟 PlayDialog beta es el nuevo modelo de voz de Play AI, capaz de simular conversaciones humanas de forma más natural.
🎤 La herramienta PlayNote permite a los usuarios convertir rápidamente varios archivos multimedia en contenido de audio y admite la interfaz API.
🚀 PlayDialog beta obtuvo excelentes resultados en las pruebas a ciegas, obteniendo altas puntuaciones en la fluidez y la expresión emocional de la generación de voz.