Recientemente, la startup de IA smallest.ai, con sede en San Francisco, California, lanzó su nuevo producto Lightning, un modelo de texto a voz (TTS) capaz de generar audio de hasta 10 segundos en 100 milisegundos. Este avance tecnológico permite a los desarrolladores de todo el mundo crear aplicaciones de robots de voz de alta fidelidad con una latencia mínima, reduciendo los costos de implementación y mejorando la accesibilidad de las aplicaciones.
Lightning actualmente admite varios acentos en inglés e hindi, y el equipo planea agregar rápidamente más idiomas para satisfacer la demanda del mercado. El modelo tiene un precio de solo 0.02 dólares por minuto (aproximadamente 1.6 rupias indias), ofreciendo a los desarrolladores de robots de voz una solución rentable, con un costo de funcionamiento de la aplicación inferior a 1 rupia por minuto. Esto reduce drásticamente los costos de creación de robots de voz y amplía la accesibilidad del mercado.
A diferencia de los modelos TTS tradicionales que dependen de la transmisión por secuencias y los sockets de red, lo que aumenta la carga del servidor y la complejidad de la escalabilidad, Lightning utiliza una sencilla API REST para entregar audio en aproximadamente 100 milisegundos, evitando la presión del servidor causada por la transmisión continua. Esta capacidad de procesamiento rápido y la eficiencia de costos lo convierten en una alternativa notable en la industria de los robots de voz.
Las características principales del producto Lightning se pueden resumir en los siguientes puntos:
1. Velocidad y eficiencia. Se presenta como el modelo de texto a voz más rápido del mundo, generando audio ultrarrealista de 10 segundos en 100 milisegundos, permitiendo la síntesis de voz en tiempo real y satisfaciendo las necesidades de respuesta rápida.
2. Compacto y compatible. Con una necesidad de memoria de video inferior a 1 GB, el modelo es pequeño y puede ejecutarse fácilmente en la mayoría de los dispositivos de consumo y periféricos, reduciendo los requisitos de hardware.
3. Compatibilidad con múltiples idiomas. Admite múltiples idiomas y acentos, actualmente inglés e hindi con varios acentos, y planea agregar rápidamente más idiomas para satisfacer las necesidades de los usuarios globales.
4. Alta personalización. Difusor de estilo: utiliza un difusor de estilo especial para ajustar el estilo de audio según las necesidades del usuario, haciendo que la voz generada sea más natural y emotiva.
5. Fácil integración. Integración API REST: proporciona una sencilla interfaz API REST para que los desarrolladores puedan integrar rápidamente el modelo Lightning en sus sistemas existentes, evitando las complejas conexiones WebSocket.
6. Precio asequible. Con un precio inicial de 0.04 dólares por minuto, es adecuado para todo tipo de empresas, ofreciendo planes de precios personalizados para empresas con alto volumen de uso.
smallest.ai fue fundada por Sudarshan Kamath y Akshat Mandloi, antiguos alumnos del Instituto Indio de Tecnología de Guwahati. Kamath afirma que la estrategia de bajo precio de smallest.ai se debe a su enfoque en la calidad de los datos y la eficiencia del modelo. "Nuestro modelo es mucho más pequeño que el de la competencia, como ElevenLabs, pero hemos logrado una salida de voz de alta calidad mediante el refinamiento de los datos", explicó.
Los desarrolladores de robots de voz que obtuvieron acceso anticipado a Lightning informaron una reducción de 8 veces en sus costos operativos, junto con una mejora en la calidad del audio. Además de las aplicaciones de robots de voz en tiempo real, Lightning se puede utilizar para crear audiolibros y doblajes para contenido de redes sociales como Instagram y YouTube. Los no desarrolladores también pueden acceder a Lightning a través de la plataforma Waves Speech, experimentando funciones como la clonación de voz y la conversión de acentos, que actualmente están en fase de prueba.
Kamath, en una interacción exclusiva con la revista "Analysing India", dijo: "Cuando comenzamos a construir, nos dimos cuenta de que los modelos necesarios para los robots de voz existentes no estaban lo suficientemente maduros para los idiomas indios. Los modelos existentes para idiomas que no son el inglés simplemente no cumplían con los requisitos de producción."
En junio de este año, smallest.ai también lanzó el modelo AWAAZ, que permite la clonación de voz a partir de fragmentos cortos de audio a un precio competitivo. Este modelo está diseñado para satisfacer las aplicaciones escalables del mercado de idiomas regionales y ofrece seguridad y cumplimiento de nivel empresarial. Cuando se le preguntó sobre su misión, Kamath dijo: "¿Por qué mil millones de personas no interactúan diariamente con la voz de IA, a pesar de los enormes avances en la tecnología de IA de voz? Este es el problema que estamos tratando de resolver."
Enlace al proyecto: https://smallest.ai/blog/lightning-fast-text-to-speech
Puntos clave:
🌟 El modelo de texto a voz Lightning puede generar audio en 100 milisegundos, admite varios acentos en inglés e hindi, y en el futuro se ampliarán a más idiomas.
💰 Con un bajo costo de solo 0.02 dólares por minuto, reduce significativamente los costos operativos de los desarrolladores de robots de voz.
📱 Lightning no solo es adecuado para robots de voz, sino que también se puede utilizar para audiolibros y doblajes de redes sociales, facilitando su uso tanto para desarrolladores como para no desarrolladores.