Lightning: Modelo de texto a voz ultrarrápido con latencia ultrabaja, genera 10 segundos de audio en 100 milisegundos

AIbase基地

Publicado elNoticias de IA · 9 minutos de lectura · Nov 6, 2024

328

Recientemente, la startup de IA smallest.ai, con sede en San Francisco, California, lanzó su nuevo producto Lightning, un modelo de texto a voz (TTS) capaz de generar audio de hasta 10 segundos en 100 milisegundos. Este avance tecnológico permite a los desarrolladores de todo el mundo crear aplicaciones de robots de voz de alta fidelidad con una latencia mínima, reduciendo los costos de implementación y mejorando la accesibilidad de las aplicaciones.

Lightning actualmente admite varios acentos en inglés e hindi, y el equipo planea agregar rápidamente más idiomas para satisfacer la demanda del mercado. El modelo tiene un precio de solo 0.02 dólares por minuto (aproximadamente 1.6 rupias indias), ofreciendo a los desarrolladores de robots de voz una solución rentable, con un costo de funcionamiento de la aplicación inferior a 1 rupia por minuto. Esto reduce drásticamente los costos de creación de robots de voz y amplía la accesibilidad del mercado.

A diferencia de los modelos TTS tradicionales que dependen de la transmisión por secuencias y los sockets de red, lo que aumenta la carga del servidor y la complejidad de la escalabilidad, Lightning utiliza una sencilla API REST para entregar audio en aproximadamente 100 milisegundos, evitando la presión del servidor causada por la transmisión continua. Esta capacidad de procesamiento rápido y la eficiencia de costos lo convierten en una alternativa notable en la industria de los robots de voz.

Las características principales del producto Lightning se pueden resumir en los siguientes puntos:

1. Velocidad y eficiencia. Se presenta como el modelo de texto a voz más rápido del mundo, generando audio ultrarrealista de 10 segundos en 100 milisegundos, permitiendo la síntesis de voz en tiempo real y satisfaciendo las necesidades de respuesta rápida.

2. Compacto y compatible. Con una necesidad de memoria de video inferior a 1 GB, el modelo es pequeño y puede ejecutarse fácilmente en la mayoría de los dispositivos de consumo y periféricos, reduciendo los requisitos de hardware.

3. Compatibilidad con múltiples idiomas. Admite múltiples idiomas y acentos, actualmente inglés e hindi con varios acentos, y planea agregar rápidamente más idiomas para satisfacer las necesidades de los usuarios globales.

4. Alta personalización. Difusor de estilo: utiliza un difusor de estilo especial para ajustar el estilo de audio según las necesidades del usuario, haciendo que la voz generada sea más natural y emotiva.

5. Fácil integración. Integración API REST: proporciona una sencilla interfaz API REST para que los desarrolladores puedan integrar rápidamente el modelo Lightning en sus sistemas existentes, evitando las complejas conexiones WebSocket.

6. Precio asequible. Con un precio inicial de 0.04 dólares por minuto, es adecuado para todo tipo de empresas, ofreciendo planes de precios personalizados para empresas con alto volumen de uso.

smallest.ai fue fundada por Sudarshan Kamath y Akshat Mandloi, antiguos alumnos del Instituto Indio de Tecnología de Guwahati. Kamath afirma que la estrategia de bajo precio de smallest.ai se debe a su enfoque en la calidad de los datos y la eficiencia del modelo. "Nuestro modelo es mucho más pequeño que el de la competencia, como ElevenLabs, pero hemos logrado una salida de voz de alta calidad mediante el refinamiento de los datos", explicó.

Los desarrolladores de robots de voz que obtuvieron acceso anticipado a Lightning informaron una reducción de 8 veces en sus costos operativos, junto con una mejora en la calidad del audio. Además de las aplicaciones de robots de voz en tiempo real, Lightning se puede utilizar para crear audiolibros y doblajes para contenido de redes sociales como Instagram y YouTube. Los no desarrolladores también pueden acceder a Lightning a través de la plataforma Waves Speech, experimentando funciones como la clonación de voz y la conversión de acentos, que actualmente están en fase de prueba.

Kamath, en una interacción exclusiva con la revista "Analysing India", dijo: "Cuando comenzamos a construir, nos dimos cuenta de que los modelos necesarios para los robots de voz existentes no estaban lo suficientemente maduros para los idiomas indios. Los modelos existentes para idiomas que no son el inglés simplemente no cumplían con los requisitos de producción."

En junio de este año, smallest.ai también lanzó el modelo AWAAZ, que permite la clonación de voz a partir de fragmentos cortos de audio a un precio competitivo. Este modelo está diseñado para satisfacer las aplicaciones escalables del mercado de idiomas regionales y ofrece seguridad y cumplimiento de nivel empresarial. Cuando se le preguntó sobre su misión, Kamath dijo: "¿Por qué mil millones de personas no interactúan diariamente con la voz de IA, a pesar de los enormes avances en la tecnología de IA de voz? Este es el problema que estamos tratando de resolver."

Enlace al proyecto: https://smallest.ai/blog/lightning-fast-text-to-speech

Puntos clave:
🌟 El modelo de texto a voz Lightning puede generar audio en 100 milisegundos, admite varios acentos en inglés e hindi, y en el futuro se ampliarán a más idiomas.
💰 Con un bajo costo de solo 0.02 dólares por minuto, reduce significativamente los costos operativos de los desarrolladores de robots de voz.
📱 Lightning no solo es adecuado para robots de voz, sino que también se puede utilizar para audiolibros y doblajes de redes sociales, facilitando su uso tanto para desarrolladores como para no desarrolladores.

Podcastle, la plataforma de podcasts, lanza un modelo de texto a voz con IA: 450 voces disponibles

En el dinámico mundo de los podcasts, la plataforma Podcastle ha anunciado recientemente el lanzamiento de su nuevo modelo de texto a voz con IA, Asyncflow v1.0. Este nuevo modelo no solo ofrece a los usuarios más de 450 voces de IA diferentes, sino que también pone a disposición de los desarrolladores una API para integrar fácilmente esta funcionalidad de texto a voz en sus propias aplicaciones. El fundador de Podcastle, Arto Yeritsyan, declaró que la empresa siempre ha querido desarrollar un texto

Supertone Play, la herramienta de voz AI de HYBE, ya está disponible: clona tu voz en 10 segundos

Recientemente, Supertone, la compañía de voz de inteligencia artificial de HYBE, anunció el lanzamiento de "Supertone Play", una herramienta de texto a voz diseñada para generar contenido de audio de alta calidad y expresivo. Esta nueva herramienta actualmente admite inglés, coreano y japonés, y se espera que se expanda a español y chino en el transcurso del año. Supertone Play ofrece 150 personajes de voz, adecuados para diversas necesidades de creación de contenido, incluyendo conversaciones naturales, noticias profesionales y audiolibros.

Kokoro-TTS: Un pequeño modelo de texto a voz que alcanzó el primer puesto en las clasificaciones de TTS

En el rápido desarrollo de la inteligencia artificial, la tecnología de síntesis de voz está recibiendo cada vez más atención. Recientemente, se lanzó oficialmente en la plataforma Hugging Face un nuevo modelo de síntesis de voz llamado Kokoro, con 82 millones de parámetros, lo que marca un hito importante en el campo de la síntesis de voz. Kokoro v0.19 ocupó el primer lugar en las clasificaciones de TTS (texto a voz) semanas antes de su lanzamiento, superando incluso a otros modelos con más parámetros. Este modelo, en una configuración monoaural, solo con

Hume AI lanza OCTAVE, un motor de voz versátil: texto a voz humana en segundos, clonación de personalidad

¡Gran avance en el campo de la voz con inteligencia artificial! Hume AI ha lanzado recientemente OCTAVE, un nuevo motor de texto a voz que puede generar o clonar voces y rasgos de personalidad realistas con solo una descripción de texto simple o una grabación de voz de 5 segundos, abriendo un mundo de posibilidades para personajes virtuales e interacción humano-máquina. La potencia de OCTAVE reside en su capacidad no solo para generar voz natural, sino también para imitar con precisión el sexo, la edad, el acento, el tono emocional y el estilo de habla específico de una profesión del hablante. Esto lo hace capaz de crear...

¡Instantáneo! ElevenLabs lanza el modelo de diálogo de voz Flash: solo 75 milisegundos de retraso y compatible con 32 idiomas

ElevenLabs ha lanzado recientemente su último modelo de síntesis de voz, Flash, que afirma ser la solución de texto a voz (TTS) más rápida hasta la fecha, con un retraso de generación de voz de tan solo 75 milisegundos (más el retraso de la aplicación y la red). Flash es especialmente adecuado para asistentes de voz conversacionales de baja latencia, y los usuarios pueden experimentar esta nueva función inmediatamente en la plataforma de IA conversacional de ElevenLabs. El modelo Flash se divide en dos versiones: Flash v2 solo admite inglés, mientras que F...

OuteTTS-0.1-350M: Un nuevo método de síntesis de texto a voz con clonación de voz de muestra cero

Recientemente, Oute AI ha lanzado un nuevo método de síntesis de texto a voz llamado OuteTTS-0.1-350M. Este método utiliza el modelado de lenguaje puro, sin adaptadores externos ni arquitecturas complejas, ofreciendo un método TTS simplificado. OuteTTS-0.1-350M se basa en la arquitectura LLaMa y utiliza WavTokenizer para generar directamente etiquetas de audio, lo que hace que el proceso sea más eficiente. Este modelo cuenta con la capacidad de clonación de voz de muestra cero, necesitando solo unos segundos de audio de referencia.

¡Superando a Google NotebookLM! Meta te enseña a convertir PDFs en podcasts con un solo clic!

Google actualizó recientemente su aplicación de notas con IA, NotebookLM, con la función "Audio Overview (Resumen de audio)", que permite a los usuarios discutir el contenido de sus notas a través de una atractiva conversación impulsada por IA. La conversación la mantienen dos presentadores generados por IA, que utilizan el contexto de tu contenido para explicar temas complejos, hacer analogías y mantener una conversación continua contigo. Ahora Meta le sigue los pasos y ha lanzado recientemente una alternativa de código abierto a NotebookLM —

Noticias de IA

IA Diario

Cronología de la IA

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Lightning: Modelo de texto a voz ultrarrápido con latencia ultrabaja, genera 10 segundos de audio en 100 milisegundos

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Sistema de texto a voz Spark-TTS: Admite la clonación de voz de muestra cero y el control de grano fino