Llasa-1B

Llasa-1B es un modelo de texto a voz (TTS) basado en LLaMA, que admite la síntesis de voz en chino e inglés.

Producto ComúnOtrosTexto a vozSíntesis de voz

Llasa-1B es un modelo de texto a voz desarrollado por el Laboratorio de Audio de la Universidad de Ciencia y Tecnología de Hong Kong. Basado en la arquitectura LLaMA, y combinando las etiquetas de voz del código XCodec2, puede convertir texto en voz natural y fluida. El modelo se entrenó con 250,000 horas de datos de voz en chino e inglés, admite la generación de voz a partir de texto plano y también puede utilizar indicaciones de voz dadas para la síntesis. Sus principales ventajas son la capacidad de generar voz multilingüe de alta calidad, adecuada para diversas situaciones de síntesis de voz, como audiolibros y asistentes de voz. Este modelo utiliza la licencia CC BY-NC-ND 4.0, por lo que se prohíbe su uso comercial.

Best AI Websites & Tools

Llasa-1B

Llasa-1B Situación del tráfico más reciente

Llasa-1B Tendencia de visitas

Llasa-1B Distribución geográfica de las visitas

Llasa-1B Fuentes de tráfico

Llasa-1B Alternativas

Llasa-1B — Llasa-1B es un modelo de texto a voz (TTS) basado en LLaMA, que admite la síntesis de voz en chino e inglés.

Llasa-3B — Llasa-3B es un modelo de síntesis de texto a voz (TTS) basado en LLaMA, que admite la generación de voz en chino e inglés.

Kokoro-82M — Un modelo de texto a voz (TTS) de vanguardia con 82 millones de parámetros.

F5-TTS — Modelo de síntesis de texto a voz (TTS) de alta calidad basado en aprendizaje profundo

VALL-E 2 — Tecnología de síntesis de voz desarrollada por Microsoft Research Asia.

HunyuanVideo-I2V — HunyuanVideo-I2V es un framework de generación de imagen a video basado en HunyuanVideo, desarrollado por Tencent.

Llasa — Modelo base de TTS basado en el framework Llama, compatible con 160.000 horas de datos de voz tokenizados.

Octave TTS — Octave TTS es el primer modelo de síntesis de voz capaz de comprender el significado del texto y generar voz con emoción y estilo.

IndexTTS — Sistema de texto a voz (TTS) de muestra cero, eficiente y controlable de grado industrial

Wan — Wan es un modelo de generación de video visualmente avanzado desarrollado por el laboratorio Tongyi de Alibaba, capaz de generar videos basados en texto, imágenes y otras señales.

SkyReels-V1-Hunyuan-I2V — SkyReels V1 es un modelo base de video centrado en el ser humano, de código abierto, enfocado en la generación de videos de alta calidad con apariencia cinematográfica.

SkyReels-V1 — SkyReels-V1 es el primer modelo base de video centrado en el ser humano de código abierto, enfocado en la generación de videos de alta calidad.

DeepScaleR-1.5B-Preview — Un gran modelo lingüístico optimizado mediante aprendizaje por refuerzo, centrado en mejorar la capacidad de resolución de problemas matemáticos.

Lumina-Video — Lumina-Video es un proyecto inicial para la generación de video que admite la generación de video a partir de texto.

Zonos-v0.1-híbrido — Zonos-v0.1-híbrido es un modelo de texto a voz (TTS) de código abierto líder que ofrece servicios de síntesis de voz de alta calidad.

Zonos-v0.1 — Zonos-v0.1 es un modelo de texto a voz (TTS) en tiempo real con capacidad de clonación de voz de alta fidelidad.

TurboTTS — TurboTTS es una herramienta gratuita de texto a voz en línea que ofrece servicios de síntesis de voz de alta calidad y con una voz similar a la humana.

Sonofa — Convierte páginas web, PDF o imágenes en atractivos podcasts para escuchar cómodamente en cualquier momento y lugar.

YuE — YuE es un modelo de base musical de código abierto centrado en la generación de canciones completas, capaz de crear obras musicales completas a partir de letras.

Vídeos Navideños Personalizados por Gan.AI — Plataforma para la creación de vídeos de felicitación navideña personalizados.

Synthesys — Plataforma de generación de contenido con IA que ofrece servicios de generación de vídeo, voz e imágenes.

CosyVoice Generación de Voz Modelo grande 2.0-0.5B — Modelo de síntesis de voz eficiente y multilingüe

Allegro-TI2V — Modelo de generación de vídeo a partir de texto e imagen

OuteTTS-0.2-500M — Modelo de síntesis de texto a voz de alto rendimiento

OuteTTS — Un modelo experimental de texto a voz.

OuteTTS-0.1-350M — Modelo de síntesis de texto a voz (TTS) basado en un modelo de lenguaje puro.

Fish Speech — Herramienta de síntesis de voz que ofrece servicios de generación de voz de alta calidad.

hertz-dev — Modelo base de generación de audio full-dúplex de código abierto

Demostración de TTS MaskGCT — Demostración de texto a voz (TTS) basada en el modelo MaskGCT

MaskGCT — Modelo de conversión de texto a voz (TTS) de cero ejemplos que no requiere información de alineación.