TangoFlux

Modelo de generación de audio a partir de texto de alta eficiencia

Producto ComúnMúsicaTexto a audioGeneración de audio

TangoFlux es un modelo de generación de audio a partir de texto (TTA) altamente eficiente, con 515 millones de parámetros, capaz de generar audio de 44.1 kHz con una duración de hasta 30 segundos en un solo GPU A40 en tan solo 3,7 segundos. El modelo resuelve el desafío de la alineación de los modelos TTA mediante la propuesta del marco CLAP-Ranked Preference Optimization (CRPO), mejorando la alineación TTA mediante la generación iterativa y la optimización de los datos de preferencia. TangoFlux ha alcanzado un rendimiento de vanguardia en las pruebas de referencia objetivas y subjetivas, y todo el código y los modelos son de código abierto para apoyar futuras investigaciones en generación TTA.

Best AI Websites & Tools

TangoFlux

TangoFlux Situación del tráfico más reciente

TangoFlux Tendencia de visitas

TangoFlux Distribución geográfica de las visitas

TangoFlux Fuentes de tráfico

TangoFlux Alternativas

TangoFlux — Modelo de generación de audio a partir de texto de alta eficiencia

Modelos de Traducción de Firefox — Modelo de traducción automática neuronal acelerado por CPU optimizado para la función de traducción del navegador Firefox.

El Manual de Sistemas Ultraescalables — Una herramienta enfocada en el diseño y optimización de sistemas ultraescalables, ofreciendo soluciones eficientes.

Bakery — Una plataforma online de ajuste fino y monetización de modelos de IA de código abierto, que ayuda a empresas emergentes de IA, ingenieros de aprendizaje automático e investigadores.

vectrix-graphs — Una biblioteca gráfica para incrustaciones de modelos múltiples, compatible con la visualización de varios modelos y tipos de datos.

VidTok — Familia de segmentadores de vídeo de código abierto de Microsoft

Valley 2.0 — Modelo de lenguaje grande multimodal que mejora el procesamiento de datos de texto, imágenes y vídeo.

Ruyi-Mini-7B — Modelo de generación de vídeo a partir de imágenes de código abierto

Sketch2Sound — Modelo que genera audio controlable mediante señales de cambio temporal y la imitación de sonidos.

Q-RWKV-6 32B Instruct Vista previa — Variante de modelo RWKV más potente, superando varios benchmarks en inglés.

InternVL 2.5 — Serie de modelos lingüísticos grandes multimodales de código abierto

Agentless — Método sin agente para la resolución automática de problemas de desarrollo de software

OLMo-2-1124-7B-SFT — Modelo de generación de texto en inglés de alto rendimiento

HunyuanVideo — Marco de entrenamiento de modelos de generación de video a gran escala de código abierto de Tencent

Llama-3.1-Tulu-3-8B-DPO — Modelo avanzado de generación de texto, compatible con diversas tareas

Neural Magic — Expertos en optimización e implementación de modelos de IA

NotebookLlama — Herramienta de creación de flujo de trabajo de PDF a Podcast de código abierto

genmoai — Modelo de generación de video de código abierto

sd3.5 — Modelo de inferencia ligero para generar imágenes de alta calidad

LibreFLUX — Modelo FLUX abierto y destilizado

Zamba2-7B — Modelo de lenguaje pequeño de alto rendimiento

SLM_Survey — Investigación, medición y análisis de modelos lingüísticos pequeños

MLE-bench — Benchmark de evaluación de agentes de IA para la capacidad de ingeniería de aprendizaje automático

Llama 3.2 — Modelo de IA de código abierto, personalizable, destilable y desplegable.

Reflection Llama-3.1 70B — Modelo de lenguaje extenso (LLM) de código abierto líder mundial

OLMoE-1B-7B — Modelo de lenguaje extenso (LLM) eficiente y de código abierto

RWKV v6 Finch 14B — RWKV v6 Finch 14B, un modelo de lenguaje grande de código abierto, eficiente en el procesamiento de textos largos.

Inferencia Cerebras — Solución de inferencia de IA en tiempo real, líder mundial en velocidad.

God Mode Animation — Modelo de generación de animaciones 2D para videojuegos

Evidently AI — Plataforma de monitorización de aprendizaje automático y observabilidad de IA