TangoFlux

Modelo de geração de áudio a partir de texto eficiente

Produto ComumMúsicaTexto para áudioGeração de áudio

TangoFlux é um modelo de geração de áudio a partir de texto (TTA) eficiente, com 515 milhões de parâmetros, capaz de gerar áudio de 44,1 kHz com duração de até 30 segundos em um único GPU A40 em apenas 3,7 segundos. O modelo resolve o desafio do alinhamento de modelos TTA através da proposta do framework CLAP-Ranked Preference Optimization (CRPO), aprimorando o alinhamento TTA por meio da geração iterativa e otimização de dados de preferência. O TangoFlux alcançou desempenho de ponta em benchmarks objetivos e subjetivos, com todos os códigos e modelos sendo de código aberto para apoiar pesquisas futuras em geração TTA.

Best AI Websites & Tools

TangoFlux

TangoFlux Situação do Tráfego Mais Recente

TangoFlux Tendência de Visitas

TangoFlux Distribuição Geográfica das Visitas

TangoFlux Fontes de Tráfego

TangoFlux Alternativas

TangoFlux — Modelo de geração de áudio a partir de texto eficiente

Bakery — Plataforma online de ajuste fino e monetização de modelos de IA de código aberto, que auxilia startups de IA, engenheiros de aprendizado de máquina e pesquisadores.

VidTok — Família de fragmentadores de vídeo de código aberto da Microsoft

Valley 2.0 — Modelo de linguagem grande multi-modal, aprimora a capacidade de processamento de dados de texto, imagem e vídeo.

Ruyi-Mini-7B — Modelo de geração de vídeo a partir de imagem de código aberto

Sketch2Sound — Modelo que gera áudio controlável através da imitação de som e sinais de variação temporal.

InternVL 2.5 — Série de modelos de linguagem grandes multimodais de código aberto

HunyuanVideo — Framework de treinamento de modelos de geração de vídeo de grande porte de código aberto da Tencent

Neural Magic — Especialistas em implantação e inferência otimizada de modelos de IA

NotebookLlama — Ferramenta de construção de fluxo de trabalho de PDF para Podcast de código aberto

genmoai — Modelo de geração de vídeo de código aberto

LibreFLUX — Modelo FLUX destilizado de código aberto

SLM_Survey — Pesquisa, medição e insights sobre modelos de linguagem de pequeno porte

MLE-bench — Benchmark de avaliação de agentes de IA para capacidade de engenharia de aprendizado de máquina

Llama 3.2 — Modelo de IA de código aberto, ajustável, destilável e implantável.

Reflection Llama-3.1 70B — Modelo de linguagem grande de código aberto de ponta mundial

OLMoE-1B-7B — Modelo de linguagem grande (LLM) eficiente e de código aberto

RWKV v6 Finch 14B — RWKV v6 Finch 14B, modelo de linguagem grande de código aberto, eficiente no processamento de textos longos.

Cerebras Inference — Solução de inferência de IA em tempo real, líder mundial em velocidade.

Animação God Mode — Modelo de geração de animação de jogos 2D

Evidently AI — Plataforma de monitoramento de aprendizado de máquina e observabilidade de IA

Bark — Modelo de geração de texto para áudio multilíngue altamente realista

openperplex_backend_os — Motor de busca AI de código aberto, oferecendo capacidade de busca na web.

Agents 2.0 — Framework de código aberto que suporta agentes de linguagem adaptativos baseados em dados.

Demonstração Aberta do Stable Audio — Gera áudio estéreo a partir de prompts de texto

Promoted — Melhora a classificação em mecanismos de busca de mercado, recomendações e anúncios nativos.

AudioLCM — Modelo de geração de áudio a partir de texto eficiente, com consistência latente.

Stable Audio Open 1.0 — Modelo de IA que gera áudio estéreo de comprimento variável com base em prompts de texto.

Legenda — Ferramenta de geração de legendas de código aberto, que permite tradução perfeita de conteúdo.

Milvus — Banco de dados vetorial de código aberto, ideal para desenvolvedores criarem aplicativos de IA genéricos.