AudioSep

Modelo de separação de fontes de áudio em domínio aberto baseado em consultas de linguagem natural

Produto ComumMúsicaSeparação de áudioConsulta de linguagem natural

AudioSep é um modelo de separação de fontes de áudio em domínio aberto baseado em consultas de linguagem natural. Ele é composto por dois componentes principais: um codificador de texto e um modelo de separação. Treinamos o AudioSep em um conjunto de dados multimodais em larga escala e avaliamos extensivamente suas capacidades em diversas tarefas, incluindo separação de eventos de áudio, separação de instrumentos e aprimoramento de voz. O AudioSep demonstra desempenho robusto de separação e impressionante capacidade de generalização zero-shot, superando consideravelmente modelos anteriores de separação de áudio baseados em consultas de áudio e linguagem, utilizando títulos de áudio ou rótulos de texto como consultas. Para garantir a reprodutibilidade deste trabalho, publicaremos o código-fonte, os benchmarks de avaliação e os modelos pré-treinados.

Best AI Websites & Tools

AudioSep

AudioSep Situação do Tráfego Mais Recente

AudioSep Tendência de Visitas

AudioSep Distribuição Geográfica das Visitas

AudioSep Fontes de Tráfego

AudioSep Alternativas

AudioSep — Modelo de separação de fontes de áudio em domínio aberto baseado em consultas de linguagem natural

UVR5-UI — Ultimate Vocal Remover 5 com interface Gradio UI para separar arquivos de áudio.

MVSEP — O MVSEP separa as partes de voz e música em áudio.

Removedor de Vocal Ultimate GUI — Ferramenta gratuita de separação vocal. Separa a música de fundo e extrai a música de acompanhamento.

Soundify — Soundify é uma ferramenta de edição de áudio impulsionada por IA.

InspireMusic — Conjunto de ferramentas e modelos de geração de música, canções e áudio baseado em PyTorch, que suporta a geração de áudio de alta qualidade.

AIVocal — Ferramenta de remoção de vocais online com inteligência artificial

OmniAudio-2.6B — O modelo de linguagem de áudio para implantação em edge mais rápido do mundo

Removedor de Vocal Online — Ferramenta online para remoção de vocais, separando a música instrumental da voz.

ComfyUI-MMAudio — Nó ComfyUI para processamento de áudio com o modelo MMAudio.

Auralis — Motor de texto para fala (TTS) rápido

SongCleaner — Tecnologia de IA para remover palavras impróprias de músicas

Suno v4 — Plataforma de criação musical que oferece áudio e letras de alta qualidade.

Aplicativo Moises — Ferramenta de separação de áudio AI para músicos

Mikrotakt — Utiliza tecnologia de IA avançada para extrair vocais, acompanhamento e outros áudios de músicas ou vídeos.

AI Voice Lab — Converta texto em voz realista online

OuteTTS-0.1-350M — Modelo de texto para síntese de fala baseado em modelo de linguagem pura.

hertz-dev — Modelo base de geração de áudio full-duplex de código aberto

Fish Agent V0.1 3B — Modelo de texto para fala (TTS) de alta precisão para captura e geração de informações de áudio ambiental.

Kit de IA para Navegador — Caixa de ferramentas de IA executada diretamente no seu navegador

Universal-2 — IA de voz de próxima geração, oferecendo capacidade excepcional de processamento de dados de áudio.

Cartesia Voice Changer — Tecnologia de mudança de voz de áudio, que converte a voz mantendo a expressão e emoção originais.

Separador de Vocais EaseUS — Utiliza tecnologia de IA para separar vocais e acompanhamento de músicas/vídeos.

DiariZen — Um kit de ferramentas para segmentação de locutores.

AILIBRI — Um catálogo abrangente de ferramentas de redes neurais de IA

Lista de Ferramentas de IA — Lista abrangente de ferramentas de IA, encontre e utilize as melhores ferramentas de IA.

EzAudio — Modelo de texto para áudio de alta qualidade e geração eficiente.

Seed-Music — Sistema de geração musical que suporta a geração de vocais multilíngues e edição musical.

seed-vc — Tecnologia de conversão de voz de amostra zero, que permite conversão de alta fidelidade de qualidade e timbre de voz.

Caixa de Ferramentas de Voz Fácil — Caixa de ferramentas de IA para voz, com implantação local, que suporta reconhecimento, transcrição e conversão de voz.