AV-HuBERT

Estrutura de aprendizado autossupervisionado para processamento de fala áudio-visual.

Produto ComumProgramaçãoProcessamento áudio-visualAprendizado autossupervisionado

AV-HuBERT é uma estrutura de aprendizado de representação autossupervisionada, especializada no processamento de fala áudio-visual. Alcançou resultados de ponta em leitura labial, reconhecimento automático de fala (ASR) e reconhecimento de fala áudio-visual no benchmark de fala áudio-visual LRS3. A estrutura aprende representações de fala áudio-visual por meio da previsão de agrupamento multimodal mascarado e fornece um reconhecimento de fala áudio-visual autossupervisionado robusto.

Aprendizado de representação de fala áudio-visual
Previsão de agrupamento multimodal mascarado
Aprendizado autossupervisionado
Leitura labial
ASR e reconhecimento de fala áudio-visual

Pesquisa em reconhecimento de fala áudio-visual
Desenvolvimento de sistemas de reconhecimento automático de fala
Análise de agrupamento de dados multimodais

Pesquisadores utilizam a estrutura AV-HuBERT para pesquisas experimentais em reconhecimento de fala áudio-visual.
Desenvolvedores utilizam o modelo AV-HuBERT para desenvolver aplicativos de reconhecimento de fala capazes de compreender diferentes contextos linguísticos.
Educadores utilizam o AV-HuBERT para auxiliar no desenvolvimento de ferramentas de aprendizagem de idiomas
melhorando a compreensão linguística dos alunos.

Abrir Site

AV-HuBERT Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

AV-HuBERT Tendência de Visitas

AV-HuBERT Distribuição Geográfica das Visitas

AV-HuBERT Fontes de Tráfego

AV-HuBERT Alternativas

AV-HuBERT — Estrutura de aprendizado autossupervisionado para processamento de fala áudio-visual.

Programação

•Processamento áudio-visual•Aprendizado autossupervisionado

450

SHMT — Uma técnica de transferência de maquiagem hierárquica e autossupervisionada baseada em modelos de difusão latente.

Imagem

•Processamento de Imagens•Aprendizado Autossupervisionado

Sparsh — Representação tátil autossupervisionada para sensoriamento tátil baseado em visão.

Imagem

•Aprendizado Autossupervisionado•Sensoriamento Tátil

Video-Foley — Sistema de geração de áudio sincronizado com vídeo

Produtividade

•Síntese de áudio para vídeo•Aprendizado autossupervisionado

120

HOI-Swap — Consciência de interação mão-objeto na edição de vídeo

Vídeo

•Edição de vídeo•Interação mão-objeto

162

MimicBrush — Edição de imagem de amostra zero, imitando o estilo da imagem de referência com um único clique

Imagem

•Edição de imagem•Aprendizado de amostra zero

9372

DenseAV — Um modelo de alinhamento de características audiovisuais autossupervisionado.

Vídeo

•Aprendizado autossupervisionado•Alinhamento audiovisual

240

AniTalker — Transforma retratos estáticos e áudio de entrada em vídeos de diálogo animados e realistas.

Vídeo

•Animação•Expressões faciais

1566

Miqu-1-70b — Miqu-1-70b é um modelo de linguagem grande de código aberto.

Produtividade

•Transformer•GPT

1620

Verificação de Visão — Estudar as relações entre strings em modelos de linguagem, verificando o mundo visual.

Imagem

•Modelos de Linguagem•Visão

102

Best AI Websites & Tools

AV-HuBERT

AV-HuBERT Situação do Tráfego Mais Recente

AV-HuBERT Tendência de Visitas

AV-HuBERT Distribuição Geográfica das Visitas

AV-HuBERT Fontes de Tráfego

AV-HuBERT Alternativas

AV-HuBERT — Estrutura de aprendizado autossupervisionado para processamento de fala áudio-visual.

SHMT — Uma técnica de transferência de maquiagem hierárquica e autossupervisionada baseada em modelos de difusão latente.

Sparsh — Representação tátil autossupervisionada para sensoriamento tátil baseado em visão.

Video-Foley — Sistema de geração de áudio sincronizado com vídeo

HOI-Swap — Consciência de interação mão-objeto na edição de vídeo

MimicBrush — Edição de imagem de amostra zero, imitando o estilo da imagem de referência com um único clique

DenseAV — Um modelo de alinhamento de características audiovisuais autossupervisionado.

AniTalker — Transforma retratos estáticos e áudio de entrada em vídeos de diálogo animados e realistas.

Miqu-1-70b — Miqu-1-70b é um modelo de linguagem grande de código aberto.

Verificação de Visão — Estudar as relações entre strings em modelos de linguagem, verificando o mundo visual.