AV-HuBERT

Marco de aprendizaje autosupervisado para el procesamiento de voz audio-visual.

Producto ComúnProgramaciónProcesamiento audio-visualAprendizaje autosupervisado

AV-HuBERT es un marco de aprendizaje de representación autosupervisado, específicamente diseñado para el procesamiento de voz audio-visual. Ha logrado resultados de vanguardia en lectura labial, reconocimiento automático del habla (ASR) y reconocimiento de voz audio-visual en el conjunto de datos de referencia LRS3. El marco aprende representaciones de voz audio-visual mediante la predicción de agrupaciones multimodales enmascaradas y proporciona un robusto reconocimiento de voz audio-visual autosupervisado.

Aprendizaje de representaciones de voz audio-visual
Predicción de agrupaciones multimodales enmascaradas
Aprendizaje autosupervisado
Lectura labial
ASR y reconocimiento de voz audio-visual

Investigación en reconocimiento de voz audio-visual
Desarrollo de sistemas de reconocimiento automático del habla
Análisis de agrupamiento de datos multimodales

Investigadores utilizan el marco AV-HuBERT para la investigación experimental en reconocimiento de voz audio-visual.
Desarrolladores aprovechan el modelo AV-HuBERT para desarrollar aplicaciones de reconocimiento de voz que comprendan diferentes contextos lingüísticos.
Educadores utilizan AV-HuBERT para ayudar en el desarrollo de herramientas de aprendizaje de idiomas
mejorando la comprensión lingüística de los estudiantes.

Abrir sitio web

AV-HuBERT Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

AV-HuBERT Tendencia de visitas

AV-HuBERT Distribución geográfica de las visitas

AV-HuBERT Fuentes de tráfico

AV-HuBERT Alternativas

AV-HuBERT — Marco de aprendizaje autosupervisado para el procesamiento de voz audio-visual.

Programación

•Procesamiento audio-visual•Aprendizaje autosupervisado

444

SHMT — Una técnica de transferencia de maquillaje jerárquica y autosupervisada basada en modelos de difusión latente.

Imagen

•Procesamiento de imágenes•Aprendizaje autosupervisado

Modelo FLUX de 1.58 bits — Modelo avanzado de generación de imágenes a partir de texto cuantificado a 1.58 bits

Imagen

•Generación de imágenes•Cuantificación

576

Sparsh — Representaciones hápticas autosupervisadas para la sensopercepción háptica basada en la visión.

Imagen

•Aprendizaje autosupervisado•Sensopercepción háptica

Video-Foley — Sistema de generación de audio sincronizado con vídeo

Productividad

•Síntesis de audio para vídeo•Aprendizaje autosupervisado

138

HOI-Swap — Conciencia de interacción mano-objeto en la edición de vídeo

Video

•Edición de vídeo•Interacción mano-objeto

168

MimicBrush — Edición de imágenes de cero muestras, imita el estilo de la imagen de referencia con un solo clic

Imagen

•Edición de imágenes•Aprendizaje de cero muestras

9384

DenseAV — Un modelo de alineación de características audiovisuales autosupervisado.

Video

•Aprendizaje autosupervisado•Alineación audiovisual

234

AniTalker — Convierte retratos estáticos y audio de entrada en videos de conversación animados y realistas.

Video

•Animación•Expresiones faciales

1566

miqu-1-70b — Miqu 1-70b es un modelo de lenguaje grande de código abierto.

Productividad

•Transformer•GPT

1632

Revisión de la Visión — Aprender las relaciones entre cadenas en modelos, comprobando el mundo visual

Imagen

•Modelos de lenguaje•Visión

Best AI Websites & Tools

AV-HuBERT

AV-HuBERT Situación del tráfico más reciente

AV-HuBERT Tendencia de visitas

AV-HuBERT Distribución geográfica de las visitas

AV-HuBERT Fuentes de tráfico

AV-HuBERT Alternativas

AV-HuBERT — Marco de aprendizaje autosupervisado para el procesamiento de voz audio-visual.

SHMT — Una técnica de transferencia de maquillaje jerárquica y autosupervisada basada en modelos de difusión latente.

Modelo FLUX de 1.58 bits — Modelo avanzado de generación de imágenes a partir de texto cuantificado a 1.58 bits

Sparsh — Representaciones hápticas autosupervisadas para la sensopercepción háptica basada en la visión.

Video-Foley — Sistema de generación de audio sincronizado con vídeo

HOI-Swap — Conciencia de interacción mano-objeto en la edición de vídeo

MimicBrush — Edición de imágenes de cero muestras, imita el estilo de la imagen de referencia con un solo clic

DenseAV — Un modelo de alineación de características audiovisuales autosupervisado.

AniTalker — Convierte retratos estáticos y audio de entrada en videos de conversación animados y realistas.

miqu-1-70b — Miqu 1-70b es un modelo de lenguaje grande de código abierto.

Revisión de la Visión — Aprender las relaciones entre cadenas en modelos, comprobando el mundo visual