Best AI Websites & Tools

AI产品榜

AI产品榜

AV-HuBERT

自监督学习框架，用于音视觉语音处理

普通产品编程音视觉处理自监督学习

AV-HuBERT是一个自监督表示学习框架，专门用于音视觉语音处理。它在LRS3音视觉语音基准测试中实现了最先进的唇读、自动语音识别（ASR）和音视觉语音识别结果。该框架通过掩蔽多模态聚类预测来学习音视觉语音表示，并且提供了鲁棒的自监督音视觉语音识别。

AV-HuBERT

音视觉语音表示学习
掩蔽多模态聚类预测
自监督学习
唇读、ASR和音视觉语音识别

音视觉语音识别研究
自动语音识别系统开发
多模态数据聚类分析

研究人员使用AV-HuBERT框架进行音视觉语音识别的实验研究
开发者利用AV-HuBERT模型开发能够理解不同语言环境下的语音识别应用
教育工作者使用AV-HuBERT辅助开发语言学习工具，提高学生的语言理解能力

AV-HuBERT 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

AV-HuBERT 访问量趋势

AV-HuBERT 访问地理位置分布

AV-HuBERT 流量来源

AV-HuBERT 替代品

SHMT — 一种基于潜在扩散模型的自监督层次化化妆迁移技术

图像•图像处理•自监督学习

1.58-bit FLUX — 1.58-bit量化的先进文本到图像生成模型

图像•图像生成•量化

Sparsh — 自监督触觉表示，用于基于视觉的触觉传感。

图像•自监督学习•触觉传感

Video-Foley — 视频到声音的同步生成系统

生产力•视频声音合成•自监督学习

HOI-Swap — 视频编辑中的手-物交互意识

视频•视频编辑•手-物交互

MimicBrush — 零样本图像编辑，一键模仿参考图像风格

图像•图像编辑•零样本学习

DenseAV — 一种自监督的视听特征对齐模型。

视频•自监督学习•视听对齐

AniTalker — 将静态肖像和输入音频转化为生动的动画对话视频

视频•动画•面部表情

miqu-1-70b — Miqu 1-70b是一个开源的大规模语言模型

生产力• Transformer•GPT

A Vision Check-up — 学习模型间字符串关系，检查视觉世界

图像•语言模型•视觉