MaskVAT es un modelo de generación de audio a partir de vídeo (V2A) que utiliza las características visuales del vídeo para generar un sonido realista que coincida con la escena. El modelo hace especial hincapié en la sincronización del inicio del sonido con la acción visual para evitar problemas de sincronización no naturales. MaskVAT combina un códec de audio universal de alta calidad de banda ancha completa con un modelo de generación enmascarada de secuencia a secuencia, lo que permite alcanzar una competitividad comparable a la de los modelos de generación de audio sin códec, garantizando al mismo tiempo una alta calidad de audio, coincidencia semántica y sincronización temporal.