O Media2Face é uma ferramenta de geração de animação facial multimodal guiada por áudio, texto e imagens, com base em co-linguagem. Inicialmente, ele utiliza ativos faciais de parametrização neural universal (GNPFA - General Neural Parameterized Facial Assets) para mapear a geometria facial e imagens para um espaço latente de expressões altamente genérico. Em seguida, extrai expressões de alta qualidade e poses de cabeça precisas de um vasto conjunto de vídeos, criando o conjunto de dados M2F-D. Finalmente, emprega um modelo de difusão no espaço latente GNPFA para gerar animação facial com co-linguagem. A ferramenta não apenas apresenta alta fidelidade na síntese de animação facial, como também amplia a expressividade e a adaptabilidade de estilo.