Liquid é um modelo generativo autoregressivo que promove a integração perfeita entre a compreensão visual e a geração de texto, decompondo imagens em códigos discretos e compartilhando o espaço de características com marcadores de texto. A principal vantagem deste modelo é a ausência de embeddings visuais pré-treinados externos, reduzindo a dependência de recursos e, simultaneamente, descobrindo, através da lei de escala, um efeito de promoção mútua entre as tarefas de compreensão e geração.