VAR é um novo método de modelagem autoregressiva visual que consegue superar os modelos de difusão, alcançando uma geração de imagens mais eficiente. Ele estabelece leis de escala de potência (power laws) para a geração visual e possui capacidade de generalização zero-shot. O VAR oferece uma série de modelos pré-treinados em diferentes escalas para os usuários explorarem e utilizarem.