CoDi-2 é um modelo de linguagem grande multimodal desenvolvido em colaboração por várias instituições, que resolveu com sucesso o problema da geração e compreensão de instruções complexas. Seu desempenho é excepcional em tarefas como geração de imagens e edição de áudio, alcançando controle de zero-shot e diálogo multimodal por meio de um modelo de linguagem. No futuro, o CoDi-2 otimizará o aprendizado e suportará modalidades adicionais, melhorando continuamente sua capacidade de geração multimodal.