Mini-Gemini é um modelo multimodal desenvolvido pela equipe do Professor Jia Jiajia, professor titular da Universidade Chinesa de Hong Kong. Possui capacidade precisa de compreensão de imagens e dados de treinamento de alta qualidade. O modelo combina raciocínio e geração de imagens, oferecendo versões em diferentes escalas, com desempenho comparável ao GPT-4 e DALL-E 3. O Mini-Gemini utiliza o método de mineração de informações de ramificação visual dupla do Gemini e a tecnologia SDXL, codificando imagens por meio de uma rede convolucional e utilizando o mecanismo de atenção para extrair informações, ao mesmo tempo em que vincula os dois modelos por meio da geração de texto por LLM.