Mini-Gemini es un modelo multimodal desarrollado por el equipo del profesor Jia Jia-ya, profesor titular de la Universidad China de Hong Kong. Cuenta con una precisa capacidad de comprensión de imágenes y datos de entrenamiento de alta calidad. Este modelo combina la inferencia y generación de imágenes, ofreciendo versiones de diferentes tamaños con un rendimiento comparable a GPT-4 y DALL-E 3. Mini-Gemini utiliza el método de extracción de información de doble rama visual de Gemini y la tecnología SDXL. Codifica imágenes mediante redes convolucionales y utiliza mecanismos de atención para extraer información, a la vez que combina un LLM para generar texto y vincular ambos modelos.