Mini-Gemini ist ein multimodales Modell, das vom Team um Professor Jia Jia-Ya, Professor an der Chinesischen Universität Hongkong, entwickelt wurde. Es zeichnet sich durch präzise Bildverständnissfähigkeiten und hochwertige Trainingsdaten aus. Das Modell kombiniert Bildschlussfolgerung und -generierung und ist in verschiedenen Größen verfügbar, wobei seine Leistung mit GPT-4 und DALL-E 3 vergleichbar ist. Mini-Gemini verwendet die visuelle Zwei-Zweig-Informationsgewinnungsmethode von Gemini und die SDXL-Technologie. Es codiert Bilder über ein Faltungsnetzwerk und nutzt dabei den Attention-Mechanismus zur Informationsgewinnung. Gleichzeitig verbindet es ein LLM, um Text zu generieren und die beiden Modelle zu verknüpfen.