MiniGemini
Modèle linguistique multimodal de grande taille capable de comprendre et de générer simultanément des images.
Produit OrdinaireProgrammationMultimodalModèle linguistique visuel
Mini-Gemini est un modèle linguistique visuel multimodal proposant une série de modèles linguistiques de grande taille denses et MoE, de 2B à 34B paramètres. Il possède des capacités de compréhension, de raisonnement et de génération d'images. Basé sur LLaVA, il utilise un double encodeur visuel pour fournir des plongements visuels basse résolution et des régions candidates haute résolution. Il exploite l'extraction d'informations par patch pour effectuer une extraction au niveau des patchs entre les requêtes visuelles haute et basse résolution, fusionnant texte et image pour des tâches de compréhension et de génération. Il prend en charge plusieurs benchmarks de compréhension visuelle, notamment COCO, GQA, OCR-VQA et VisualGenome.
MiniGemini Dernière situation du trafic
Nombre total de visites mensuelles
1013
Taux de rebond
50.36%
Nombre moyen de pages par visite
1.0
Durée moyenne de la visite
00:00:00