MiniGemini

Modèle linguistique multimodal de grande taille capable de comprendre et de générer simultanément des images.

Produit OrdinaireProgrammationMultimodalModèle linguistique visuel
Mini-Gemini est un modèle linguistique visuel multimodal proposant une série de modèles linguistiques de grande taille denses et MoE, de 2B à 34B paramètres. Il possède des capacités de compréhension, de raisonnement et de génération d'images. Basé sur LLaVA, il utilise un double encodeur visuel pour fournir des plongements visuels basse résolution et des régions candidates haute résolution. Il exploite l'extraction d'informations par patch pour effectuer une extraction au niveau des patchs entre les requêtes visuelles haute et basse résolution, fusionnant texte et image pour des tâches de compréhension et de génération. Il prend en charge plusieurs benchmarks de compréhension visuelle, notamment COCO, GQA, OCR-VQA et VisualGenome.
Ouvrir le site Web

MiniGemini Dernière situation du trafic

Nombre total de visites mensuelles

1013

Taux de rebond

50.36%

Nombre moyen de pages par visite

1.0

Durée moyenne de la visite

00:00:00

MiniGemini Tendance des visites

MiniGemini Distribution géographique des visites

MiniGemini Sources de trafic

MiniGemini Alternatives