MiniGemini

Modèle linguistique multimodal de grande taille capable de comprendre et de générer simultanément des images.

Produit OrdinaireProgrammationMultimodalModèle linguistique visuel

Mini-Gemini est un modèle linguistique visuel multimodal proposant une série de modèles linguistiques de grande taille denses et MoE, de 2B à 34B paramètres. Il possède des capacités de compréhension, de raisonnement et de génération d'images. Basé sur LLaVA, il utilise un double encodeur visuel pour fournir des plongements visuels basse résolution et des régions candidates haute résolution. Il exploite l'extraction d'informations par patch pour effectuer une extraction au niveau des patchs entre les requêtes visuelles haute et basse résolution, fusionnant texte et image pour des tâches de compréhension et de génération. Il prend en charge plusieurs benchmarks de compréhension visuelle, notamment COCO, GQA, OCR-VQA et VisualGenome.

Best AI Websites & Tools

MiniGemini

MiniGemini Dernière situation du trafic

MiniGemini Tendance des visites

MiniGemini Distribution géographique des visites

MiniGemini Sources de trafic

MiniGemini Alternatives

MiniGemini — Modèle linguistique multimodal de grande taille capable de comprendre et de générer simultanément des images.

VideoLLaMA3 — VideoLLaMA3 est un modèle de base multimodal de pointe, spécialisé dans la compréhension des images et des vidéos.

Moondream AI — Modèle linguistique visuel open source, fonctionnant sur divers appareils.

InternVL2_5-8B-MPO-AWQ — Modèle linguistique multimodal de grande taille, améliorant l'interaction entre la vision et le langage.

POINTS-Yi-1.5-9B-Chat — Les dernières avancées en matière de modèles linguistiques visuels, intégrant les nouvelles technologies de WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Les dernières avancées en matière de modèles linguistiques visuels

Qwen2-VL-7B — Qwen2-VL-7B est le dernier modèle linguistique visuel, prenant en charge la compréhension multimodale et la génération de texte.

Qwen2-VL-2B — Modèle linguistique visuel de pointe, prenant en charge la compréhension multimodale et la génération de texte.

Pixtral Large — Modèle d'IA multimodale de pointe, offrant une compréhension de l'image et du texte.

mPLUG-Owl3 — Modèle linguistique de grande taille multimodale, capable de comprendre de longues séquences d'images.

CogVLM2 — Modèle de dialogue pré-entraîné multi-modal de deuxième génération

MMStar — Un ensemble de référence d'élite pour l'évaluation des grands modèles linguistiques visuels.

MouSi — Modèle linguistique visuel multimodal

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

EgoLife — EgoLife est un projet d'assistant IA pour la vie quotidienne, à long terme, multimodal et multi-vues, visant à faire progresser la recherche sur la compréhension du contexte à long terme.

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

ViDoRAG — ViDoRAG est un framework d'agents d'inférence itérative dynamique qui combine la recherche de documents visuels et l'amélioration de la génération.

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.

Mochii AI — Mochii AI est un écosystème d'intelligence artificielle personnalisé, basé sur des modèles de pointe, qui favorise l'avenir de la collaboration entre l'homme et l'IA.

M2RAG — Bibliothèque de code de référence pour la génération améliorée par la recherche dans un contexte multimodal.

TheoremExplainAgent — TheoremExplainAgent est un système intelligent permettant de générer des vidéos explicatives multimodales de théorèmes.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite est un modèle linguistique efficace, optimisé pour le traitement de longs textes et de nombreux scénarios d'application.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

Magma-8B — Magma-8B est un modèle d'IA multimodale développé par Microsoft, capable de traiter des entrées image et texte et de générer des sorties textuelles.

DeepSeek Japonais — DeepSeek est un modèle linguistique IA avancé, maîtrisant le raisonnement logique, les mathématiques et la programmation, et disponible gratuitement.

VLM-R1 — VLM-R1 est un modèle linguistique visuel renforcé stable et polyvalent, axé sur les tâches de compréhension visuelle.

ZeroBench — ZeroBench est un benchmark visuel hautement exigeant conçu pour les grands modèles multimodaux contemporains.

Magma — Magma est un modèle fondamental capable de comprendre et d'exécuter des entrées multimodales, utilisable pour des tâches et des environnements complexes.

Grok 3 — Grok 3, le dernier modèle d'IA phare lancé par xAI, offre des capacités de raisonnement et de traitement multimodale exceptionnelles.

CLaMP 3 — CLaMP 3 est un framework unifié pour la recherche d'informations musicales multimodales et multilingues.