PaliGemma

Modèle de langage visuel ouvert de pointe de Google

Nouveau Produit PremiumImageModèle de langage visuelCompréhension d'images

PaliGemma est un modèle de langage visuel avancé développé par Google. Il combine l'encodeur d'image SigLIP et le décodeur de texte Gemma-2B pour comprendre les images et le texte, et réalise une compréhension interactive image-texte grâce à un entraînement conjoint. Ce modèle est conçu pour des tâches spécifiques en aval telles que la description d'images, la question-réponse visuelle, la segmentation, etc., et constitue un outil important pour la recherche et le développement.

Best AI Websites & Tools

PaliGemma

PaliGemma Dernière situation du trafic

PaliGemma Tendance des visites

PaliGemma Distribution géographique des visites

PaliGemma Sources de trafic

PaliGemma Alternatives

PaliGemma — Modèle de langage visuel ouvert de pointe de Google

Llama-lynx-70b-4bitAWQ — Modèle de génération de texte de 7 milliards de paramètres

OLMo-2-1124-7B-RM — Grand modèle linguistique utilisé pour la génération et la classification de texte

Qwen2-VL-2B — Modèle linguistique visuel de pointe, prenant en charge la compréhension multimodale et la génération de texte.

OLMo-2-1124-7B-SFT — Modèle de génération de texte anglais hautes performances

OLMo-2-1124-13B-Instruct — Modèle de langage étendu optimisé, excellent pour la génération de texte et la conversation.

Aquila-VL-2B-llava-qwen — Modèle de langage visuel combinant informations image et texte pour un traitement intelligent.

falcon-mamba-7b — Modèle linguistique causal performant de 7 milliards de paramètres

Générateur de phrases par IA — Outil en ligne utilisant l'IA pour générer des phrases de haute qualité.

AMD-Llama-135m — Modèle linguistique performant entraîné par AMD

OLMoE-1B-7B — Modèle linguistique de grande envergure (LLM) open source et hautement performant

MiniCPM3-4B — Modèle haute performance de la troisième génération de la série MiniCPM

Phi-3.5-vision — Modèle multi-modal avancé prenant en charge la compréhension des images et du texte.

Gemma-2-27b — Modèle de génération de texte ouvert, léger et avancé

Pali3 — Modèle de langage visuel PaLI-3 : plus petit, plus rapide, plus puissant

Flux AIrticle — Création de contenu pilotée par l'IA

Générateur Firecrawl LLMs.txt — Outil de génération de fichiers texte intégrés à partir de sites Web pour l'entraînement et l'inférence des LLM

Aya Vision 8B — Modèle de langage visuel multilingue à 800 millions de paramètres, prenant en charge l'OCR, la description d'images et le raisonnement visuel.

QwQ-32B — QwQ-32B est un puissant modèle d'inférence, conçu pour la résolution de problèmes complexes et la génération de texte, avec des performances exceptionnelles.

Modèles de traduction Firefox — Modèle de traduction automatique neuronale accéléré par CPU, optimisé pour la fonction de traduction du navigateur Firefox.

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

3FS — 3FS est un système de fichiers distribué hautes performances, spécialement conçu pour les charges de travail d'entraînement et d'inférence en IA.

olmOCR-7B-0225-preview — olmOCR-7B-0225-preview est un modèle de reconnaissance d'images de documents basé sur Qwen2-VL-7B-Instruct finement ajusté, conçu pour convertir efficacement les documents en texte brut.

olmOCR — olmOCR est une boîte à outils permettant de linéariser des PDF pour l'entraînement d'ensembles de données de LLM.

Magma-8B — Magma-8B est un modèle d'IA multimodale développé par Microsoft, capable de traiter des entrées image et texte et de générer des sorties textuelles.

VLM-R1 — VLM-R1 est un modèle linguistique visuel renforcé stable et polyvalent, axé sur les tâches de compréhension visuelle.

Kimi Latest — Le dernier modèle d'IA lancé par MoonShot AI, prenant en charge la mise à jour automatique et les contextes longs, idéal pour les chatbots et les assistants intelligents.

Janus Pro — Janus Pro est une plateforme avancée de génération et de compréhension d'images par IA, offrant des services d'intelligence visuelle de haute qualité.

s1-32B — s1 est un modèle d'inférence basé sur Qwen2.5-32B-Instruct, entraîné avec seulement 1000 exemples.