moondream

Un puissant petit modèle linguistique visuel, partout accessible.

Produit OrdinaireImageVisionModèle linguistique

moondream est un modèle de 1,6 milliard de paramètres entraîné sur les ensembles de données SigLIP, Phi-1.5 et LLaVA. Les poids sont sous licence CC-BY-SA du fait de l’utilisation de l’ensemble de données LLaVA. Vous pouvez l’essayer sur Huggingface Spaces. Les performances du modèle sur les benchmarks VQAv2, GQA, VizWiz et TextVQA sont les suivantes : LLaVA-1.5 (13,3 milliards de paramètres) : 80,0 ; 63,3 ; 53,6 ; 61,3 LLaVA-1.5 (7,3 milliards de paramètres) : 78,5 ; 62,0 ; 50,0 ; 58,2 MC-LLaVA-3B (3 milliards de paramètres) : 64,2 ; 49,6 ; 24,9 ; 38,6 LLaVA-Phi (3 milliards de paramètres) : 71,4 ; - ; 35,9 ; 48,6 moondream1 (1,6 milliard de paramètres) : 74,3 ; 56,3 ; 30,3 ; 39,8.

Best AI Websites & Tools

moondream

moondream Dernière situation du trafic

moondream Tendance des visites

moondream Distribution géographique des visites

moondream Sources de trafic

moondream Alternatives

moondream — Un puissant petit modèle linguistique visuel, partout accessible.

MiniCPM-o — MiniCPM-o 2.6 : un MLLM (Modèle Linguistique Multimodal) de niveau GPT-4o, capable de réaliser des diffusions en direct visuelles, vocales et multimodales sur un téléphone portable.

BizyAir — Noeud ComfyUI fonctionnant dans n'importe quel environnement.

Qwen-VL — Modèle linguistique visuel polyvalent

InternVL — Modèle visuel de base open source

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

OpenManus — OpenManus est un projet d'agent intelligent open source utilisable sans code d'invitation.

HunyuanVideo-I2V — HunyuanVideo-I2V est un framework de génération d'image à vidéo basé sur HunyuanVideo, lancé par Tencent.

Instella — Instella est un modèle linguistique open source haute performance développé par AMD, conçu pour accélérer le développement des modèles linguistiques open source.

GPT-4.5 — GPT-4.5, le dernier modèle linguistique lancé par OpenAI, se concentre sur l'amélioration des capacités d'apprentissage non supervisé et offre une expérience interactive plus naturelle.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite est un modèle linguistique efficace, optimisé pour le traitement de longs textes et de nombreux scénarios d'application.

Phi-4-mini-instruct — Phi-4-mini-instruct est un modèle linguistique léger et open source, axé sur les données intensives en inférence de haute qualité.

DeepSeek Japonais — DeepSeek est un modèle linguistique IA avancé, maîtrisant le raisonnement logique, les mathématiques et la programmation, et disponible gratuitement.

AlphaMaze — AlphaMaze est un modèle de langage décodeur axé sur les tâches de raisonnement visuel, conçu pour pallier les lacunes des modèles linguistiques traditionnels dans ce domaine.

Smithery — Étend les capacités des modèles linguistiques grâce au protocole Model Context Protocol (MCP).

Moonlight-16B-A3B — Moonlight-16B-A3B est un modèle d'expert mixte de 16 milliards de paramètres, entraîné avec l'optimiseur Muon, conçu pour une génération de langage efficace.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 est un grand modèle linguistique prenant en charge les modes d'inférence et de réponse classiques.

Lora — Lora est un modèle linguistique local optimisé pour les appareils mobiles, compatible avec iOS et Android.

PaliGemma 2 mix — PaliGemma 2 mix est un modèle linguistique visuel multifonctionnel, adapté à diverses tâches et domaines.

Mistral Saba — Mistral Saba est un modèle linguistique régional personnalisé pour le Moyen-Orient et l'Asie du Sud.

Light-A-Video — Light-A-Video est une technologie de rééclairage vidéo ne nécessitant aucun entraînement, qui produit un effet de rééclairage vidéo fluide grâce à une fusion progressive de la lumière.

Générateur de photos de profil IA — Générateur de photos de profil IA gratuit en ligne, transformant vos photos ordinaires en photos de profil professionnelles de haute qualité.

Application OLMoE — Ai2 OLMoE est une application de modèle linguistique open source fonctionnant sur les appareils iOS.

Podscript — Outil permettant de générer des transcriptions de podcasts et autres fichiers audio, prenant en charge plusieurs modèles linguistiques et API de reconnaissance vocale.

VisoMaster — Logiciel puissant de remplacement et d'édition vidéo, utilisant l'IA pour un rendu naturel.

Xwen-Chat — Xwen-Chat est un ensemble de modèles linguistiques de grande taille spécialisé dans les dialogues en chinois, offrant plusieurs versions de modèles et des services de génération de langage.

LLM Codenames — Un outil de création de noms innovants basé sur LLM, aidant les utilisateurs à générer rapidement des noms uniques.

Application de Chat Exa & Deepseek — Une application de chat open source utilisant l'API Exa pour la recherche sur le web et Deepseek R1 pour le raisonnement.

MatAnyone — MatAnyone est un framework de rotoscopie vidéo stable et ciblée, adapté aux arrière-plans complexes.

leapfusion-hunyuan-image2video — Une nouvelle technique d'échantillonnage image-vers-vidéo, basée sur le modèle Hunyuan, permettant la génération de vidéos de haute qualité.