moondream

Ein leistungsstarkes, kleines visuelles Sprachmodell – überall einsetzbar.

Normales ProduktBildVisuellSprachmodell

moondream ist ein 1,6 Milliarden Parameter umfassendes Modell, trainiert mit den Datensätzen SigLIP, Phi-1.5 und LLaVA. Aufgrund der Verwendung des LLaVA-Datensatzes unterliegen die Gewichte der CC-BY-SA-Lizenz. Sie können es auf Huggingface Spaces ausprobieren. Die Ergebnisse des Modells in den Benchmarks VQAv2, GQA, VizWiz und TextVQA sind wie folgt: LLaVA-1.5 (13,3 Mrd. Parameter): 80,0; 63,3; 53,6; 61,3; LLaVA-1.5 (7,3 Mrd. Parameter): 78,5; 62,0; 50,0; 58,2; MC-LLaVA-3B (3 Mrd. Parameter): 64,2; 49,6; 24,9; 38,6; LLaVA-Phi (3 Mrd. Parameter): 71,4; -; 35,9; 48,6; moondream1 (1,6 Mrd. Parameter): 74,3; 56,3; 30,3; 39,8.

Best AI Websites & Tools

moondream

moondream Neueste Verkehrssituation

moondream Besuchstrend

moondream Geografische Verteilung der Besuche

moondream Traffic-Quellen

moondream Alternativen

moondream — Ein leistungsstarkes, kleines visuelles Sprachmodell – überall einsetzbar.

MiniCPM-o — MiniCPM-o 2.6: Ein MLLM (Multimodales Large Language Model) auf GPT-4o-Niveau, das visuelle, sprachliche und multimodale Livestreaming auf Smartphones ermöglicht.

Qwen-VL — Universelles visuell-sprachliches Modell

InternVL — Open-Source-Grundmodell für visuelle Wahrnehmung

Inception Labs — Inception Labs bringt eine neue Generation diffusionsbasierter Sprachmodelle auf den Markt und bietet extrem schnelle, effiziente und hochwertige Sprachgenerierung.

OpenManus — OpenManus ist ein Open-Source-Projekt für intelligente Agenten, das ohne Einladungscode verwendet werden kann.

HunyuanVideo-I2V — HunyuanVideo-I2V ist ein von Tencent entwickeltes Framework zur Bild-zu-Video-Generierung, basierend auf HunyuanVideo.

Instella — Instella ist ein von AMD entwickeltes, leistungsstarkes Open-Source-Sprachmodell, das speziell für die Beschleunigung der Entwicklung von Open-Source-Sprachmodellen entwickelt wurde.

UniTok — UniTok ist ein einheitlicher visueller Tokenizer für die visuelle Generierung und das visuelle Verständnis.

GPT-4.5 — Das neueste Sprachmodell GPT-4.5 von OpenAI konzentriert sich auf die Verbesserung der Fähigkeiten des unüberwachten Lernens und bietet ein natürlicheres interaktives Erlebnis.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite ist ein effizientes Sprachmodell, das speziell für die Verarbeitung langer Texte und verschiedene Anwendungsfälle optimiert wurde.

olmOCR-7B-0225-Vorschau — olmOCR-7B-0225-Vorschau ist ein auf Qwen2-VL-7B-Instruct feingetuntes Modell zur optischen Zeichenerkennung (OCR) von Dokumenten, das die effiziente Umwandlung von Dokumenten in reinen Text ermöglicht.

Phi-4-mini-instruct — Phi-4-mini-instruct ist ein leichtgewichtiges Open-Source-Sprachmodell, das sich auf hochwertige, inferenzintensive Daten konzentriert.

DeepSeek Japanisch — DeepSeek ist ein fortschrittliches KI-Sprachmodell, das sich auf logisches Denken, Mathematik und Programmieraufgaben spezialisiert hat und kostenlos nutzbar ist.

AlphaMaze — AlphaMaze ist ein Decoder-Sprachmodell, das sich auf visuelle Inferenzaufgaben konzentriert und die Schwächen traditioneller Sprachmodelle bei visuellen Aufgaben beheben soll.

Smithery — Erweitert die Fähigkeiten von Sprachmodellen über den Model Context Protocol Server.

Moonlight-16B-A3B — Moonlight-16B-A3B ist ein 16B-Parameter-Mix-Expertenmodell, das mit dem Muon-Optimierer trainiert wurde und für die effiziente Spracherzeugung entwickelt wurde.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 ist ein großes Sprachmodell, das sowohl Inferenz- als auch konventionelle Antwortmodi unterstützt.

Lora — Lora ist ein für mobile Geräte optimiertes lokales Sprachmodell, das iOS und Android unterstützt.

PaliGemma 2 Mix — PaliGemma 2 Mix ist ein vielseitiges visuell-sprachliches Modell für diverse Aufgaben und Bereiche.

Mistral Saba — Mistral Saba ist ein regionsspezifisches Sprachmodell, das speziell für den Nahen Osten und Südasien entwickelt wurde.

VisionAgent — VisionAgent ist eine Bibliothek zur Codegenerierung für visuelle Aufgaben und unterstützt verschiedene LLM-Anbieter.

OLMoE App — Ai2 OLMoE ist eine Open-Source-Anwendung für Sprachmodelle, die auf iOS-Geräten läuft.

Podscript — Ein Tool zur Erstellung von Transkripten für Podcasts und andere Audiodateien, das verschiedene Sprachmodelle und Spracherkennungs-APIs unterstützt.

Xwen-Chat — Xwen-Chat ist eine Sammlung von großen Sprachmodellen, die sich auf chinesische Konversationen konzentrieren und verschiedene Modellversionen sowie Sprachgenerierungsdienste anbieten.

LLM Codename — Ein kreatives Benennungstool auf Basis von LLM, das Nutzern hilft, schnell einzigartige Namen zu generieren.

Exa & Deepseek Chat-App — Eine Open-Source Chat-Anwendung, die die Exa-API für die Websuche und Deepseek R1 für die Inferenz nutzt.

MatAnyone — MatAnyone ist ein stabiler Videomaskierungs-Framework mit zielgerichteter Spezifikation, geeignet für komplexe Hintergründe.

leapfusion-hunyuan-image2video — Eine neuartige Bild-zu-Video-Sampling-Technik, die auf dem Hunyuan-Modell basiert und eine hochwertige Videogenerierung ermöglicht.

SmolVLM-256M-Instruct — SmolVLM-256M ist das weltweit kleinste multimodale Modell und verarbeitet effizient Bild- und Texteingaben zur Erzeugung von Textausgaben.