Kürzlich hat das Seattle-basierte Startup Moondream das kompakte visuelle Sprachmodell moondream2 vorgestellt. Trotz seiner geringen Größe erzielt das Modell hervorragende Ergebnisse in verschiedenen Benchmarks und erregt große Aufmerksamkeit. Als Open-Source-Modell verspricht moondream2 die lokale Bilderkennung auf Smartphones zu ermöglichen.
moondream2 wurde im März offiziell veröffentlicht und kann Text- und Bildeingaben verarbeiten. Es kann Fragen beantworten, Textextraktion (OCR) durchführen, Objekte zählen und klassifizieren. Seit seiner Veröffentlichung aktualisiert das Moondream-Team das Modell kontinuierlich und verbessert seine Benchmark-Leistung. Die Juli-Version zeigte deutliche Fortschritte bei OCR und Dokumentenverständnis, insbesondere bei der Analyse historischer Wirtschaftsdaten. Das Modell erzielte in DocVQA, TextVQA und GQA jeweils über 60%, was seine Leistungsfähigkeit bei lokaler Ausführung unterstreicht.
Ein herausragendes Merkmal von moondream2 ist seine kompakte Größe: Mit nur 1,6 Milliarden Parametern kann es nicht nur auf Cloud-Servern, sondern auch auf lokalen Computern und sogar auf weniger leistungsstarken Geräten wie Smartphones oder Single-Board-Computern laufen.
Trotz seiner geringen Größe ist seine Leistung mit der einiger Konkurrenzmodelle mit mehreren Milliarden Parametern vergleichbar und übertrifft diese sogar in einigen Benchmarks.
Im Vergleich zu visuellen Sprachmodellen für mobile Geräte stellten Forscher fest, dass moondream2 trotz seiner nur 170 Millionen Parameter eine vergleichbare Leistung wie ein Modell mit 700 Millionen Parametern aufweist, lediglich beim SQA-Datensatz etwas schlechter abschneidet. Dies zeigt, dass kleinere Modelle zwar beeindruckend sind, aber dennoch Herausforderungen beim Verständnis spezifischer Kontexte haben.
Der Entwickler Vikhyat Korrapati erklärt, dass moondream2 auf Basis anderer Modelle wie SigLIP, Microsofts Phi-1.5 und LLaVA Trainingsdaten aufgebaut wurde. Das Open-Source-Modell steht jetzt kostenlos auf GitHub zum Download bereit, und eine Demo-Version ist auf Hugging Face verfügbar. Auf Coding-Plattformen hat moondream2 bereits über 5000 Sterne von der Entwickler-Community erhalten.
Der Erfolg hat auch Investoren angezogen: In einer Seed-Finanzierungsrunde, angeführt von Felicis Ventures, Microsofts M12 GitHub Fund und Ascend, hat Moondream 4,5 Millionen US-Dollar eingesammelt. Der CEO Jay Allen war viele Jahre bei Amazon Web Services (AWS) tätig und leitet das wachsende Startup.
Die Einführung von moondream2 markiert den Beginn einer Reihe von optimierten Open-Source-Modellen, die ähnliche Leistungen wie größere, ältere Modelle bieten, aber weniger Ressourcen benötigen. Es gibt zwar bereits einige kleine lokale Modelle auf dem Markt, wie Apples intelligente Assistenten und Googles Gemini Nano, aber diese Unternehmen lagern komplexere Aufgaben weiterhin an die Cloud aus.
huggingface:https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
Highlights:
🌟 Moondream hat moondream2 vorgestellt, ein visuelles Sprachmodell mit nur 1,6 Milliarden Parametern, das auf Smartphones und anderen kleinen Geräten läuft.
📈 Das Modell verfügt über leistungsstarke Text- und Bildverarbeitungsfunktionen, kann Fragen beantworten, OCR durchführen, Objekte zählen und klassifizieren und erzielt hervorragende Ergebnisse in Benchmarks.
💰 Moondream hat 4,5 Millionen US-Dollar an Finanzmitteln erhalten. Der CEO war bei Amazon tätig, und das Team aktualisiert und verbessert die Modellleistung kontinuierlich.