Das kürzlich von Microsoft vorgestellte neueste visuelle Basismodell Florence-2 hat einen bedeutenden Durchbruch erzielt. Dank der Transformers.js-Technologie läuft das Modell jetzt zu 100 % nativ in WebGPU-fähigen Browsern. Dieser Durchbruch revolutioniert KI-basierte visuelle Anwendungen, da leistungsstarke visuelle Erkennungsfunktionen direkt im Browser des Benutzers implementiert werden können, ohne dass ein entfernter Server benötigt wird.

Florence-2-base-ft ist ein visuelles Basismodell mit 230 Millionen Parametern, das einen promptbasierten Ansatz verwendet, um eine breite Palette von visuellen und visuell-sprachlichen Aufgaben zu bewältigen. Das Modell unterstützt verschiedene Funktionen, darunter (aber nicht beschränkt auf):

  1. Bildbeschreibungsgenerierung
  2. Optische Zeichenerkennung (OCR)
  3. Objekterkennung
  4. Bildsegmentierung

image.png

Dieses leistungsstarke Modell benötigt nur 340 MB Speicherplatz. Nach dem Laden wird es im Browser zwischengespeichert, sodass Benutzer beim erneuten Aufrufen der Seite direkt darauf zugreifen können, ohne es erneut herunterladen zu müssen. Das Erstaunlichste ist, dass der gesamte Prozess vollständig lokal im Browser des Benutzers abläuft, ohne dass API-Aufrufe an einen Server gesendet werden müssen. Das bedeutet, dass nach dem Laden des Modells alle Funktionen auch bei unterbrochener Internetverbindung weiterhin verfügbar sind.

Der lokale Betrieb von Florence-2 wird durch 🤗 Transformers.js und ONNX Runtime Web ermöglicht. Dieser Durchbruch verbessert nicht nur den Schutz der Benutzerdaten, sondern senkt auch die Nutzungskosten erheblich und ebnet den Weg für eine weit verbreitete Anwendung von KI-basierten visuellen Technologien.

Für Entwickler und Technikbegeisterte steht das ONNX-Modell von Florence-2 auf der Hugging Face-Plattform zur Verfügung. Interessierte können unter https://huggingface.co/models?library=transformers.js&other=florence2 weitere Informationen finden. Der Quellcode des Projekts ist ebenfalls auf GitHub öffentlich zugänglich: https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu. Entwickler können den Code herunterladen und für weitere Erkundungen und Entwicklungen nutzen.

Der Durchbruch von Florence-2 wird zweifellos die schnelle Entwicklung und Verbreitung von KI-basierten visuellen Anwendungen vorantreiben. Wir können in naher Zukunft erwarten, dass immer mehr browserbasierte intelligente visuelle Anwendungen unseren Alltag und unsere Arbeitsweise verändern werden.