Florence-2

Ein einheitliches Basismodell für visuelle Aufgaben.

Premium-NeuproduktProduktivitätVisuelles ModellMulti-Task-Lernen
Florence-2 ist ein neuartiges visuelles Basismodell, das durch eine einheitliche, promptbasierte Repräsentation verschiedene Computer-Vision- und visuelle Sprach-Aufgaben bewältigen kann. Es ist so konzipiert, dass es Textprompts als Aufgabenanweisungen entgegennimmt und die gewünschten Ergebnisse in Textform generiert – egal ob Bildbeschreibung, Objekterkennung, Lokalisierung oder Segmentierung. Dieses Multi-Task-Lernsetting erfordert umfangreiche, qualitativ hochwertige annotierte Daten. Dazu haben wir gemeinsam FLD-5B entwickelt, einen Datensatz mit 5,4 Milliarden umfassenden visuellen Annotationen, die 126 Millionen Bilder umfassen und eine iterative Strategie zur automatisierten Bildannotation und Modellverfeinerung verwenden. Wir haben Florence-2 mit einer Sequenz-zu-Sequenz-Architektur trainiert, um vielfältige und umfassende visuelle Aufgaben zu erfüllen. Umfangreiche Evaluierungen zeigen, dass Florence-2 ein leistungsstarker Wettbewerber unter den visuellen Basismodellen ist, mit beispielloser Zero-Shot- und Few-Shot-Fähigkeit.
Website öffnen

Florence-2 Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

Florence-2 Besuchstrend

Florence-2 Geografische Verteilung der Besuche

Florence-2 Traffic-Quellen

Florence-2 Alternativen