Florence-2
Ein einheitliches Basismodell für visuelle Aufgaben.
Premium-NeuproduktProduktivitätVisuelles ModellMulti-Task-Lernen
Florence-2 ist ein neuartiges visuelles Basismodell, das durch eine einheitliche, promptbasierte Repräsentation verschiedene Computer-Vision- und visuelle Sprach-Aufgaben bewältigen kann. Es ist so konzipiert, dass es Textprompts als Aufgabenanweisungen entgegennimmt und die gewünschten Ergebnisse in Textform generiert – egal ob Bildbeschreibung, Objekterkennung, Lokalisierung oder Segmentierung. Dieses Multi-Task-Lernsetting erfordert umfangreiche, qualitativ hochwertige annotierte Daten. Dazu haben wir gemeinsam FLD-5B entwickelt, einen Datensatz mit 5,4 Milliarden umfassenden visuellen Annotationen, die 126 Millionen Bilder umfassen und eine iterative Strategie zur automatisierten Bildannotation und Modellverfeinerung verwenden. Wir haben Florence-2 mit einer Sequenz-zu-Sequenz-Architektur trainiert, um vielfältige und umfassende visuelle Aufgaben zu erfüllen. Umfangreiche Evaluierungen zeigen, dass Florence-2 ein leistungsstarker Wettbewerber unter den visuellen Basismodellen ist, mit beispielloser Zero-Shot- und Few-Shot-Fähigkeit.
Florence-2 Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44