Google Vision Transformer
Ein auf dem Transformer-Encoder basierendes Bildklassifizierungsmodell.
Normales ProduktBildKünstliche IntelligenzBilderkennung
Google Vision Transformer ist ein Bildklassifizierungsmodell, das auf einem Transformer-Encoder basiert und mit umfangreichen Bilddaten vortrainiert wurde. Es eignet sich für Aufgaben wie die Bildklassifizierung. Das Modell wurde auf dem ImageNet-21k-Datensatz vortrainiert und auf dem ImageNet-Datensatz feinabgestimmt, wodurch es über eine ausgezeichnete Fähigkeit zur Extraktion von Bildmerkmalen verfügt. Bilder werden verarbeitet, indem sie in gleich große Patches zerlegt und diese linear eingebettet werden. Zusätzlich wird eine Positionskodierung vor die Eingabesequenz eingefügt, um die Verarbeitung von Sequenzdaten im Transformer-Encoder zu ermöglichen. Anwender können durch Hinzufügen einer linearen Schicht über dem vortrainierten Encoder Aufgaben wie die Bildklassifizierung durchführen. Die Vorteile von Google Vision Transformer liegen in seiner starken Fähigkeit zum Erlernen von Bildmerkmalen und seiner breiten Anwendbarkeit. Das Modell steht kostenlos zur Verfügung.
Google Vision Transformer Neueste Verkehrssituation
Monatliche Gesamtbesuche
502571820
Absprungrate
37.10%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:06:29