Google Vision Transformer

Ein auf dem Transformer-Encoder basierendes Bildklassifizierungsmodell.

Normales ProduktBildKünstliche IntelligenzBilderkennung

Google Vision Transformer ist ein Bildklassifizierungsmodell, das auf einem Transformer-Encoder basiert und mit umfangreichen Bilddaten vortrainiert wurde. Es eignet sich für Aufgaben wie die Bildklassifizierung. Das Modell wurde auf dem ImageNet-21k-Datensatz vortrainiert und auf dem ImageNet-Datensatz feinabgestimmt, wodurch es über eine ausgezeichnete Fähigkeit zur Extraktion von Bildmerkmalen verfügt. Bilder werden verarbeitet, indem sie in gleich große Patches zerlegt und diese linear eingebettet werden. Zusätzlich wird eine Positionskodierung vor die Eingabesequenz eingefügt, um die Verarbeitung von Sequenzdaten im Transformer-Encoder zu ermöglichen. Anwender können durch Hinzufügen einer linearen Schicht über dem vortrainierten Encoder Aufgaben wie die Bildklassifizierung durchführen. Die Vorteile von Google Vision Transformer liegen in seiner starken Fähigkeit zum Erlernen von Bildmerkmalen und seiner breiten Anwendbarkeit. Das Modell steht kostenlos zur Verfügung.

Best AI Websites & Tools

Google Vision Transformer

Google Vision Transformer Neueste Verkehrssituation

Google Vision Transformer Besuchstrend

Google Vision Transformer Geografische Verteilung der Besuche

Google Vision Transformer Traffic-Quellen

Google Vision Transformer Alternativen

Google Vision Transformer — Ein auf dem Transformer-Encoder basierendes Bildklassifizierungsmodell.

llava-llama-3-8b-v1_1 — Ein von XTuner optimiertes LLaVA-Modell mit kombinierten Bild- und Textverarbeitungsfähigkeiten.

Anthropic — Gestaltung der Zukunft der Künstlichen Intelligenz

Maschinelles Wahrnehmen — Intelligente Bilderkennung und -analyse

HunyuanVideo-I2V — HunyuanVideo-I2V ist ein von Tencent entwickeltes Framework zur Bild-zu-Video-Generierung, basierend auf HunyuanVideo.

QwQ-32B — QwQ-32B ist ein leistungsstarkes Inferenzmodell, das speziell für die Lösung komplexer Probleme und die Textgenerierung entwickelt wurde und sich durch hervorragende Leistung auszeichnet.

UniTok — UniTok ist ein einheitlicher visueller Tokenizer für die visuelle Generierung und das visuelle Verständnis.

QwQ-Max-Preview — QwQ-Max-Preview ist das neueste Ergebnis der Qwen-Serie und basiert auf Qwen2.5-Max. Es verfügt über leistungsstarke Inferenz- und Multi-Domain-Anwendungsfähigkeiten.

Claude 3.7 Sonnet — Claude 3.7 Sonnet ist das neueste Sprachmodell von Anthropic, das schnelle Reaktionen und tiefes Schlussfolgern ermöglicht.

Huginn-0125 — Huginn-0125 ist ein latentes, rekursives Deep-Learning-Modell mit 3,5 Milliarden Parametern, das auf Schlussfolgerungen und Codegenerierung spezialisiert ist.

Lumina-Video — Lumina-Video ist ein erstes Versuchsprojekt zur Videogenerierung, das die Text-zu-Video-Generierung unterstützt.

Hotdog-Erkennung — Eine unterhaltsame Bilderkennungs-App, die feststellt, ob ein hochgeladenes Bild ein Hotdog ist.

VideoJAM — VideoJAM ist ein Framework zur Verbesserung der Bewegungszusammenhänglichkeit von Videogenerierungsmodellen.

MatAnyone — MatAnyone ist ein stabiler Videomaskierungs-Framework mit zielgerichteter Spezifikation, geeignet für komplexe Hintergründe.

Janus-Pro-7B — Janus-Pro-7B ist ein neuartiges autoregressives Framework, das multimodalen Verständnis und Generierung vereint.

Janus-Pro-1B — Janus-Pro-1B ist ein einheitliches, multimodales, autoregressives Framework für Verständnis und Generierung.

Tarsier — Tarsier ist ein von ByteDance entwickeltes großes Video-Sprachmodell zur Generierung hochwertiger Videobeschreibungen.

leapfusion-hunyuan-image2video — Eine neuartige Bild-zu-Video-Sampling-Technik, die auf dem Hunyuan-Modell basiert und eine hochwertige Videogenerierung ermöglicht.

OmniThink — OmniThink ist ein Framework, das den Schreibprozess von Maschinen durch die Simulation menschlicher Denkprozesse verbessert und so die Wissensdichte erhöht.

Seaweed-APT — Seaweed-APT ist ein Modell, das die Echtzeit-Einzel-Schritt-Generierung von 1280x720 24fps Videos unterstützt.

MangaNinja — MangaNinja ist eine referenzbasierte Methode zum Kolorieren von Lineart, die präzise Übereinstimmung und feingranulare interaktive Steuerung ermöglicht.

MiniMax-01 — Leistungsstarkes Sprachmodell mit 4560 Milliarden Parametern, das Kontexte mit bis zu 4 Millionen Token verarbeiten kann.

rStar-Math — Präsentation der Forschungsergebnisse, die zeigen, wie kleine Sprachmodelle durch selbstgesteuerte Evolution und tiefes Denken mathematisches Schlussfolgerungsvermögen erlernen.

ViTPose — Sammlung von ViTPose-Modellen, basierend auf der Transformer-Architektur

SVFR — SVFR ist ein einheitlicher Rahmen für die Video-Gesichtsrestaurierung.

timesfm-2.0-500m-pytorch — Ein von Google Research entwickeltes vortrainiertes Modell zur Zeitreihenprognose.

Infini-Megrez — End-to-End Multimodales Verständnismodell, das durch Soft-Hardware-Synergie die Endgeräte-Intelligenz revolutioniert.

CausVid — Schneller Kausal-Videogenerator für die Echtzeit-Videogenerierung.

OpenGVLab InternVL — Ein KI-basiertes visuell-linguistisches Modell, das Bildanalyse- und beschreibungsdienste bietet.

Florence-VL — Visuell-sprachliches Modell-Enhancement-Tool, kombiniert einen generativen visuellen Encoder mit Deep-Broad-Fusion-Technologie.