Google Vision Transformer

Modèle de reconnaissance d'image basé sur le Transformer

Produit OrdinaireImageIntelligence artificielleReconnaissance d'image

Google Vision Transformer est un modèle de reconnaissance d'image basé sur un encodeur Transformer, pré-entraîné sur un ensemble de données d'images à grande échelle et utilisable pour des tâches telles que la classification d'images. Ce modèle a été pré-entraîné sur l'ensemble de données ImageNet-21k et finement ajusté sur ImageNet. Il possède une excellente capacité d'extraction de caractéristiques d'images. Il traite les données d'image en divisant l'image en blocs de taille fixe et en intégrant linéairement ces blocs. De plus, un encodage de position est ajouté avant la séquence d'entrée pour permettre le traitement des données séquentielles dans l'encodeur Transformer. Les utilisateurs peuvent ajouter une couche linéaire au-dessus de l'encodeur pré-entraîné pour effectuer des tâches telles que la classification d'images. L'avantage de Google Vision Transformer réside dans sa puissante capacité d'apprentissage des caractéristiques d'images et sa grande polyvalence. Ce modèle est disponible gratuitement.

Best AI Websites & Tools

Google Vision Transformer

Google Vision Transformer Dernière situation du trafic

Google Vision Transformer Tendance des visites

Google Vision Transformer Distribution géographique des visites

Google Vision Transformer Sources de trafic

Google Vision Transformer Alternatives

Google Vision Transformer — Modèle de reconnaissance d'image basé sur le Transformer

HPT — Framework LLM multimodale innovant développé par HyperGAI, conçu pour comprendre et traiter divers types d'entrées, notamment du texte, des images et des vidéos.

HunyuanVideo-I2V — HunyuanVideo-I2V est un framework de génération d'image à vidéo basé sur HunyuanVideo, lancé par Tencent.

QwQ-32B — QwQ-32B est un puissant modèle d'inférence, conçu pour la résolution de problèmes complexes et la génération de texte, avec des performances exceptionnelles.

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

QwQ-Max-Preview — QwQ-Max-Preview est le dernier né de la série Qwen, basé sur Qwen2.5-Max. Il offre des capacités de raisonnement et d'applications multi-domaines puissantes.

Claude 3.7 Sonnet — Claude 3.7 Sonnet est le dernier modèle intelligent d'Anthropic, offrant des réponses rapides et un raisonnement approfondi.

Huginn-0125 — Huginn-0125 est un modèle profond récurrent à variables latentes de 3,5 milliards de paramètres, excellemment adapté au raisonnement et à la génération de code.

Lumina-Video — Lumina-Video est un projet initial de génération vidéo, prenant en charge la génération de vidéo à partir de texte.

Hot-dog — Une application amusante de reconnaissance d'image permettant de déterminer si une image téléchargée est un hot-dog.

VideoJAM — VideoJAM est un framework conçu pour améliorer la cohérence du mouvement dans les modèles de génération de vidéos.

MatAnyone — MatAnyone est un framework de rotoscopie vidéo stable et ciblée, adapté aux arrière-plans complexes.

Janus-Pro-7B — Janus-Pro-7B est un nouveau framework autorégressif unifiant la compréhension et la génération multimodales.

Janus-Pro-1B — Janus-Pro-1B est un framework autorégressif unifié de compréhension et de génération multimodale.

Tarsier — Tarsier est un grand modèle linguistique vidéo développé par ByteDance pour générer des descriptions vidéo de haute qualité.

leapfusion-hunyuan-image2video — Une nouvelle technique d'échantillonnage image-vers-vidéo, basée sur le modèle Hunyuan, permettant la génération de vidéos de haute qualité.

OmniThink — OmniThink est un framework qui améliore la densité de connaissances des textes générés par machine en simulant le processus de pensée humaine.

Seaweed-APT — Seaweed-APT est un modèle capable de générer des vidéos en temps réel, au format 1280x720 à 24 ips, en une seule étape.

MangaNinja — MangaNinja est une méthode de coloration de croquis basée sur des références, permettant une correspondance précise et un contrôle interactif granulaire.

MiniMax-01 — Modèle linguistique puissant disposant de 456 milliards de paramètres au total, capable de traiter un contexte jusqu'à 4 millions de jetons.

rStar-Math — Présentation des résultats d'une recherche démontrant la capacité de petits modèles linguistiques à maîtriser le raisonnement mathématique par auto-évolution et réflexion approfondie.

ViTPose — Ensemble de modèles ViTPose basés sur l'architecture Transformer

SVFR — SVFR est un framework unifié pour la restauration faciale vidéo.

Infini-Megrez — Modèle de compréhension multimodale pour périphériques, combinant logiciel et matériel pour libérer l'intelligence périphérique sans limites.

Genie 2 — Modèle de monde de base à grande échelle, générant des environnements 3D interactifs variés.

LLaMA-Mesh — Unification d'un modèle linguistique et de la génération de maillages 3D

Recherche et résumé vidéo NVIDIA — Création d'un agent de recherche et de résumé vidéo pour extraire des informations clés des vidéos.

Modèle de métahumain numérique ultraléger — Modèle de métahumain numérique ultraléger, fonctionnant en temps réel sur les appareils mobiles.

CogView3-Plus-3B — Modèle de génération d'images à partir de texte, prenant en charge la génération d'images haute résolution.

F5-TTS — Modèle de synthèse vocale (TTS) de haute qualité basé sur l'apprentissage profond