Google Vision Transformer

Modèle de reconnaissance d'image basé sur le Transformer

Produit OrdinaireImageIntelligence artificielleReconnaissance d'image

Google Vision Transformer est un modèle de reconnaissance d'image basé sur un encodeur Transformer, pré-entraîné sur un ensemble de données d'images à grande échelle et utilisable pour des tâches telles que la classification d'images. Ce modèle a été pré-entraîné sur l'ensemble de données ImageNet-21k et finement ajusté sur ImageNet. Il possède une excellente capacité d'extraction de caractéristiques d'images. Il traite les données d'image en divisant l'image en blocs de taille fixe et en intégrant linéairement ces blocs. De plus, un encodage de position est ajouté avant la séquence d'entrée pour permettre le traitement des données séquentielles dans l'encodeur Transformer. Les utilisateurs peuvent ajouter une couche linéaire au-dessus de l'encodeur pré-entraîné pour effectuer des tâches telles que la classification d'images. L'avantage de Google Vision Transformer réside dans sa puissante capacité d'apprentissage des caractéristiques d'images et sa grande polyvalence. Ce modèle est disponible gratuitement.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Google Vision Transformer

Google Vision Transformer Dernière situation du trafic

Google Vision Transformer Tendance des visites

Google Vision Transformer Distribution géographique des visites

Google Vision Transformer Sources de trafic

Google Vision Transformer Alternatives

Google Vision Transformer — Modèle de reconnaissance d'image basé sur le Transformer

Wan2.1-FLF2V-14B — Modèle de génération vidéo open source, prenant en charge plusieurs tâches de génération.

Liquid — Un modèle de génération multimodale intégrant la compréhension et la génération d'images.

GLM-4-32B — Modèle linguistique puissant, prenant en charge plusieurs tâches de traitement du langage naturel.

混元T1 — Premier modèle d'inférence Mamba hybride à très grande échelle du secteur, capacité de raisonnement forte.

Hun Yuan T1 — Modèle de raisonnement profond de pointe, optimisé pour les préférences humaines.

IMM — Inductive Moment Matching est un nouveau type de modèle génératif utilisé pour la génération d'images de haute qualité.

HunyuanVideo-I2V — HunyuanVideo-I2V est un framework de génération d'image à vidéo basé sur HunyuanVideo, lancé par Tencent.

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

QwQ-Max-Preview — QwQ-Max-Preview est le dernier né de la série Qwen, basé sur Qwen2.5-Max. Il offre des capacités de raisonnement et d'applications multi-domaines puissantes.

Claude 3.7 Sonnet — Claude 3.7 Sonnet est le dernier modèle intelligent d'Anthropic, offrant des réponses rapides et un raisonnement approfondi.

Huginn-0125 — Huginn-0125 est un modèle profond récurrent à variables latentes de 3,5 milliards de paramètres, excellemment adapté au raisonnement et à la génération de code.

Lumina-Video — Lumina-Video est un projet initial de génération vidéo, prenant en charge la génération de vidéo à partir de texte.

Hot-dog — Une application amusante de reconnaissance d'image permettant de déterminer si une image téléchargée est un hot-dog.

VideoJAM — VideoJAM est un framework conçu pour améliorer la cohérence du mouvement dans les modèles de génération de vidéos.

MatAnyone — MatAnyone est un framework de rotoscopie vidéo stable et ciblée, adapté aux arrière-plans complexes.

Janus-Pro-7B — Janus-Pro-7B est un nouveau framework autorégressif unifiant la compréhension et la génération multimodales.

Tarsier — Tarsier est un grand modèle linguistique vidéo développé par ByteDance pour générer des descriptions vidéo de haute qualité.

leapfusion-hunyuan-image2video — Une nouvelle technique d'échantillonnage image-vers-vidéo, basée sur le modèle Hunyuan, permettant la génération de vidéos de haute qualité.

OmniThink — OmniThink est un framework qui améliore la densité de connaissances des textes générés par machine en simulant le processus de pensée humaine.

Seaweed-APT — Seaweed-APT est un modèle capable de générer des vidéos en temps réel, au format 1280x720 à 24 ips, en une seule étape.

MangaNinja — MangaNinja est une méthode de coloration de croquis basée sur des références, permettant une correspondance précise et un contrôle interactif granulaire.

MiniMax-01 — Modèle linguistique puissant disposant de 456 milliards de paramètres au total, capable de traiter un contexte jusqu'à 4 millions de jetons.

rStar-Math — Présentation des résultats d'une recherche démontrant la capacité de petits modèles linguistiques à maîtriser le raisonnement mathématique par auto-évolution et réflexion approfondie.

SVFR — SVFR est un framework unifié pour la restauration faciale vidéo.

Infini-Megrez — Modèle de compréhension multimodale pour périphériques, combinant logiciel et matériel pour libérer l'intelligence périphérique sans limites.

Genie 2 — Modèle de monde de base à grande échelle, générant des environnements 3D interactifs variés.

LLaMA-Mesh — Unification d'un modèle linguistique et de la génération de maillages 3D

Recherche et résumé vidéo NVIDIA — Création d'un agent de recherche et de résumé vidéo pour extraire des informations clés des vidéos.

Modèle de métahumain numérique ultraléger — Modèle de métahumain numérique ultraléger, fonctionnant en temps réel sur les appareils mobiles.