Google Vision Transformer

Modelo de reconhecimento de imagem baseado em Transformer

Produto ComumImagemInteligência ArtificialReconhecimento de Imagens

O Google Vision Transformer é um modelo de reconhecimento de imagem baseado em um codificador Transformer, pré-treinado com um grande conjunto de dados de imagens e que pode ser usado em tarefas como classificação de imagens. O modelo foi pré-treinado no conjunto de dados ImageNet-21k e ajustado finamente no conjunto de dados ImageNet, possuindo excelente capacidade de extração de características de imagens. Ele processa dados de imagem dividindo a imagem em blocos de tamanho fixo e incorporando linearmente esses blocos. Além disso, um código posicional é adicionado à sequência de entrada para permitir o processamento de dados sequenciais no codificador Transformer. Os usuários podem adicionar uma camada linear sobre o codificador pré-treinado para realizar tarefas como classificação de imagens. A principal vantagem do Google Vision Transformer reside em sua poderosa capacidade de aprendizado de características de imagens e sua ampla aplicabilidade. O modelo está disponível gratuitamente.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Google Vision Transformer

Google Vision Transformer Situação do Tráfego Mais Recente

Google Vision Transformer Tendência de Visitas

Google Vision Transformer Distribuição Geográfica das Visitas

Google Vision Transformer Fontes de Tráfego

Google Vision Transformer Alternativas

Percepção de Máquina — Reconhecimento e análise inteligente de imagens

Google Vision Transformer — Modelo de reconhecimento de imagem baseado em Transformer

Wan2.1-FLF2V-14B — Modelo de geração de vídeo de código aberto, suporta diversas tarefas de geração.

Liquid — Um modelo de geração multimodal que integra compreensão e geração visual.

GLM-4-32B — Modelo de linguagem poderoso, que suporta diversas tarefas de processamento de linguagem natural.

Video-T1 — Melhora significativamente a qualidade da geração de vídeo através do dimensionamento do tempo de teste.

Hun Yuan T1 — Modelo de raciocínio profundo líder do setor, otimizado para preferências humanas.

IMM — Inductive Moment Matching é um novo tipo de modelo generativo usado para gerar imagens de alta qualidade.

HunyuanVideo-I2V — HunyuanVideo-I2V é uma estrutura de geração de imagem para vídeo lançada pela Tencent, baseada no HunyuanVideo.

UniTok — UniTok é um tokenizador visual unificado para geração e compreensão visual.

QwQ-Max-Preview — QwQ-Max-Preview é o mais recente resultado da série Qwen, construído com base no Qwen2.5-Max, e apresenta poderosas capacidades de raciocínio e aplicações em múltiplas áreas.

Claude 3.7 Sonnet — O Claude 3.7 Sonnet é o mais recente modelo de inteligência artificial da Anthropic, que oferece respostas rápidas e raciocínio profundo.

Huginn-0125 — Huginn-0125 é um modelo de profundidade recorrente com variáveis ​​latentes e 3,5 bilhões de parâmetros, especializado em raciocínio e geração de código.

Lumina-Video — Lumina-Video é um projeto experimental de geração de vídeo, com suporte à geração de vídeo a partir de texto.

VideoJAM — VideoJAM é uma estrutura para aprimorar a coerência de movimento em modelos de geração de vídeo.

MatAnyone — MatAnyone é um framework de remoção de fundo de vídeo estável e com foco em objetos específicos, adequado para cenários complexos.

Janus-Pro-7B — Janus-Pro-7B é uma nova estrutura autoregressiva que unifica a compreensão e a geração multimodais.

Tarsier — Tarsier é um grande modelo de linguagem de vídeo lançado pela ByteDance para gerar descrições de vídeo de alta qualidade.

leapfusion-hunyuan-image2video — Uma nova técnica de amostragem de imagem para vídeo, baseada no modelo Hunyuan, para gerar vídeos de alta qualidade.

OmniThink — OmniThink é uma estrutura que aprimora a densidade de conhecimento em textos gerados por máquina, simulando o processo de pensamento humano.

Seaweed-APT — Seaweed-APT é um modelo que suporta a geração de vídeo em tempo real, em uma única etapa, com resolução 1280x720 a 24fps.

MangaNinja — MangaNinja é um método de coloração de esboço baseado em referência, que permite correspondência precisa e controle de interação granular.

MiniMax-01 — Modelo de linguagem poderoso com 456 bilhões de parâmetros, capaz de processar contextos de até 4 milhões de tokens.

rStar-Math — Apresenta os resultados de uma pesquisa que demonstra a capacidade de modelos de linguagem pequenos em dominar o raciocínio matemático por meio da autorreflexão e evolução.

SVFR — SVFR é uma estrutura unificada para restauração de rostos em vídeo.

Infini-Megrez — Modelo de compreensão multimodal de ponta a ponta, com sinergia de hardware e software para liberar a inteligência de ponta a ponta.

CausVid — Gerador de vídeo causal rápido, permitindo a geração de vídeo instantânea.

Florence-VL — Ferramenta de aprimoramento de modelos de linguagem visual, combinando codificador visual generativo e técnica de fusão profunda e ampla.

PaliGemma 2 — O PaliGemma 2 é um poderoso modelo de linguagem visual, fácil de otimizar.

Genie 2 — Modelo de mundo básico em larga escala, gerando ambientes 3D interativos e diversos.

Huginn-0125 — Huginn-0125 é um modelo de profundidade recorrente com variáveis latentes e 3,5 bilhões de parâmetros, especializado em raciocínio e geração de código.