ViTMatte

Sistema de recorte de imagem baseado em transformadores de visão pura pré-treinados

Produto ComumImagemRecorte de imagemTransformador de visão

O ViTMatte é um sistema de recorte de imagem baseado em transformadores de visão pura pré-treinados (Plain Vision Transformers, ViTs). Ele utiliza um mecanismo de atenção mista e um pescoço convolucional para otimizar o equilíbrio entre desempenho e cálculo, e introduz um módulo de captura de detalhes para complementar as informações de detalhe necessárias para o recorte. O ViTMatte é o primeiro trabalho a liberar o potencial dos ViTs no campo de recorte de imagem através de uma adaptação simples, herdando as vantagens dos ViTs em estratégias de pré-treinamento, design de arquitetura simples e estratégias de inferência flexíveis. Nos dois benchmarks de recorte de imagem mais utilizados, Composition-1k e Distinctions-646, o ViTMatte atingiu o desempenho de ponta, superando trabalhos anteriores com uma grande margem.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

ViTMatte

ViTMatte Situação do Tráfego Mais Recente

ViTMatte Tendência de Visitas

ViTMatte Distribuição Geográfica das Visitas

ViTMatte Fontes de Tráfego

ViTMatte Alternativas

ViTMatte — Sistema de recorte de imagem baseado em transformadores de visão pura pré-treinados

Magma — Magma é um modelo básico capaz de entender e executar entradas multimodais, podendo ser usado em tarefas e ambientes complexos.

timesfm-2.0-500m-pytorch — Modelo de previsão de séries temporais pré-treinado desenvolvido pelo Google Research.

OpenEMMA — Modelo multimodal de direção autônoma de ponta a ponta de código aberto

ModernBERT-base — Modelo de codificador bidirecional eficiente para processamento de textos longos

SynCamMaster — Tecnologia de geração de vídeo sincronizada em múltiplas perspectivas

InternVL2_5-26B — Modelo de linguagem grande multimodal, integrando compreensão visual e linguística.

Meta Llama 3.3 — Modelo de linguagem grande pré-treinado multilíngue com 70 bilhões de parâmetros

Aria-Base-64K — Modelo multi-modal nativo Mixture-of-Experts

ViTLP — Modelo pré-treinado de layout de texto gerado por guia visual para inteligência de documentos

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4 — Modelo de linguagem de código aberto com 3,2 bilhões de parâmetros para geração de código.

Qwen2.5-Coder-0.5B-Instruct — Modelo de geração de código de 0,5B de parâmetros com ajuste de instruções da série Qwen2.5-Coder

Qwen2.5-Coder-3B — Modelo de 3B parâmetros da série Qwen2.5-Coder, focado em geração e compreensão de código.

Relatório Técnico do Qwen2.5-Coder — Série de Relatórios Técnicos do Qwen2.5-Coder

Aya Expanse-8b — Modelo de linguagem grande multilíngue, suporta 23 idiomas

DTLR — Modelo de detecção e reconhecimento de texto manuscrito

OLMoE — Modelo de linguagem de mistura de especialistas de código aberto com 130 milhões de parâmetros ativos.

OpenCity — Modelo de base espaço-temporal de código aberto para previsão de tráfego

EXAONE-3.0-7.8B-Instruct — Modelo de geração de texto bilíngue com 780 milhões de parâmetros

Llama 3 — Modelo de linguagem grande, que suporta diversos tamanhos de parâmetros.

Meta Llama 3.1-405B — Modelo de linguagem pré-treinado multilíngue de grande escala

Index-1.9B-Pure — Modelo de linguagem de grande porte leve, focado na geração de texto.

Index-1.9B-Chat — Modelo de geração de diálogo baseado em 1,9 bilhão de parâmetros

Modelo de Extração de Informação YAYI — Modelo de extração de informação de alta qualidade baseado em dados em larga escala

GLM-4V-9B — Modelo pré-treinado multi-modal de código aberto, com capacidade de diálogo em chinês e inglês.

Série GLM-4 — Modelo de diálogo multimodal multilíngue de código aberto

CogVLM2 — Modelo de diálogo pré-treinado multimodais de segunda geração

Mixtral-8x22B — Um grande modelo de linguagem baseado em um modelo de especialista esparso.

Qwen1.5-32B — Série de modelos de linguagem pré-treinados baseados em Transformer

Chronos — Modelo de previsão de séries temporais pré-treinado baseado em arquitetura de modelo de linguagem.