Tarsier

Tarsier é um grande modelo de linguagem de vídeo lançado pela ByteDance para gerar descrições de vídeo de alta qualidade.

Produto ComumVídeoDescrição de vídeoCompreensão de vídeo

Abrir Site

Tarsier é uma série de modelos de linguagem de vídeo em larga escala desenvolvidos pela equipe de pesquisa da ByteDance, com o objetivo de gerar descrições de vídeo de alta qualidade e possuir uma forte capacidade de compreensão de vídeo. O modelo melhora significativamente a precisão e os detalhes da descrição de vídeo através de uma estratégia de treinamento em duas etapas (pré-treinamento multitarefa e ajuste fino de instruções multigranulares). Seus principais benefícios incluem a capacidade de descrever vídeos com alta precisão, a capacidade de entender conteúdo de vídeo complexo e resultados SOTA (State-of-the-Art) em vários testes de benchmark de compreensão de vídeo. O Tarsier visa melhorar as deficiências dos modelos de linguagem de vídeo existentes em termos de detalhes e precisão da descrição, atingindo um novo nível no campo da descrição de vídeo através do treinamento em dados de alta qualidade em larga escala e métodos de treinamento inovadores. Atualmente, o modelo não tem preço definido, sendo direcionado principalmente para pesquisa acadêmica e aplicações comerciais, adequado para cenários que exigem compreensão e geração de conteúdo de vídeo de alta qualidade.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Tarsier

Tarsier Situação do Tráfego Mais Recente

Tarsier Tendência de Visitas

Tarsier Distribuição Geográfica das Visitas

Tarsier Fontes de Tráfego

Tarsier Alternativas

Tarsier — Tarsier é um grande modelo de linguagem de vídeo lançado pela ByteDance para gerar descrições de vídeo de alta qualidade.

VideoRAG — VideoRAG é uma estrutura de geração aprimorada por recuperação para processamento de vídeos de contexto extremamente longo.

MILS — LLMs podem ver e ouvir sem nenhum treinamento prévio.

Apollo-LMMs — Exploração da compreensão de vídeo em modelos de linguagem multimodais (LMMs) de grande escala

LongVU — Modelo de Compressão Adaptativa Espaço-Temporal para Compreensão de Linguagem em Vídeos Longos

Dourado — Modelo avançado para compreensão de vídeo

ShareGPT4Video — Modelo de IA que aprimora a compreensão e a geração de vídeos.

SpotBuzz — Descrições de vídeos e imagens geradas por IA

InstantCharacter — InstantCharacter é uma estrutura de personalização de personagens baseada em transformadores de difusão.

Wan2.1-FLF2V-14B — Modelo de geração de vídeo de código aberto, suporta diversas tarefas de geração.

Mailgo — Ferramenta de e-mail marketing frio com alta taxa de entrega, impulsionada por IA.

OpenAI Codex CLI — Um agente de codificação leve que executa no terminal.

Liquid — Um modelo de geração multimodal que integra compreensão e geração visual.

HiDream — Plataforma de criação AIGC totalmente em português, fácil de usar, que ajuda a melhorar a criatividade.

GLM-4-32B — Modelo de linguagem poderoso, que suporta diversas tarefas de processamento de linguagem natural.

GenPRM — Expande o tempo de cálculo de teste do modelo de recompensa de processo por meio da inferência generativa.

Amazon Nova Sonic — O novo modelo básico da Amazon compreende tom, entonação e ritmo, melhorando a naturalidade da conversa entre humanos e máquinas.

Academia OpenAI — Ajuda os educadores a usar a inteligência artificial de forma eficaz por meio do conhecimento e das habilidades.

Agno — Uma biblioteca leve para construir agentes multimodais.

AccVideo — Modelo de difusão de vídeo acelerado, com aumento de velocidade de geração em 8,5 vezes.

Video-T1 — Melhora significativamente a qualidade da geração de vídeo através do dimensionamento do tempo de teste.

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

Fin-R1 — Modelo de linguagem grande para raciocínio financeiro impulsionado por aprendizado por reforço.

Mixun T1 — El primer modelo de inferencia Mamba híbrido a gran escala de la industria, con una potente capacidad de inferencia.

Hun Yuan T1 — Modelo de raciocínio profundo líder do setor, otimizado para preferências humanas.

Hun Yuan T1 — Se lanza oficialmente el primer modelo de inferencia Mamba híbrido a gran escala de la industria.

o1-pro — O modelo o1-pro aprimora a capacidade de raciocínio complexo por meio do aprendizado por reforço, fornecendo respostas otimizadas.

Orpheus TTS — Um sistema de texto para fala de código aberto, dedicado a alcançar a naturalidade da fala humana.

Cohere Command — O Cohere Command é um modelo de linguagem de alto desempenho, projetado para empresas.

OpenJobs IA — Uma plataforma inteligente que ajuda os usuários a encontrar trabalho.