LLaVA-OneVision

Modelo de conversão eficiente para tarefas de visão multimodal

Produto ComumImagemMultimodalReconhecimento Visual
LLaVA-OneVision é um grande modelo multimodal (LMMs) desenvolvido em colaboração pela ByteDance e diversas universidades. Ele impulsiona os limites de desempenho dos modelos abertos de grande porte multimodais em cenários de imagem única, múltiplas imagens e vídeo. O design do modelo permite uma forte transferência de aprendizagem entre diferentes modalidades/cenários, exibindo novas capacidades abrangentes, especialmente em compreensão de vídeo e capacidade multi-cenário, demonstrado através da conversão de tarefas de imagem para vídeo.
Abrir Site

LLaVA-OneVision Situação do Tráfego Mais Recente

Total de Visitas Mensais

80956

Taxa de Rejeição

52.28%

Média de Páginas por Visita

1.2

Duração Média da Visita

00:00:34

LLaVA-OneVision Tendência de Visitas

LLaVA-OneVision Distribuição Geográfica das Visitas

LLaVA-OneVision Fontes de Tráfego

LLaVA-OneVision Alternativas