LLaVA-OneVision
Modelo de conversão eficiente para tarefas de visão multimodal
Produto ComumImagemMultimodalReconhecimento Visual
LLaVA-OneVision é um grande modelo multimodal (LMMs) desenvolvido em colaboração pela ByteDance e diversas universidades. Ele impulsiona os limites de desempenho dos modelos abertos de grande porte multimodais em cenários de imagem única, múltiplas imagens e vídeo. O design do modelo permite uma forte transferência de aprendizagem entre diferentes modalidades/cenários, exibindo novas capacidades abrangentes, especialmente em compreensão de vídeo e capacidade multi-cenário, demonstrado através da conversão de tarefas de imagem para vídeo.
LLaVA-OneVision Situação do Tráfego Mais Recente
Total de Visitas Mensais
80956
Taxa de Rejeição
52.28%
Média de Páginas por Visita
1.2
Duração Média da Visita
00:00:34