mPLUG-Owl3
Modelo de linguagem grande multimodal que compreende sequências longas de imagens.
Produto ComumImagemMultimodalCompreensão de imagens
O mPLUG-Owl3 é um modelo de linguagem grande multimodal focado na compreensão de sequências longas de imagens. Ele consegue aprender conhecimento a partir de sistemas de recuperação, interagir com usuários em diálogos alternados de texto e imagem, assistir vídeos longos e memorizar seus detalhes. O código-fonte e os pesos do modelo foram publicados no HuggingFace e são aplicáveis a cenários como perguntas e respostas visuais, benchmarks multimodais e benchmarks de vídeo.
mPLUG-Owl3 Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34