mPLUG-Owl3
Modelo de lenguaje grande multimodal que comprende secuencias largas de imágenes.
Producto ComúnImagenMultimodalComprensión de imágenes
mPLUG-Owl3 es un modelo de lenguaje grande multimodal centrado en la comprensión de secuencias largas de imágenes. Es capaz de aprender conocimientos de un sistema de recuperación, entablar conversaciones con el usuario alternando texto e imágenes, ver videos largos y recordar sus detalles. El código fuente y los pesos del modelo se han publicado en HuggingFace, siendo adecuado para escenarios como preguntas y respuestas visuales, pruebas de evaluación multimodales y pruebas de evaluación de vídeo.
mPLUG-Owl3 Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34