Florence-VL
Herramienta de mejora de modelos de lenguaje visual, que combina un codificador visual generativo y una técnica de fusión de profundidad y amplitud.
Producto ComúnProgramaciónModelo de lenguaje visualAprendizaje multimodal
Florence-VL es un modelo de lenguaje visual que mejora el procesamiento de información visual y lingüística mediante la introducción de un codificador visual generativo y una técnica de fusión de profundidad y amplitud. La importancia de esta técnica radica en su capacidad para mejorar la comprensión de imágenes y texto por parte de la máquina, lo que permite obtener mejores resultados en tareas multimodales. Florence-VL se basa en el proyecto LLaVA y proporciona código, puntos de control de modelos y demostraciones para el entrenamiento previo y el ajuste fino.
Florence-VL Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34