Florence-VL

Herramienta de mejora de modelos de lenguaje visual, que combina un codificador visual generativo y una técnica de fusión de profundidad y amplitud.

Producto ComúnProgramaciónModelo de lenguaje visualAprendizaje multimodal

Abrir sitio web

Florence-VL es un modelo de lenguaje visual que mejora el procesamiento de información visual y lingüística mediante la introducción de un codificador visual generativo y una técnica de fusión de profundidad y amplitud. La importancia de esta técnica radica en su capacidad para mejorar la comprensión de imágenes y texto por parte de la máquina, lo que permite obtener mejores resultados en tareas multimodales. Florence-VL se basa en el proyecto LLaVA y proporciona código, puntos de control de modelos y demostraciones para el entrenamiento previo y el ajuste fino.

Best AI Websites & Tools

Florence-VL

Florence-VL Situación del tráfico más reciente

Florence-VL Tendencia de visitas

Florence-VL Distribución geográfica de las visitas

Florence-VL Fuentes de tráfico

Florence-VL Alternativas

Florence-VL — Herramienta de mejora de modelos de lenguaje visual, que combina un codificador visual generativo y una técnica de fusión de profundidad y amplitud.

PaliGemma 2 — PaliGemma 2 es un potente modelo de lenguaje visual, fácil de ajustar.

llava-llama-3-8b-v1_1 — Modelo LLaVA optimizado por XTuner, que combina el procesamiento de imágenes y texto.

VLM-R1 — VLM-R1 es un modelo de lenguaje visual reforzado estable y versátil, enfocado en tareas de comprensión visual.

DeepSeek-VL2-Tiny — Modelo de lenguaje visual avanzado de gran tamaño y experto mixto

OpenGVLab InternVL — Un modelo de lenguaje visual de IA que proporciona servicios de análisis y descripción de imágenes.

Aixploria — Directorio de herramientas de IA, descubre las mejores herramientas de IA

Anthropic — Forjando el futuro de la inteligencia artificial

FlexHeadFA — Mecanismo de atención preciso, rápido y eficiente en cuanto a memoria.

FlashMLA — FlashMLA es un núcleo de decodificación MLA eficiente optimizado para GPU Hopper, ideal para servicios de secuencias de longitud variable.

Detección de Compatibilidad de Modelos DeepSeek — Detecta si un dispositivo puede ejecutar modelos DeepSeek de diferentes escalas, ofreciendo una predicción de compatibilidad.

Preentrenamiento de modelos de lenguaje recurrentes a gran escala — Código de preentrenamiento para modelos de lenguaje recurrentes profundos a gran escala, compatible con la ejecución en 4096 GPU AMD.

node-DeepResearch — Busca y lee páginas web continuamente hasta encontrar la respuesta (o hasta agotar el presupuesto de tokens).

Open R1 — Este es un proyecto de reproducción de un modelo DeepSeek-R1 completamente abierto, diseñado para ayudar a los desarrolladores a reproducir y construir modelos basados en R1.

Janus-Pro-1B — Janus-Pro-1B es un marco autorregresivo unificado de comprensión y generación multimodal.

Tarsier — Tarsier es un modelo de lenguaje de video a gran escala desarrollado por ByteDance para generar descripciones de video de alta calidad.

VideoLLaMA3 — VideoLLaMA3 es un modelo base multimodal de vanguardia, especializado en la comprensión de imágenes y videos.

MiniMax-01 — Potente modelo de lenguaje con 4560 mil millones de parámetros totales, capaz de procesar contextos de hasta 4 millones de tokens.

Llama-3.1-70B-Instruct-AWQ-INT4 — Modelo de generación de texto con 70 mil millones de parámetros

DeepSeek-V3 — Un modelo de lenguaje Mixture-of-Experts con 671B parámetros.

DRT-o1 — Modelo de traducción automática neuronal basado en cadenas de razonamiento largas para optimizar la traducción.

CogAgent — Agente GUI basado en el modelo de lenguaje visual de extremo a extremo (VLM) de código abierto

Megrez-3B-Omni — Modelo de comprensión multimodal de extremo a extremo de código abierto

mwp_ReFT — Marco de ajuste fino de modelos basado en el aprendizaje por refuerzo profundo

LLaVA-o1 — Modelo de lenguaje visual capaz de realizar razonamiento paso a paso.

LLaMA-Mesh — Unificación de modelos de lenguaje y generación de mallas 3D

Aquila-VL-2B-llava-qwen — Modelo de lenguaje visual que combina información de imágenes y texto para un procesamiento inteligente.

Demostración de TTS MaskGCT — Demostración de texto a voz (TTS) basada en el modelo MaskGCT

DocLayout-YOLO — Mejora el análisis de diseño de documentos mediante datos sintéticos diversificados y una percepción adaptativa de global a local.

mPLUG-DocOwl 1.5 — Modelo de aprendizaje de estructura unificada para la comprensión de documentos sin OCR