Florence-2-large

Modelo base visual avanzado que admite múltiples tareas de visión y visión-lenguaje.

Producto ComúnImagenModelo visualAprendizaje multitarea

Florence-2-large es un modelo base visual avanzado desarrollado por Microsoft que utiliza un método basado en prompts para abordar una amplia gama de tareas de visión y visión-lenguaje. El modelo puede interpretar prompts de texto simples para realizar tareas como descripción de imágenes, detección y segmentación de objetos. Aprovecha el conjunto de datos FLD-5B, que contiene 540 millones de imágenes con 5.400 millones de anotaciones, y domina el aprendizaje multitarea. Su arquitectura de secuencia a secuencia le permite destacar tanto en entornos de cero-shot como de ajuste fino, demostrando ser un modelo base visual competitivo.

Descripción de imágenes: Genera texto descriptivo según el contenido de la imagen.
Detección de objetos: Identifica objetos en una imagen y etiqueta su ubicación.
Segmentación: Distingue diferentes regiones en una imagen
como objetos y fondo.
Descripción de regiones densas: Genera descripciones detalladas para regiones densas en una imagen.
Propuestas de regiones: Sugiere regiones en una imagen que pueden contener objetos.
OCR: Reconoce y extrae texto de una imagen.
OCR con regiones: Combina información de regiones para el reconocimiento de texto.

El modelo Florence-2-large es adecuado para desarrolladores e investigadores que necesitan realizar análisis y comprensión de imágenes. Ya sea para explorar los avances en el reconocimiento visual en la investigación académica o para implementar el etiquetado y la descripción automáticos del contenido de las imágenes en aplicaciones comerciales
este modelo ofrece un potente soporte.

Generar automáticamente texto descriptivo para imágenes en redes sociales.
Proporcionar servicios de detección y clasificación de objetos para imágenes de productos en sitios web de comercio electrónico.
Utilizarlo en el campo de la conducción autónoma para la identificación de carreteras y señales de tráfico.

Importar las bibliotecas necesarias
como requests
PIL
Image y transformers.
Cargar el modelo Florence-2-large desde el modelo preentrenado usando AutoModelForCausalLM y AutoProcessor.

Abrir sitio web

Florence-2-large Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Florence-2-large Tendencia de visitas

Florence-2-large Distribución geográfica de las visitas

Best AI Websites & Tools

Florence-2-large

Florence-2-large Situación del tráfico más reciente

Florence-2-large Tendencia de visitas

Florence-2-large Distribución geográfica de las visitas

Florence-2-large Fuentes de tráfico

Florence-2-large Alternativas

Florence-2-large — Modelo base visual avanzado que admite múltiples tareas de visión y visión-lenguaje.

PaliGemma2-3b-pt-224 — PaliGemma 2 es un potente modelo de lenguaje visual que admite tareas de procesamiento de imágenes y texto en varios idiomas.

Florence-2-base — Modelo base visual avanzado que admite diversas tareas de visión y visión-lenguaje.

Aya Vision 32B — Aya Vision 32B es un modelo de lenguaje visual multilingüe, adecuado para OCR, descripción de imágenes, razonamiento visual y otros usos.

Aya Vision 8B — Modelo de lenguaje visual multilingüe de 800 millones de parámetros, compatible con OCR, descripción de imágenes, razonamiento visual, etc.

Detección de Objetos Agénticos — Tecnología de detección de objetos basada en inferencia, que permite una detección con precisión similar a la humana mediante indicaciones de texto.

MILS — Los modelos lingüísticos de gran tamaño (LLM) pueden ver y oír sin necesidad de entrenamiento previo.

SmolVLM-500M-Instruct — SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

PaliGemma2-3b-pt-448 — PaliGemma 2 es un potente modelo de lenguaje visual que admite diversas tareas de lenguaje visual.

InternVL2_5-26B-MPO — Modelo de lenguaje grande multimodales que mejora la interacción entre la visión y el lenguaje.

Generador inteligente de descripciones de imágenes — Utiliza tecnología inteligente para generar descripciones contextuales de imágenes.

InternVL2_5-1B-MPO — Modelo de lenguaje grande multimodal que mejora la comprensión integral de la visión y el lenguaje.

PicWordify — Automatización de la generación de texto descriptivo para imágenes de sitios web

Incorporación de Documentos — Aprovecha la tecnología de IA compuesta para procesar documentos en línea y superar las diferencias de modalidad.

Detección de Objetos en Imágenes con Claude Vision — Potente herramienta Python que utiliza la API de Visión de Claude 3.5 Sonnet para la detección y visualización de objetos en imágenes.

D-FINE — D-FINE redefine la tarea de regresión en DETRs como un refinamiento de distribución de grano fino.

π0 — Primer modelo base de robot de uso general

joy-caption-batch — Herramienta para generar títulos descriptivos para archivos de imagen de forma masiva.

GR-2 — Agente robótico general avanzado

YOLO11 — Modelo avanzado de detección y seguimiento de objetivos

AI Describe Pictures — Tecnología de IA para generar descripciones de imágenes rápidamente

bonding_w_geimini — Aplicación Streamlit para la detección de objetos en imágenes usando la API de Gemini

DescribePic — Generador inteligente de descripciones de imágenes, 50 usos gratuitos diarios.

TF-ID — Herramienta de reconocimiento de tablas y figuras en documentos académicos

image-textualization — Genera automáticamente descripciones de imágenes ricas y detalladas.

Gemma-2-9b-it — Modelo de generación de texto ligero y avanzado

LongVA — Modelo de transformación de contexto largo de lenguaje a visión

HunyuanCaptioner — Modelo de IA que genera descripciones de imágenes de alta calidad

Florence-2-base-ft — Modelo base visual avanzado, compatible con diversas tareas de visión y visión-lenguaje.

Florence-2-large-ft — Modelo base visual avanzado que admite diversas tareas visuales y de visión-lenguaje.