Florence-2

Un modelo base unificado para tareas de visión.

Nuevo Producto PremiumProductividadModelo de visiónAprendizaje multitarea

Florence-2 es un nuevo modelo base de visión que, mediante una representación unificada basada en indicaciones, puede manejar diversas tareas de visión artificial y visión-lenguaje. Está diseñado para aceptar indicaciones de texto como instrucciones de tareas y generar el resultado esperado en formato de texto, ya sea descripción de imágenes, detección de objetos, localización o segmentación. Esta configuración de aprendizaje multitarea requiere datos anotados a gran escala y de alta calidad. Para ello, hemos desarrollado conjuntamente FLD-5B, que contiene 5.400 millones de anotaciones visuales integrales que abarcan 126 millones de imágenes, utilizando una estrategia iterativa de anotación automática de imágenes y refinamiento del modelo. Hemos adoptado una arquitectura de secuencia a secuencia para entrenar Florence-2 con el fin de ejecutar tareas de visión diversas y completas. Una evaluación exhaustiva demuestra que Florence-2 es un potente competidor entre los modelos base de visión, con una capacidad sin precedentes de cero-shot y ajuste fino.

Best AI Websites & Tools

Florence-2

Florence-2 Situación del tráfico más reciente

Florence-2 Tendencia de visitas

Florence-2 Distribución geográfica de las visitas

Florence-2 Fuentes de tráfico

Florence-2 Alternativas

Florence-2 — Un modelo base unificado para tareas de visión.

Aya Vision — Aya Vision es un modelo de visión multimodal multilingüe lanzado por Cohere, diseñado para mejorar la comprensión visual y de texto en escenarios multilingües.

InternViT-6B-448px-V2_5 — Versión mejorada del modelo de visión basado en InternViT-6B-448px-V1-5

π0 — Primer modelo base de robot de uso general

GR-2 — Agente robótico general avanzado

Sapiens — Modelo de visión artificial avanzado de inteligencia artificial, especializado en analizar y comprender el movimiento humano.

Gemma-2-9b-it — Modelo de generación de texto ligero y avanzado

Florence-2-base-ft — Modelo base visual avanzado, compatible con diversas tareas de visión y visión-lenguaje.

Florence-2-large-ft — Modelo base visual avanzado que admite diversas tareas visuales y de visión-lenguaje.

Florence-2-base — Modelo base visual avanzado que admite diversas tareas de visión y visión-lenguaje.

Florence-2-large — Modelo base visual avanzado que admite múltiples tareas de visión y visión-lenguaje.

StreamSpeech — Traducción de voz en tiempo real, un puente para la comunicación entre idiomas.

llama3v — Modelo de visión SOTA (Estado del Arte) basado en llama3 8B

Pile-T5 — Modelo T5 entrenado con el conjunto de datos Pile

VSP-LLM — Marco que combina el procesamiento visual del habla con modelos de lenguaje grandes

InternLM2 — Modelo de lenguaje preentrenado multilingüe

Emu Edit — Edición de imágenes precisa, satisfaciendo múltiples necesidades en una sola plataforma.