Migician

Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

Producto ComúnImagenMultimodalLocalización de imágenes

Abrir sitio web

Migician es un modelo de lenguaje multimodal de gran tamaño desarrollado por el Laboratorio de Procesamiento del Lenguaje Natural de la Universidad Tsinghua, centrado en tareas de localización de múltiples imágenes. Este modelo, mediante la introducción de un innovador marco de entrenamiento y el conjunto de datos a gran escala MGrounding-630k, mejora significativamente la capacidad de localización precisa en escenarios con múltiples imágenes. No solo supera a los modelos de lenguaje multimodal de gran tamaño existentes, sino que incluso supera en rendimiento a modelos de 70B aún más grandes. La principal ventaja de Migician radica en su capacidad para manejar tareas complejas de múltiples imágenes y proporcionar instrucciones de localización de forma libre, lo que le confiere una importante aplicación en el campo de la comprensión de múltiples imágenes. Actualmente, este modelo se encuentra disponible en código abierto en Hugging Face para su uso por parte de investigadores y desarrolladores.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Migician

Migician Situación del tráfico más reciente

Migician Tendencia de visitas

Migician Distribución geográfica de las visitas

Migician Fuentes de tráfico

Migician Alternativas

Migician — Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

ViDoRAG — ViDoRAG es un marco de agentes de razonamiento iterativo dinámico que combina la recuperación de documentos visuales con la generación mejorada.

Janus-Pro-1B — Janus-Pro-1B es un marco autorregresivo unificado de comprensión y generación multimodal.

VideoLLaMA3 — VideoLLaMA3 es un modelo base multimodal de vanguardia, especializado en la comprensión de imágenes y videos.

InternVL2.5-8B-MPO — Modelo lingüístico grande multimodales que muestra un rendimiento general excelente.

InternVL2.5-4B-MPO — Modelo de lenguaje grande multimodal que muestra un rendimiento general excelente.

FlagAI — Proyecto de código abierto integral de algoritmos, modelos y herramientas de optimización de modelos grandes.

InternVL2_5-2B-MPO — Modelo de lenguaje grande multimodal avanzado

InternVL2_5-1B-MPO — Modelo de lenguaje grande multimodal que mejora la comprensión integral de la visión y el lenguaje.

WePOINTS — Proyecto WePOINTS: un marco unificado para modelos multimodales.

InternVL2_5-38B — Serie de modelos de lenguaje grandes multimodales de vanguardia

Pixtral-Large-Instruct-2411 — Modelo lingüístico multimodal grande de 124B parámetros

EMOVA — Modelo de lenguaje multimodal con capacidad emocional

Molmo — Familia de modelos de IA multimodal de vanguardia

pixtral-12b-240910 — Modelo de lenguaje grande multimodal que admite la comprensión de imágenes y texto.

Modelo de lenguaje extenso Xihu — Modelo multimodal con alta inteligencia emocional y coeficiente intelectual

MedTrinity-25M — Conjunto de datos médicos multimodales a gran escala

Serie GLM-4 — Modelo de diálogo multimodal y multilingüe de código abierto

Gemini 1.5 Flash — Modelo de IA ligero y eficiente de Google, diseñado para tareas de alta frecuencia y gran escala.

Meta Llama 3 — Modelo de lenguaje grande de código abierto de última generación de Meta, con un rendimiento excepcional.

Vista Previa de Grok-1.5 — El primer modelo multimodal que conecta el mundo digital y físico

Llama 3 — Modelo de lenguaje grande de código abierto de nueva generación, con un rendimiento excepcional.

Yi-VL-34B — Modelo multimodal de código abierto avanzado

Instruct-Imagen — Modelo de generación de imágenes multimodal

TinyGPT-V — Modelo de lenguaje grande multimodal y eficiente

VCoder — VCoder es un modelo de percepción visual que mejora el rendimiento de los modelos de lenguaje grandes multimodales en tareas de visión a nivel de objeto.

PixelLLM — Modelo de lenguaje alineado a píxeles

Kosmos-2 — Modelo de lenguaje grande multi-modal orientado al mundo

GLM-4-32B — Un potente modelo de lenguaje que admite múltiples tareas de procesamiento de lenguaje natural.

InternVL3 — InternVL3 de código abierto: 7 tamaños que cubren el procesamiento de texto, imágenes y video; capacidad multimodal extendida al análisis de imágenes industriales