ROCKET-1

Modelo de indicaciones visuales-temporales contextuales que domina la interacción en mundos abiertos.

Producto ComúnProgramaciónModelo de lenguaje visualToma de decisiones encarnada

ROCKET-1 es un modelo de lenguaje visual (VLMs) diseñado específicamente para la toma de decisiones encarnadas en entornos de mundo abierto. El modelo conecta la comunicación entre los VLMs y los modelos de estrategia a través de un protocolo de indicaciones visuales-temporales contextuales, utilizando la segmentación de objetos de observaciones pasadas y presentes para guiar las interacciones estrategia-entorno. De esta manera, ROCKET-1 puede desbloquear la capacidad de razonamiento visual-lingüístico de los VLMs, permitiéndoles resolver tareas creativas complejas, especialmente en la comprensión espacial. Los experimentos de ROCKET-1 en Minecraft demuestran que este método permite a los agentes realizar tareas previamente inalcanzables, destacando la eficacia de las indicaciones visuales-temporales contextuales en la toma de decisiones encarnadas.

Best AI Websites & Tools

ROCKET-1

ROCKET-1 Situación del tráfico más reciente

ROCKET-1 Tendencia de visitas

ROCKET-1 Distribución geográfica de las visitas

ROCKET-1 Fuentes de tráfico

ROCKET-1 Alternativas

ROCKET-1 — Modelo de indicaciones visuales-temporales contextuales que domina la interacción en mundos abiertos.

Aya Vision 8B — Modelo de lenguaje visual multilingüe de 800 millones de parámetros, compatible con OCR, descripción de imágenes, razonamiento visual, etc.

VLM-R1 — VLM-R1 es un modelo de lenguaje visual reforzado estable y versátil, enfocado en tareas de comprensión visual.

Ollama OCR para web — Un potente paquete OCR que utiliza modelos de lenguaje visual de vanguardia para extraer texto de imágenes.

Minecraft con IA — Minecraft con IA es una plataforma online que fusiona la inteligencia artificial con el juego Minecraft.

Moondream AI — Modelo de lenguaje visual de código abierto que se ejecuta en varios dispositivos.

PaliGemma2-3b-pt-224 — PaliGemma 2 es un potente modelo de lenguaje visual que admite tareas de procesamiento de imágenes y texto en varios idiomas.

PaliGemma2-3b-pt-448 — PaliGemma 2 es un potente modelo de lenguaje visual que admite diversas tareas de lenguaje visual.

cogagent-9b-20241220 — CogAgent-9B-20241220 es un modelo de agente GUI basado en un modelo de lenguaje visual.

CogAgent — Agente GUI basado en el modelo de lenguaje visual de extremo a extremo (VLM) de código abierto

DeepSeek-VL2-Tiny — Modelo de lenguaje visual avanzado de gran tamaño y experto mixto

POINTS-Yi-1.5-9B-Chat — Los últimos avances en modelos de lenguaje visual, integrando la nueva tecnología de WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Los últimos avances en modelos de lenguaje visual

POINTS-1-5-Qwen-2-5-7B-Chat — Modelo de lenguaje visual líder, admite bilingüismo y control de alta calidad, gratuito.

DeepSeek-VL2 — Modelo de comprensión multimodal avanzado que integra capacidades visuales y lingüísticas.

OpenGVLab InternVL — Un modelo de lenguaje visual de IA que proporciona servicios de análisis y descripción de imágenes.

Florence-VL — Herramienta de mejora de modelos de lenguaje visual, que combina un codificador visual generativo y una técnica de fusión de profundidad y amplitud.

Qwen2-VL-7B — Qwen2-VL-7B es el último modelo de lenguaje visual, que admite la comprensión multimodal y la generación de texto.

Qwen2-VL-2B — Modelo de lenguaje visual líder en el sector, que admite la comprensión multimodal y la generación de texto.

PaliGemma 2 — PaliGemma 2 es un potente modelo de lenguaje visual, fácil de ajustar.

SmolVLM — Modelo de lenguaje visual eficiente y de código abierto

LLaVA-o1 — Modelo de lenguaje visual capaz de realizar razonamiento paso a paso.

Aquila-VL-2B-llava-qwen — Modelo de lenguaje visual que combina información de imágenes y texto para un procesamiento inteligente.

OmniParser — Analizador de interfaces de usuario basado en una interfaz gráfica de usuario puramente visual.

VisRAG — Modelo de generación aumentado por recuperación basado en un modelo de lenguaje visual (VLM)

Helpful DoggyBot — Sistema operativo de movilidad interior para robots cuadrúpedos

Generador de Círculos para Minecraft — Crea círculos y elipses perfectos en Minecraft con facilidad.

Qwen2-VL — Modelo de lenguaje visual de nueva generación, que ve el mundo con mayor claridad.

InternLM-XComposer-2.5 — Un modelo de lenguaje visual grande y multifuncional

PixelProse — Conjunto de datos de descripción de imágenes a gran escala, que proporciona más de 16 millones de descripciones de imágenes sintéticas.