OmniParser V2
OmniParser V2 es una tecnología que transforma cualquier LLM en un agente utilizable por computadora.
Selección InternacionalProgramaciónInteligencia ArtificialAutomatización de GUI
OmniParser V2 es un modelo de inteligencia artificial avanzado desarrollado por el equipo de investigación de Microsoft, diseñado para convertir los modelos de lenguaje grandes (LLM) en agentes inteligentes capaces de comprender y manipular interfaces gráficas de usuario (GUI). Esta tecnología convierte las capturas de pantalla de la interfaz del espacio de píxeles a elementos estructurados e interpretables, permitiendo a los LLM identificar con mayor precisión los iconos interactivos y realizar acciones predefinidas en la pantalla. OmniParser V2 ha logrado avances significativos en la detección de iconos pequeños y la inferencia rápida; combinado con GPT-4o, alcanzó una precisión media del 39,6% en la prueba de referencia ScreenSpot Pro, superando con creces el 0,8% del modelo original. Además, OmniParser V2 proporciona la herramienta OmniTool, compatible con múltiples LLM, impulsando aún más el desarrollo de la automatización de GUI.
OmniParser V2 Situación del tráfico más reciente
Total de visitas mensuales
1154579588
Tasa de rebote
44.37%
Páginas promedio por visita
3.4
Duración promedio de la visita
00:03:21