Recientemente, Microsoft anunció una importante actualización de su proyecto de código abierto AgentUFO, lanzando la nueva versión UFO², que incorpora funcionalidades del sistema operativo e integra profundamente con Windows. Esta iniciativa no solo mejora la eficiencia de la ejecución de tareas automatizadas, sino que también permite a los usuarios realizar operaciones complejas de forma más sencilla.
Una característica destacada de UFO² es su capacidad para llamar directamente a las API nativas y las interfaces COM de Windows. Este método, en comparación con la automatización robótica de procesos (RPA) tradicional, permite una ejecución más eficiente y precisa de tareas complejas. Por ejemplo, para convertir datos de una tabla en un gráfico en Excel, la RPA tradicional requiere simular múltiples clics del ratón, mientras que UFO² puede realizarlo con una sola llamada a la API, evitando la tediosa localización visual y la simulación del ratón.
Los datos de las pruebas muestran que UFO² tiene una tasa de éxito significativamente mayor en tareas automatizadas que Operator de OpenAI. En diferentes escenarios de prueba, la tasa de éxito de UFO² alcanzó el 30,5% y el 32,7%, mientras que la de Operator fue solo del 20,8% y el 14,3%. Además, UFO² mostró un rendimiento superior a Operator en el manejo de tareas complejas y operaciones entre aplicaciones, adaptándose mejor a interfaces no estándar.
El componente de control central de UFO², HostAgent, se encarga de analizar las instrucciones del usuario, gestionar el ciclo de vida de las aplicaciones y coordinar la ejecución de los AppAgents. Cuando el usuario emite una instrucción de automatización en lenguaje natural, HostAgent descompone la tarea en una serie de subtareas y las asigna a los AppAgents correspondientes para su ejecución.
Cada AppAgent se centra en una aplicación específica de Windows y puede ejecutar tareas con mayor eficiencia. UFO² también ha introducido un mecanismo de detección de control mixto, que combina la entrada visual con los metadatos de la aplicación para mejorar la capacidad del sistema de percibir los elementos de la GUI. Esta innovación permite que AppAgent funcione de manera estable tanto en entornos estándar como no estándar.
Otra innovación destacable es el modo de imagen en imagen de UFO². Esta función permite aislar las tareas automatizadas del escritorio principal del usuario, permitiendo al usuario trabajar normalmente en su escritorio principal mientras las tareas automatizadas se ejecutan en un escritorio virtual independiente. Este diseño mejora la experiencia del usuario, reduciendo las interferencias del sistema y los posibles riesgos de seguridad.
Estas nuevas funciones de UFO² demuestran los últimos avances tecnológicos de Microsoft en el campo de la automatización, ofreciendo a los usuarios un entorno de trabajo más eficiente y flexible.
Dirección del código abierto: https://github.com/microsoft/UFO?tab=readme-ov-file
Puntos clave:
1. 🚀 UFO² se integra profundamente con el sistema Windows, pudiendo llamar directamente a las API nativas para mejorar la eficiencia de la automatización.
2. 📊 UFO² tiene una tasa de éxito significativamente mayor en tareas automatizadas que Operator de OpenAI, mostrando un excelente rendimiento.
3. 🖥️ El nuevo modo de imagen en imagen permite aislar las tareas automatizadas de las operaciones del usuario, mejorando la experiencia del usuario.