Desde que Anthropic lanzara la función de "uso de computadora" de Claude en octubre, las capacidades del agente de IA han generado un gran interés. Esta función convierte a Claude en el primer modelo de vanguardia capaz de interactuar a través de una interfaz gráfica de usuario (GUI) de la misma manera que un humano.
Claude realiza tareas accediendo a capturas de pantalla del escritorio y utilizando el teclado y el ratón, ofreciendo a los usuarios una forma conveniente de automatizar acciones sin necesidad de una interfaz de programación de aplicaciones (API).
En un estudio realizado por el Show Lab de la Universidad Nacional de Singapur, los investigadores probaron a Claude en varias tareas, incluyendo búsquedas en la web, finalización de flujos de trabajo, productividad de oficina y videojuegos. Estas tareas evaluaron la capacidad de Claude en diferentes escenarios, como buscar y comprar artículos en una página web, o extraer información de un sitio web e insertarla en una hoja de cálculo. Los investigadores evaluaron el rendimiento de Claude en tres dimensiones: planificación, acción y evaluación.
El rendimiento de Claude en tareas complejas fue impresionante. Fue capaz de elaborar planes claros, ejecutarlos paso a paso y evaluar su progreso en cada etapa. Además, pudo coordinar acciones entre varias aplicaciones, como copiar información de una página web a una hoja de cálculo. En algunos casos, Claude incluso revisó los resultados al final de una tarea para asegurar que todo coincidiera con el objetivo.
Sin embargo, Claude también cometió algunos errores simples, errores que un usuario promedio evitaría fácilmente. Por ejemplo, en una tarea, no pudo completar una suscripción porque no se desplazó hacia abajo en la página web para encontrar el botón correspondiente.
En otras ocasiones, fue torpe al realizar tareas aparentemente sencillas, como seleccionar y reemplazar texto o cambiar viñetas por numeración. Además, a veces Claude no era consciente de sus errores o hacía suposiciones incorrectas sobre las razones de su fracaso.
Los investigadores señalan que la deficiencia en el mecanismo de autoevaluación de Claude podría ser la causa de estos errores, y que en el futuro podría ser necesario mejorar el marco del agente GUI para incluir un módulo de autoevaluación más robusto. Los resultados de la investigación también muestran que los agentes GUI existentes no pueden replicar completamente los matices básicos del uso de una computadora por parte de los humanos.
Para las empresas, el potencial de automatizar tareas con simples descripciones de texto es muy atractivo, pero la tecnología aún no está madura para una adopción a gran escala. El comportamiento del modelo es inestable y puede provocar consecuencias impredecibles en aplicaciones sensibles. Además, usar una interfaz diseñada para humanos no es la forma más rápida de completar las tareas.
Antes de una implementación generalizada, las empresas también deben considerar los riesgos de seguridad asociados con la concesión de acceso al ratón y al teclado a los modelos lingüísticos grandes (LLM). Por ejemplo, hay estudios que muestran que los agentes web son vulnerables a ataques adversarios que un humano podría pasar por alto fácilmente. A pesar de ello, herramientas como Claude pueden ayudar a los equipos de producto a explorar ideas, iterar soluciones y ahorrar tiempo y costes antes de desarrollar nuevas funciones o servicios.
Puntos clave:
1. 🤖 Claude tiene la capacidad de automatizar tareas complejas a través de una interfaz gráfica de usuario, con un rendimiento excelente.
2. ⚠️ Claude comete errores al realizar tareas simples, lo que refleja las deficiencias en su mecanismo de autoevaluación.
3. 💼 Actualmente, esta tecnología no es adecuada para una aplicación a gran escala, y las empresas deben ser cautelosas con los posibles riesgos de seguridad.