Desde o lançamento do recurso de "uso de computador" do Claude pela Anthropic em outubro, as capacidades do agente de IA têm atraído muita atenção. Este recurso tornou o Claude o primeiro modelo de ponta capaz de interagir através da mesma interface gráfica do usuário (GUI) que os humanos.

O Claude realiza tarefas acessando capturas de tela da área de trabalho e usando o teclado e o mouse, oferecendo aos usuários uma maneira conveniente de automatizar operações sem a necessidade de APIs.

image.png

Em um estudo conduzido pelo Show Lab da Universidade Nacional de Singapura, os pesquisadores testaram o Claude em várias tarefas, incluindo pesquisa na web, conclusão de fluxos de trabalho, produtividade de escritório e videogames. Essas tarefas avaliaram a capacidade do Claude em diferentes cenários, como pesquisar e comprar itens em um site ou extrair informações de um site e inseri-las em uma planilha. Através desses testes, os pesquisadores avaliaram o desempenho do Claude em três dimensões: planejamento, ação e avaliação.

O desempenho do Claude em tarefas complexas foi impressionante. Ele conseguiu elaborar planos claros, executá-los passo a passo e avaliar seu progresso em cada etapa. Além disso, ele foi capaz de coordenar entre vários aplicativos, como copiar informações de uma página da web para uma planilha. Em alguns casos, o Claude até revisou os resultados ao concluir uma tarefa para garantir que tudo estivesse alinhado com o objetivo.

No entanto, o Claude também cometeu alguns erros simples que um usuário comum evitaria facilmente. Por exemplo, em uma tarefa, ele falhou em concluir uma assinatura porque não rolava a página para baixo para encontrar o botão apropriado.

Em outras ocasiões, ele foi desajeitado ao executar tarefas óbvias, como selecionar e substituir texto ou alterar marcadores por numeração. Além disso, o Claude às vezes não reconhecia seus erros ou fazia suposições incorretas sobre por que não conseguiu atingir seu objetivo.

Os pesquisadores apontaram que a deficiência do Claude em mecanismos de autoavaliação pode ter sido a causa desses erros, e que pode ser necessário melhorar a estrutura do agente GUI para adicionar um módulo de autoavaliação mais rigoroso. Os resultados da pesquisa também mostraram que os agentes GUI existentes não conseguem replicar completamente as nuances sutis da interação humana com computadores.

Para as empresas, o potencial de automatizar tarefas usando simples descrições de texto é atraente, mas a tecnologia ainda não está madura o suficiente para uso em larga escala. O comportamento do modelo é instável e pode levar a consequências imprevisíveis em aplicativos sensíveis. Além disso, usar interfaces projetadas por humanos para executar operações não é o método mais rápido para concluir tarefas.

Antes de uma implantação ampla, as empresas também devem considerar os riscos de segurança associados à concessão de acesso do mouse e do teclado a modelos de linguagem grandes (LLMs). Por exemplo, pesquisas mostraram que os agentes da web são vulneráveis a ataques adversários que os humanos podem facilmente ignorar. Apesar disso, ferramentas como o Claude ainda podem ajudar as equipes de produtos a explorar ideias, iterar soluções e, assim, economizar tempo e custos antes do desenvolvimento de novos recursos ou serviços.

Destaques:

1. 🤖 O Claude possui a capacidade de automatizar tarefas complexas por meio de interfaces gráficas do usuário, com desempenho excelente.

2. ⚠️ O Claude comete erros ao executar tarefas simples, refletindo a deficiência em seus mecanismos de autoavaliação.

3. 💼 Atualmente, essa tecnologia não é adequada para uso em larga escala, e as empresas devem ter cautela com os potenciais riscos de segurança.