Recentemente, um novo estudo mostrou que mesmo modelos de linguagem AI avançados, como o o1-preview mais recente da OpenAI, têm dificuldades em tarefas de planejamento complexas.

Esta pesquisa foi conduzida em conjunto por cientistas da Universidade Fudan, da Universidade Carnegie Mellon, da ByteDance e da Universidade Estadual de Ohio, testando o desempenho de modelos de IA em dois benchmarks de planejamento: BlocksWorld e TravelPlanner.

Inteligência Artificial, IA, cérebro humano, futuro

No BlocksWorld, uma tarefa clássica de planejamento, a precisão da maioria dos modelos ficou abaixo de 50%, com apenas o o1-mini (um pouco abaixo de 60%) e o o1-preview (próximo a 100%) apresentando desempenho relativamente bom.

No entanto, quando os pesquisadores se voltaram para o TravelPlanner, mais complexo, o desempenho de todos os modelos foi decepcionante. A taxa de sucesso final do GPT-4o foi de apenas 7,8%, enquanto o o1-preview atingiu 15,6%. Outros modelos, como GPT-4o-Mini, Llama3.1 e Qwen2, obtiveram pontuações entre 0 e 2,2%. Embora o o1-preview tenha apresentado uma melhoria em relação ao GPT-4o, ainda está muito aquém da capacidade de planejamento humana.

Os pesquisadores apontaram dois problemas principais. Primeiro, os modelos tiveram um desempenho ruim na integração de regras e condições, fazendo com que seus planos muitas vezes violassem as diretrizes predefinidas. Segundo, à medida que o tempo de planejamento aumentava, eles perdiam gradualmente o foco no problema original. Para avaliar a influência de diferentes componentes de entrada no processo de planejamento, a equipe de pesquisa utilizou um método de "importância de características de permutação".

Além disso, a equipe de pesquisa também testou duas estratégias comuns para melhorar a capacidade de planejamento da IA. A primeira foi usar a atualização da memória episódica, obtendo conhecimento de tentativas de planejamento anteriores, o que, embora tenha melhorado a compreensão das restrições, não levou a uma consideração mais detalhada de regras individuais. A segunda foi a atualização da memória paramétrica, aprimorando o impacto da tarefa no planejamento por meio de ajuste fino, mas o problema central - a diminuição da influência - persistiu à medida que o planejamento se estendia. Embora ambas as estratégias tenham apresentado alguma melhoria, elas não resolveram completamente o problema fundamental.

Vale ressaltar que o código e os dados relacionados à pesquisa serão divulgados em breve no GitHub.

Link do código: https://github.com/hsaest/Agent-Planning-Analysis

Pontos importantes:

🌍 A pesquisa mostra que modelos de IA como o o1-preview da OpenAI têm um desempenho ruim em planejamento de viagens complexo, com o GPT-4o tendo uma taxa de sucesso de apenas 7,8%.  

📉 A maioria dos modelos apresentou desempenho aceitável no BlocksWorld, mas tiveram dificuldades em alcançar resultados ideais no TravelPlanner.  

🧠 A pesquisa descobriu que os modelos apresentam principalmente problemas de integração insuficiente de regras e perda de foco com o passar do tempo.