A equipe de pesquisa da Microsoft lançou recentemente uma tecnologia de inteligência artificial chamada “Modelo de Ação em Grande Escala” (Large Action Model, ou LAM), marcando uma nova fase no desenvolvimento da IA. Diferentemente dos modelos de linguagem tradicionais, como o GPT-4, o LAM consegue operar programas do Windows de forma autônoma. Isso significa que a IA não apenas conversa ou oferece sugestões, mas executa tarefas reais.
A vantagem do LAM reside em sua capacidade de entender diversas entradas do usuário, incluindo texto, voz e imagens, convertendo esses pedidos em planos detalhados de ação. O LAM não apenas cria planos, mas também ajusta suas estratégias com base nas circunstâncias em tempo real. A construção do LAM envolve quatro etapas principais: primeiro, o modelo aprende a decompor tarefas em etapas lógicas; em seguida, aprende a transformar esses planos em ações concretas por meio de sistemas de IA mais avançados (como o GPT-4); depois, o LAM explora soluções novas de forma independente, resolvendo até mesmo problemas que outros sistemas de IA não conseguem; finalmente, ele é refinado por meio de um mecanismo de recompensas.
Em experimentos, a equipe de pesquisa construiu um modelo LAM baseado no Mistral-7B e o testou em um ambiente do Word. Os resultados mostraram que o modelo teve uma taxa de sucesso de 71% na conclusão de tarefas. Em comparação, o GPT-4, sem informações visuais, teve uma taxa de sucesso de 63%.
Além disso, o LAM apresentou desempenho superior em termos de velocidade de execução de tarefas, levando apenas 30 segundos para cada tarefa, enquanto o GPT-4 levou 86 segundos. Embora a taxa de sucesso do GPT-4 tenha aumentado para 75,5% ao lidar com informações visuais, o LAM mostrou vantagens significativas em velocidade e eficácia.
Para construir o conjunto de dados de treinamento, a equipe de pesquisa inicialmente coletou 29.000 pares de exemplos de tarefas e planos, obtidos de documentos da Microsoft, artigos do wikiHow e buscas do Bing. Em seguida, eles usaram o GPT-4 para transformar tarefas simples em tarefas complexas, expandindo o conjunto de dados para 76.000 pares (um aumento de 150%). Finalmente, cerca de 2.000 sequências de ações bem-sucedidas foram incluídas no conjunto de treinamento final.
Apesar do potencial demonstrado pelo LAM no desenvolvimento da IA, a equipe de pesquisa ainda enfrenta alguns desafios, como a possibilidade de erros nas ações da IA, questões regulatórias e limitações técnicas para escalabilidade e adaptação em diferentes aplicações. No entanto, os pesquisadores acreditam que o LAM representa uma mudança importante no desenvolvimento da IA, sugerindo que os assistentes de inteligência artificial poderão auxiliar os humanos de forma mais ativa na conclusão de tarefas reais.
Destaques:
🌟 O LAM pode executar programas do Windows autonomamente, superando a limitação das IAs tradicionais que apenas conversam.
⏱️ Em testes no Word, o LAM atingiu uma taxa de sucesso de 71% na conclusão de tarefas, superior aos 63% do GPT-4, e com maior velocidade de execução.
📈 A equipe de pesquisa, por meio de uma estratégia de expansão de dados, aumentou o número de pares de tarefas e planos para 76.000, melhorando ainda mais o treinamento do modelo.