A aprendizagem de máquina já se infiltrou em vários serviços online, sendo o comércio eletrônico um dos setores de maior sucesso. Nos últimos anos, a aprendizagem de máquina tem sido aplicada a diversas tarefas de compras online, como pesquisas de usuários, histórico de navegação, análise de comentários e extração de atributos de produtos. Para impulsionar o desenvolvimento de métodos de aprendizagem de máquina, muitos testes de referência foram criados, com o objetivo de reduzir o esforço de pesquisadores e engenheiros no desenvolvimento e avaliação de novas soluções para tarefas reais de comércio eletrônico.

No entanto, os modelos e benchmarks existentes geralmente são personalizados para tarefas específicas e não conseguem capturar totalmente a complexidade das compras online. Os grandes modelos de linguagem (LLMs) – com suas capacidades de aprendizado de poucas amostras e multitarefas – têm o potencial de revolucionar a experiência de compra online, reduzindo o trabalho de engenharia para tarefas específicas e oferecendo aos usuários uma interação por meio de diálogos. Apesar do enorme potencial, os LLMs também enfrentam desafios únicos no contexto do comércio eletrônico, como conceitos específicos do setor, conhecimento implícito e comportamentos de usuários heterogêneos.

image.png

Para enfrentar esses desafios, pesquisadores da Amazon propuseram o Shopping MMLU, um benchmark de compras online multitarefas baseado em dados reais da Amazon. O Shopping MMLU inclui 57 tarefas, abrangendo quatro habilidades principais de compras: compreensão de conceitos, raciocínio de conhecimento, alinhamento de comportamento do usuário e capacidade multilíngue. Assim, ele permite uma avaliação abrangente do potencial dos grandes modelos de linguagem como assistentes de compras versáteis.

O Shopping MMLU não é um teste comum; ele extrai 57 tarefas de dados reais de compras da Amazon, cobrindo quatro módulos: compreensão de conceitos, raciocínio de conhecimento, alinhamento de comportamento do usuário e capacidade multilíngue. Em resumo, ele avalia se um assistente de IA consegue entender as necessidades do usuário e ajudá-lo a encontrar o produto desejado, assim como um vendedor humano.

image.png

Pesquisadores da Amazon testaram mais de 20 modelos de IA existentes usando o Shopping MMLU, e os resultados revelaram que:

Modelos de IA proprietários de renome, como Claude-3Sonnet e ChatGPT, apresentaram um desempenho excelente, ocupando o primeiro lugar. No entanto, modelos de IA de código aberto estão se aproximando rapidamente, desafiando a "autoridade" dos modelos proprietários.

Os resultados do Shopping MMLU também revelaram um fenômeno interessante: as compras online são, na verdade, um problema de aprendizado multitarefas. Ou seja, o assistente de IA precisa dominar várias habilidades simultaneamente para desempenhar bem seu trabalho.

Ainda mais surpreendente é que os modelos de IA que se destacaram em áreas gerais também se saíram bem no comércio eletrônico. Isso indica que os assistentes de IA podem transferir conhecimento geral para domínios específicos e aprender novas habilidades rapidamente.

image.png

Claro, os assistentes de IA não são perfeitos. Os pesquisadores descobriram que alguns métodos comuns de treinamento de IA, como o ajuste fino de instruções (IFT), podem levar à superadaptação em alguns casos, afetando o desempenho.

Além disso, o aprendizado de poucas amostras é um grande desafio para os assistentes de IA. Isso significa que os assistentes de IA precisam aprender rapidamente novas tarefas, sem depender sempre de grandes conjuntos de dados de treinamento.

Em resumo, o benchmark Shopping MMLU da Amazon aponta o caminho para o desenvolvimento de assistentes de IA. No futuro, esperamos ver assistentes de IA para compras online mais inteligentes e mais amigáveis, tornando a experiência de compra mais conveniente e agradável.

image.png

Os pesquisadores também descobriram alguns detalhes relevantes:

O Shopping MMLU é mais complexo e desafiador do que outros conjuntos de dados de IA para compras online existentes.

O ajuste fino de instruções específico do domínio nem sempre é eficaz e só funciona em modelos poderosos que já possuem um amplo conhecimento geral.

Atualmente, mesmo os modelos de IA mais avançados não superam algoritmos projetados especificamente para algumas tarefas de compras online.

image.png

Os resultados desta pesquisa indicam que ainda há um longo caminho a percorrer para construir um assistente de IA perfeito para compras online. As futuras direções de pesquisa incluem: desenvolver métodos de treinamento de IA mais eficazes, construir conjuntos de dados de IA para compras online mais diversos e combinar modelos de IA com algoritmos específicos para tarefas, criando sistemas de IA híbridos mais poderosos.

Finalmente, os pesquisadores também reconhecem algumas limitações desta pesquisa:

Os dados do Shopping MMLU são principalmente da Amazon e podem não representar totalmente o comportamento do usuário em outras plataformas de comércio eletrônico.

Apesar dos esforços dos pesquisadores para evitar isso, os dados do Shopping MMLU podem ainda conter alguns erros.

Em resumo, esta pesquisa da Amazon abre as portas para uma era futura de compras inteligentes. Acreditamos que, em breve, os assistentes de IA para compras online se tornarão parte integrante de nossas vidas.

Endereço do artigo: https://arxiv.org/pdf/2410.20745

Dados e código de avaliação:

https://github.com/KL4805/ShoppingMMLU

Workshop KDD Cup 2024 e soluções das equipes vencedoras:

https://amazon-kddcup24.github.io/

Classificação de avaliação:

https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard