El aprendizaje automático ya se ha integrado en diversos servicios online, siendo las compras online uno de los ámbitos más exitosos. En los últimos años, se ha aplicado a diversas tareas de comercio electrónico, como la búsqueda de usuarios, el historial de navegación, el análisis de reseñas y la extracción de atributos de productos. Para impulsar el desarrollo de métodos de aprendizaje automático, han surgido numerosas pruebas de referencia, con el objetivo de reducir el umbral para que investigadores e ingenieros desarrollen y evalúen soluciones innovadoras para tareas reales de compras online.
Sin embargo, los modelos y las pruebas de referencia existentes suelen estar diseñados para tareas específicas y no logran capturar completamente la complejidad de las compras online. Los modelos lingüísticos grandes (LLM) , gracias a su capacidad de aprendizaje multitarea y de pocos ejemplos, tienen el potencial de revolucionar la experiencia de compra online al reducir el trabajo de ingeniería específico de cada tarea y ofrecer a los usuarios una interacción conversacional. A pesar de su enorme potencial, los LLM también enfrentan desafíos únicos en el ámbito de las compras online, como los conceptos de compra específicos del sector, el conocimiento implícito y el comportamiento heterogéneo de los usuarios.
Para abordar estos desafíos, los investigadores de Amazon han presentado Shopping MMLU, una prueba de referencia multitarea de compras online basada en datos reales de Amazon. Shopping MMLU incluye 57 tareas que abarcan cuatro habilidades de compra principales: comprensión de conceptos, razonamiento del conocimiento, alineación del comportamiento del usuario y capacidades multilingües, lo que permite evaluar exhaustivamente el potencial de los modelos lingüísticos grandes como asistentes de compra versátiles.
Shopping MMLU no es un simple "examen", sino que extrae 57 tareas de datos reales de compras de Amazon, abarcando cuatro módulos: comprensión de conceptos, razonamiento del conocimiento, alineación del comportamiento del usuario y capacidades multilingües. En resumen, evalúa si un asistente de IA puede comprender las necesidades del usuario y ayudarlo a encontrar el producto ideal, al igual que un vendedor humano.
Los investigadores de Amazon probaron más de 20 modelos de IA existentes con Shopping MMLU, y los resultados mostraron que:
Los conocidos modelos de IA propietarios, como Claude-3Sonnet y ChatGPT, obtuvieron excelentes resultados, ocupando el primer lugar. Sin embargo, los modelos de IA de código abierto están alcanzando rápidamente a los "líderes".
Los resultados de Shopping MMLU también revelaron un fenómeno interesante: las compras online son un problema de aprendizaje multitarea. Es decir, un asistente de IA necesita dominar varias habilidades para desempeñar eficazmente su función.
Más sorprendente aún, los modelos de IA que destacaron en ámbitos generales también lo hicieron en el ámbito de las compras online. Esto demuestra que los asistentes de IA pueden transferir el conocimiento general a ámbitos específicos y aprender nuevas habilidades rápidamente.
Por supuesto, los asistentes de IA no son perfectos. Los investigadores descubrieron que algunos métodos comunes de entrenamiento de IA, como el ajuste fino de instrucciones (IFT), pueden provocar un sobreajuste del modelo en ciertas situaciones, afectando su rendimiento.
Además, el aprendizaje de pocos ejemplos es otro gran desafío para los asistentes de IA. Esto significa que los asistentes de IA deben aprender rápidamente cuando se enfrentan a nuevas tareas, en lugar de depender siempre de grandes cantidades de datos de entrenamiento.
En resumen, la prueba de referencia Shopping MMLU de Amazon ha indicado la dirección para el desarrollo de asistentes de IA. En el futuro, esperamos ver asistentes de IA para compras online más inteligentes y más humanos, que hagan que nuestra experiencia de compra sea más cómoda y agradable.
Los investigadores también encontraron algunos detalles importantes:
Shopping MMLU es más complejo y desafiante que otros conjuntos de datos de IA para compras online existentes.
El ajuste fino de instrucciones específicas del dominio no siempre es efectivo y solo funciona en modelos potentes que ya poseen un amplio conocimiento general.
Actualmente, incluso los modelos de IA más avanzados no superan en algunas tareas de compras online a los algoritmos diseñados específicamente para esas tareas.
Los resultados de esta investigación indican que aún queda un largo camino por recorrer para construir un asistente de IA perfecto para compras online. Las futuras líneas de investigación incluyen: desarrollar métodos de entrenamiento de IA más efectivos, construir conjuntos de datos de IA para compras online más diversos y combinar modelos de IA con algoritmos específicos de tareas para crear sistemas de IA híbridos más potentes.
Finalmente, los investigadores también reconocieron honestamente algunas limitaciones de esta investigación:
Los datos de Shopping MMLU provienen principalmente de Amazon y pueden no representar completamente el comportamiento del usuario en otras plataformas de comercio electrónico.
A pesar de los esfuerzos de los investigadores, los datos de Shopping MMLU pueden contener algunos errores.
En resumen, esta investigación de Amazon nos ha abierto las puertas a una era futura de compras inteligentes. Creemos que en un futuro próximo, los asistentes de IA para compras online se convertirán en una parte indispensable de nuestras vidas.
Dirección del artículo: https://arxiv.org/pdf/2410.20745
Datos y código de evaluación:
https://github.com/KL4805/ShoppingMMLU
Taller de KDD Cup 2024 y soluciones de los equipos ganadores:
https://amazon-kddcup24.github.io/
Tabla de clasificación de la evaluación:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard