AI新闻资讯

AI产品榜

ChatGPT 也翻车？网购 AI 助手大比拼，谁才是真正的“剁手神器”？

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月20号 16:38

149

机器学习早已渗透到各种线上服务中，网购便是其中最成功的领域之一。近年来，机器学习被应用于各种网购任务，例如用户查询、浏览记录、评论分析、产品属性提取等等。为了促进机器学习方法的发展，许多基准测试应运而生，旨在降低研究人员和工程师开发和评估针对真实网购任务的新颖解决方案的门槛。

然而，现有的模型和基准通常是为特定任务量身定制的，无法完全捕捉网购的复杂性。大型语言模型（LLM）凭借其多任务和少样本学习能力，有可能通过减少特定任务的工程工作量并为用户提供交互式对话来彻底改变在线购物体验。尽管潜力巨大，但大型语言模型在在线购物领域也面临着独特的挑战，例如特定领域的购物概念、隐性知识和异构的用户行为。

为应对这些挑战，亚马逊的研究人员提出了 Shopping MMLU，这是一个基于真实亚马逊数据的多任务在线购物基准测试。Shopping MMLU 包含57项任务，涵盖4大购物技能:概念理解、知识推理、用户行为对齐和多语言能力，因此可以全面评估大型语言模型作为通用购物助手的潜力。

这 Shopping MMLU 可不是一般的“考试”，它可是从真实的亚马逊购物数据中提取了57项任务，涵盖了概念理解、知识推理、用户行为对齐和多语言能力四大模块。简单来说，就是要考察 AI 助手是否能像真人导购一样，理解你的需求，帮你找到心仪的宝贝。

亚马逊的研究人员用 Shopping MMLU 测试了20多个现有的 AI 模型，结果发现:

那些大名鼎鼎的专有 AI 模型，比如 Claude-3Sonnet、ChatGPT，表现确实不俗，稳坐第一梯队。不过，开源的 AI 模型也迎头赶上，大有挑战“权威”的势头。

Shopping MMLU 的测试结果也揭示了一个有趣的现象:网购其实是一个多任务学习问题。也就是说，AI 助手需要同时掌握多种技能才能胜任这份工作。

更令人惊喜的是，那些在通用领域表现出色的 AI 模型，在网购领域也毫不逊色。这说明，AI 助手可以将通用知识迁移到特定领域，快速学习新技能。

当然，AI 助手也并非天生完美。研究人员发现，一些常用的 AI 训练方法，比如指令微调（IFT），在某些情况下可能会导致模型过度拟合，反而影响其性能。

此外，少样本学习也是 AI 助手面临的一大挑战。这意味着，AI 助手在面对新任务时，需要快速学习，而不能总是依赖大量的训练数据。

总之，亚马逊的 Shopping MMLU 基准测试为 AI 助手的发展指明了方向。未来，我们期待看到更加智能、更加人性化的网购 AI 助手，让我们的购物体验更加便捷、更加愉悦。

研究人员还发现了一些值得关注的细节:

Shopping MMLU 比现有的其他网购 AI 数据集更加复杂和具有挑战性。

特定领域的指令微调效果并不总是很好，而且只在已经掌握大量通用知识的强大模型上才有效。

目前，即使是最先进的 AI 模型，在某些网购任务上的表现也还不如专门针对这些任务设计的算法。

这项研究的结果表明，构建一个完美的网购 AI 助手还有很长的路要走。未来的研究方向包括:开发更加有效的 AI 训练方法，构建更加多样化的网购 AI 数据集，以及将 AI 模型与特定任务算法相结合，打造更加强大的混合型 AI 系统。

最后，研究人员也坦诚地指出了这项研究的一些局限性:

Shopping MMLU 中的数据主要来自亚马逊，可能无法完全代表其他电商平台的用户行为。

尽管研究人员已经尽力避免，但 Shopping MMLU 中的数据可能仍然存在一些错误。

总而言之，亚马逊的这项研究为我们打开了通往未来智能购物时代的大门。相信在不久的将来，网购 AI 助手将成为我们生活中不可或缺的一部分。

论文地址：https://arxiv.org/pdf/2410.20745

数据及评测代码：

https://github.com/KL4805/ShoppingMMLU

KDD Cup 2024 Workshop及获奖队伍解法：

https://amazon-kddcup24.github.io/

评估榜单：

https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard

机器学习大型语言模型在线购物亚马逊

© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/13360

相关AI新闻推荐

DeepSeek-R1 模型幻觉问题严重，推理能力与准确性面临挑战

DeepSeek-R1 模型幻觉问题严重，推理能力与准确性面临挑战

近日，Vectara 的机器学习团队对 DeepSeek 系列的两款模型进行了深入的幻觉测试，结果显示，DeepSeek-R1的幻觉率高达14.3%，显著高于其前身 DeepSeek-V3的3.9%。这表明，在增强推理的过程中，DeepSeek-R1产生了更多不准确或与原始信息不一致的内容。该结果引发了对推理增强大语言模型（LLM）产生幻觉率的广泛讨论。图源备注:图片由AI生成，图片授权服务商Midjourney研究团队指出，推理增强模型可能会比普通的大语言模型更容易产生幻觉。这一现象在 DeepSeek 系列与其他推理增强模型的比较中表现得尤

2025年2月6号

Realbotix 推出第三方 AI 集成，提升人形机器人交互体验

Realbotix 推出第三方 AI 集成，提升人形机器人交互体验

Realbotix 公司作为人形机器人和伴侣型人工智能的领先制造商，正在通过推出大型语言模型（LLM）集成和高级定制功能，进一步拓展其技术能力。这些新功能计划于2025年2月推出，将使用户能够与包括 OpenAI 的 ChatGPT、Meta 的 Llama、谷歌的 Gemini 以及新推出的 DeepSeek R1在内的多种主流 AI 平台进行无缝连接。Realbotix 支持的多种第三方 AI 平台，为其机器人系统带来了更高的定制化水平。图源备注:图片由AI生成，图片授权服务商MidjourneyRealbotix 的机器人将支持本地 AI 应用和云端 AI 提供商的集成，使

2025年2月6号

谷歌 X 实验室孵化新创业公司 Heritable Agriculture：利用人工智能提升农作物产量

谷歌 X 实验室孵化新创业公司 Heritable Agriculture：利用人工智能提升农作物产量

谷歌 X “月球计划工厂” 近日宣布了一项新创业公司 Heritable Agriculture 的独立发展。这个新公司致力于利用数据和机器学习技术来改进农作物的生长方式。Heritable Agriculture 在一份声明中提到，植物是高效且令人惊叹的系统:“植物是太阳能驱动的、碳负的自组装机器，依靠阳光和水生存。”然而，农业对地球和资源造成了巨大的压力，约占人类活动造成的温室气体排放的25%。农业是全球最大的地下水消费者，并且由于农药、化肥等化学品的使用，往往导致土壤侵蚀和水污染。作为一项全新

2025年2月3号

AI在这方面存在致命缺陷！专家：AI不应用于重要应用

AI在这方面存在致命缺陷！专家：AI不应用于重要应用

在当前的技术环境下，人工智能（AI）引发了广泛的讨论。德蒙特福特大学的网络安全教授 Eerke Boiten 对此表示，现有的 AI 系统在管理和可靠性方面存在根本性缺陷，因此不应被用于重要应用。Boiten 教授指出，当前的 AI 系统大多依赖于大型神经网络，尤其是生成式 AI 和大型语言模型（如 ChatGPT）。这些系统的工作原理相对复杂，尽管每个神经元的行为是由精确的数学公式决定的，但整体行为却是不可预测的，这种 “涌现” 特性使得系统难以进行有效的管理与验证。图源备注：图片由AI生

2025年1月25号