人工智能领域的一个重要基准,ARC-AGI,即“通用人工智能抽象和推理语料库”,即将取得突破性进展。然而,测试的创始人弗朗索瓦·肖莱(Francois Chollet)警告,尽管成绩提高,但这并不意味着我们接近实现通用人工智能(AGI)。他指出,这项测试本身存在设计缺陷,且其所能揭示的并非真正的研究突破。

自2019年肖莱推出ARC-AGI以来,AI系统在测试中始终表现不佳,迄今为止,表现最好的系统仅能解决不到三分之一的任务。肖莱表示,这主要归咎于目前人工智能研究过于依赖大型语言模型(LLM)。他指出,LLM虽然在处理大规模数据时能够进行模式识别,但它们依赖于记忆而非推理,因此很难处理未见过的新情境或进行真正的“推理”。

“LLM模型依赖于从训练数据中提取模式,而不是进行独立的推理。它们只是‘记住’了模式而非生成新推理。”肖莱在社交平台X上的一系列帖子中解释道。

QQ20241210-104353.png

尽管如此,肖莱并未停止推动AI研究。他和Zapier创始人Mike Knoop于今年6月联合发起了一项100万美元的竞赛,鼓励开源AI挑战ARC-AGI基准。尽管在17,789份参赛作品中,表现最好的AI系统仅得到了55.5%的分数,低于实现“人类水平”所需的85%标准,但肖莱和Knoop仍认为这是向前迈出的重要一步。

Knoop在博客文章中指出,这一成绩并不意味着我们离实现AGI更近,反而凸显了ARC-AGI中部分任务过于依赖“蛮力”解决方案,未必能为真正的通用智能提供有效信号。ARC-AGI的设计本意是通过提供复杂、从未见过的任务来测试AI的泛化能力,然而,这些任务能否有效评估AGI仍然存疑。

AI,人工智能,机器人

图源备注:图片由AI生成,图片授权服务商Midjourney

ARC-AGI基准中的任务涉及如拼图问题等,要求AI根据已知信息推测出未知答案。尽管这些任务看似能推动AI对新情境的适应,但结果表明,现有模型似乎通过大量计算找到了解决方案,而未必展现出真正的智能适应能力。

此外,ARC-AGI的创建者也面临来自同行的批评,特别是在AGI定义方面的模糊性。OpenAI的一位员工最近表示,如果将AGI定义为“在大多数任务上比大多数人类表现更好”的人工智能,那么AGI实际上已经实现。然而,肖莱和Knoop则认为,ARC-AGI基准的现有设计尚未完全实现这一目标。

展望未来,肖莱和Knoop计划发布第二代ARC-AGI基准,并将在2025年举行新的竞赛,以解决当前测试中的不足。他们表示,新的基准将更加聚焦于推动AI研究向更加重要的方向发展,加速AGI的实现进程。

然而,修复现有基准并非易事。肖莱和Knoop的努力表明,定义人工智能的智能,尤其是在通用智能领域,仍然是一项艰巨而复杂的任务。