被虐哭！Epoch AI推出数学新基准FrontierMath 顶级AI模型解题数不超2%

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月29号 9:47

216

在人工智能的浩瀚宇宙中，数学曾被视为机器智能最后的堡垒。如今，一个名为FrontierMath的全新基准测试横空出世，将AI的数学推理能力推向了前所未有的极限。

Epoch AI携手60多位数学界顶级大脑，共同打造了这个堪称"数学奥林匹克"的AI挑战场。这不仅仅是一次技术测试，更是对人工智能数学智慧的终极拷问。

想象一个充满了世界顶级数学家的实验室，他们精心设计出数百道超越常人想象的数学难题。这些问题横跨数论、实分析、代数几何和范畴论等最前沿的数学领域，复杂程度令人咋舌。即便是拥有国际数学奥林匹克金牌的数学天才，也需要耗费数小时甚至数天才能解决一道题目。

令人震惊的是，当前最先进的AI模型在这个基准测试中的表现令人失望:没有任何模型能够解决超过2%的题目。这个结果如同一记当头棒喝，狠狠地抽了AI的"脸"。

FrontierMath的独特之处在于其严苛的评测机制。传统的数学测试基准如MATH和GSM8K已经被AI"刷爆"，而这个新基准通过全新、未发表的问题和自动化验证系统，有效避免了数据污染，真正考验AI的数学推理能力。

备受关注的OpenAI、Anthropic、Google DeepMind等顶级AI公司的旗舰模型在这个测试中集体"翻车"。这背后折射出一个深刻的技术哲学:对于计算机而言，看似复杂的数学问题可能轻而易举，而人类觉得简单的任务却可能令AI束手无策。

正如Andrej Karpathy所言，这正印证了莫拉维克悖论:人类与机器在智能任务上的难易程度常常是反直觉的。这个基准测试不仅是对AI能力的严格审视，更是推动人工智能向更高维度进化的催化剂。

对于数学界和AI研究者来说，FrontierMath就像是一座未被征服的珠穆朗玛峰。它不仅仅测试知识和技巧，更考验洞察力和创造性思维。未来，谁能率先攀登这座智能的高峰，谁就将载入人工智能发展的史册。

5000万美元融资！Vertice利用AI重塑企业采购管理新生态

伦敦初创公司 Vertice 在支出管理领域脱颖而出，专注于利用人工智能技术来优化企业在软件和云服务上的支出。随着企业在这些领域的投入达到数千亿美元，Vertice 在过去三年中实现了13倍的增长，并成功获得了5000万美元的新一轮融资，以扩大其业务愿景。图源备注:图片由AI生成，图片授权服务商MidjourneyVertice 的首席执行官兼联合创始人 Roy Tuvey 表示，公司的目标是规范企业的采购流程，不仅限于软件和云服务。当前，很多企业在采购上使用不同的解决方案，造成了流程的碎片化，采购团队

18 岁少年靠ChatGPT 套壳狂赚 5600 万

在人工智能的浪潮中，许多年轻人正在通过创新的方式实现财务自由。18岁的 Zach Yadegari 和23岁的 Blake Anderson 便是其中的佼佼者，他们利用 ChatGPT 的无代码开发能力，成功推出了一款名为 Cal AI 的卡路里追踪应用，仅用一年时间便创造了5600万美元的惊人收入。Cal AI 的核心功能是通过拍照识别食物热量，操作简单，用户只需上传食物照片，即可获得详细的卡路里和营养成分分析。这一创新的设计使得 Cal AI 在众多同类产品中脱颖而出。根据 Zach 的分享，Cal AI 依靠先进的 AI 图像识别技术，准确

成都华微：AI算力高达16Tops的人工智能芯片已小批量试用

近日，成都华微在其互动平台上透露，公司已成功研发出一款专用于边缘计算领域的人工智能芯片。这款芯片的 AI 算力高达 16Tops，目前已在特定行业的多家客户中进行小批量试用。这款新型芯片不仅具备强大的算力，还将在视频编解码方面展现出色的性能，支持高达 8K 的视频处理能力。这对于视频监控、智能家居等应用场景来说，无疑是一个重要的技术进步。成都华微表示，除了已经研发的 16Tops 芯片外，团队还在积极开发另一款算力达到 100Tops 的芯片，预计将进一步提升视频处理能力

报道称谷歌再度向Anthropic投资逾10亿美元

近日，英国《金融时报》报道称，谷歌公司将向人工智能初创公司 Anthropic 投资超过10亿美元。这一投资是在1月初多家媒体报道 Anthropic 即将完成一轮近20亿美元融资后宣布的，预计该轮融资由 Lightspeed Venture Partners 牵头，Anthropic 的估值接近600亿美元。据悉，谷歌的这项新投资与 Lightspeed 的融资轮无关，显示出谷歌对 Anthropic 的持续信心。Anthropic 作为 OpenAI 的主要竞争者，在 AI 基础模型领域占据了重要位置。虽然 Anthropic 未对此事发表评论，谷歌也未在非工作时间内回复置评请求，但市场对