AI评测江湖：Chatbot Arena如何改变技术公司的"生存法则"

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月9号 17:08

111

在人工智能高速发展的赛道上，一个由几名学生创立的平台正悄然改变游戏规则。Chatbot Arena不仅成为全球最受瞩目的AI系统评测平台，更成为科技巨头们角力的重要战场。

这个由加州大学伯克利分校、斯坦福大学和加州大学圣地亚哥分校的学生于2023年4月联合推出的项目，用一种前所未有的方式颠覆了传统AI技术评测。不同于过去那些枯燥的数学和法律测试，Chatbot Arena采用了一种极其简单而富有洞察力的方法:让用户匿名对比两个AI模型的回复，投票选出更优秀的答案。

人工智能 AI教育

图源备注：图片由AI生成，图片授权服务商Midjourney

从最初的9个模型发展到如今的170多个，累计超过200万张选票，这个项目迅速吸引了OpenAI、谷歌、Meta等科技巨头的目光。项目负责人Anastasios Angelopoulos甚至调侃，他的女朋友已经听腻了每天关于Chatbot Arena的话题。

对于这些科技公司来说，Chatbot Arena就像是一个实时的"排行榜"和"试金石"。Meta AI产品管理总监Joseph Spisak坦言，每家公司都在竭力争取登上榜首，因为在AI这个决定性技术领域，任何细微的领先优势都可能带来巨大的市场和人才吸引力。

最近，谷歌的Gemini模型就在平台上上演了一出"你追我赶"的好戏。从第2升至第1，在风格控制、代码能力等多个维度全面突破，更在与OpenAI的较量中不落下风。这种实时、透明的对决方式，让AI的进步变得生动有趣。

有趣的是，尽管Chatbot Arena的评测方法被一些研究人员称为"基于主观感受的评估"，但恰恰是这种接近用户体验的评测方式，最大程度还原了AI模型的真实表现。平台的负责人始终保持开放态度，允许用户过滤各种主观因素，追求更客观的评价。

目前，这个非营利项目正致力于打造"AI领域的维基百科"。他们每月更新测试题，定期公开20%的用户反馈数据，为AI技术的透明和进步贡献力量。

在科技高速迭代的今天，Chatbot Arena用一种近乎赛博朋克的方式，重新定义了技术的竞争边界。它不仅是一个排名平台，更是一面镜子，折射出人工智能发展的最前沿。

抖音副总裁否认AI团队大变阵：都是不实信息

李亮指出，一篇题为《字节AI团队大变阵》的文章中存在多处不实信息。文章中提及的技术副总裁杨震原即将退休、冯佳时将离职创业等说法，均为错误信源所致。此外，关于张一鸣拜访豌豆荚创始人王俊煜及上海模速空间创业公司的报道，同样与事实不符。

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI 于上周五宣布，正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展，旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来，便备受关注，成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作，包括订票、预订餐厅、提交费用报告，甚至在电子商务网站上购物。这些功能不仅

OpenAI宣布面向多个国家推出AI代理 Operator

OpenAI 于周五宣布，将在包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家，为 ChatGPT Pro 用户推出一款名为 “Operator” 的人工智能代理工具。此工具旨在帮助用户更高效地完成各类任务，包括订票、预订餐厅、提交费用报告和网上购物等。“Operator” 最初于今年1月在美国推出，作为市场上几款 “人工智能代理” 工具之一，OpenAI 希望通过这一产品，为用户提供更便捷的服务。需要注意的是，这一工具目前仅对每月付费200美元的 ChatGPT Pro 用户开放，用户可以通过

AI新闻资讯

AI评测江湖：Chatbot Arena如何改变技术公司的"生存法则"

AIbase基地

相关AI新闻推荐

马斯克： Grok 3 语音模式早期测试版已上线

抖音副总裁否认AI团队大变阵：都是不实信息

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI宣布面向多个国家推出AI代理 Operator