近日,一项新的研究论文揭示了不同 AI 语言模型在合作能力方面的显著差异。研究团队采用了一种经典的 “捐赠者游戏”,测试了 AI 代理在多代合作中如何共享资源。结果显示,Anthropic 的 Claude3.5Sonnet 表现出色,成功建立了稳定的合作模式,获得了更高的资源总量。而谷歌的 Gemini1.5Flash 和 OpenAI 的 GPT-4o 则表现不佳,尤其是 GPT-4o 在测试中逐渐变得不合作,Gemini 代理的合作程度也十分有限。研究团队进一步引入了惩罚机制,以观察不同 AI 模型的表现变化。结果发现,Claude3.5的表现有了显
最近,Answer.AI 和 LightOn 联合发布了开源语言模型 ModernBERT,这是对谷歌 BERT 的重大升级。根据开发者的介绍,ModernBERT 在处理速度、效率和质量上都有了显著提升。该模型可以比其前身快四倍,同时使用更少的内存。ModernBERT 的设计允许它处理长达8192个标记的文本,这比现有编码模型的典型512标记限制提高了16倍。此外,ModernBERT 还是首个经过广泛训练的编程代码编码模型,它在 StackOverflow 问答数据集上的得分超过80,创造了编码模型的新纪录。在通用语言理解评估(GLUE)中,ModernBERT-Large
在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步,回应了当前长文本大语言模型在应用中的挑战。
Google DeepMind 和机器人公司 Apptronik 宣布达成合作,将结合双方技术专长,研发可在复杂动态环境中运行的人工智能人形机器人。此次合作旨在推动机器人硬件与人工智能的深度融合,探索机器人在工业与日常应用中的更广泛可能性。Apptronik 于2016年从德克萨斯大学奥斯汀分校的人本机器人实验室独立运营,迄今已开发出15种机器人模型,包括为 NASA 设计的 Valkyrie 机器人。公司最新推出的 Apollo 机器人,高1.73米、重73公斤,专为工业环境设计,可与人类协同工作。Google DeepMind 最近展示了 Apoll