Hugging Face更新排行榜评估规则，AI评估进入新阶段

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · 2024年6月27号 9:28

268

Hugging Face 更新了其 Open LLM Leaderboard，这一举措将对开源人工智能开发的格局产生重大影响。此次改进在人工智能发展的关键时刻出现，因为研究人员和公司正面临大语言模型（LLMs）性能提升似乎出现停滞的局面。

Open LLM Leaderboard 是一个用于衡量人工智能语言模型进展的基准工具，现在它经过重新设计，提供了更严格和更细致的评估。这一更新的推出正值人工智能社区观察到尽管不断发布新模型，但突破性改进的速度放缓的时刻。

这一排行榜的更新引入了更复杂的评估指标，并提供详细分析，以帮助用户了解哪些测试对特定应用最为相关。这一举措反映了人工智能社区日益增长的认识，即仅凭性能数字本身是不足以评估模型在现实世界中的实用性的。

更新后的排行榜引入了更复杂的评估指标，并提供了详细分析，帮助用户理解哪些测试对于特定应用最为相关。这反映了AI社区日益增长的意识:单纯的性能数字不足以评估模型在现实世界中的实用性。 排行榜的关键变化包括:

- 引入更具挑战性的数据集，测试高级推理和现实世界知识应用。

- 实施多轮对话评估，更全面地评估模型的会话能力。

- 扩大非英语语言评估，以更好地代表全球AI能力。

- 加入指令遵循和少样本学习的测试，这对于实际应用越来越重要。

这些更新旨在创建一个更全面、更具挑战性的基准集合，更好地区分表现最佳的模型，并识别改进领域。

划重点:
⭐ Hugging Face 更新 Open LLM Leaderboard，提供更严格和更细致的评估，解决大语言模型性能提升放缓的问题。
⭐ 更新包括引入更具挑战性的数据集、实施多轮对话评估以及扩展非英语语言评估等内容，旨在创造更全面、更具挑战性的基准。
⭐ LMSYS Chatbot Arena 的推出与 Open LLM Leaderboard 形成互补，强调实时、动态的评估方式，为人工智能评估带来新的思路。

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

MusiConGen模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。研究团队通过设置和弦和节奏的控制参数，展示了模型生成的音乐样本，涵盖了五种不同风格:休闲布鲁斯、平滑酸爵士、经典摇滚、高能放克以及重金属。

日本超市开始用AI技术监控员工微笑网友直呼大可不必

日本永旺超市利用AI系统"Smile-Kun"监控员工微笑，旨在通过量化员工的微笑及声音分析，提升服务技能。该系统要求员工通过特定方式打招呼，依据450个微表情点评分，满分为100分，并实时反馈，此外分析音量、流畅度和语气提供改进建议。员工反应显示微笑比例显著提升。然而，此举引发争议，部分网友批评做法过度量化员工个性情感，难以体现真诚服务。批评者认为基于上下级或同事评估更为合理。此做法虽旨在提高效率，但需考虑如何在追求效时兼顾员工感受与尊严，反思员工服务的真实性和人性化管理。

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

Elon Musk宣布xAI公司将于下月发布性能与GPT-4相当的AI模型Grok2，预计12月推出更强大的Grok3，该模型正在孟菲斯数据中心进行15000+GPU的大规模训练。虽仅部分特斯拉视频数据尚未应用于模型训练，但如ChatGPT对比显示Grok在某些方面仍见不足，밤收购语境下的追赶仍需时间。

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

小红书近日上线“科技薯”账号，启动全球首间AI便利店创业项目。通过与全网优质创作者和科技公司合作，提供AI前沿应用、干货、情感体验等内容，该便利店内售卖包括@赵纯想等人的创意AI产品，例如吃饭辅助、AI式泡面教程、AI颈椎病治疗、林亦LYi的祖传AI治疗、AI帮老妈完成未竟之事等。科技薯还开设活动，邀请笔记写手用 "#AI便利店" 发布AI相关笔记，可获得三万到五十万流量扶持、科技薯官方推荐和小米机器狗等惊喜奖励。此活动不仅整合AI内容，还通过激励机制催生更多AI创意内容。

AI新闻资讯

Hugging Face更新排行榜评估规则，AI评估进入新阶段

AIbase

相关AI新闻推荐

​AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑 网友直呼大可不必

马斯克的xAI将于下月发布Grok 2，Grok 3预计12月推出

小红书开首家“AI便利店” 为优秀AI笔记内容提供3W到50W流量扶持

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

日本超市开始用AI技术监控员工微笑网友直呼大可不必