8 月榜单！SuperCLUE 中文大模型评测基准最新排名发布

CLUE中文语言理解测评基准

发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月29号 10:09

SuperCLUE 发布了中文大模型 8 月榜单，其中包括总排行榜、OPEN 多轮开放问题排行榜、OPT 三大能力客观题排行榜、十大基础能力排行榜和开源排行榜。评测选取了 16 个通用大语言模型，并使用了 3337 道全新的测试题。此次评测发现，国内大模型在中文任务上的表现与 GPT3.5 的差距在持续缩小。

百度发布首款中文大模型AI眼镜：45克轻量设计，续航达56小时

百度在2024世界大会上首次亮相其最新AI硬件产品——小度AI眼镜。这款被称为"全球首款搭载中文大模型的原生AI眼镜"的产品，展现了百度在可穿戴设备领域的创新实力。从硬件规格来看，小度AI眼镜在轻量化设计上取得突破，整机重量仅45克，确保佩戴舒适度。配备16MP超广角摄像头，集成AI防抖算法，可实现稳定的第一视角拍摄。在续航方面，官方数据显示待机时间可达56小时，支持超过5小时的持续聆听模式，同时具备30分钟快充能力。声学系统采用四麦克风阵列设计，配合开放式防漏音扬

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

a16z发布全球Top 100 AI 应用榜单:ChatGPT居首字节跳动豆包上榜

Andreessen Horowitz 发布的《Top100消费级生成式AI应用》第三版报告，揭示了当前流行的 AI 应用及其使用趋势。报告显示，内容生成工具，尤其是图像、视频、音乐领域的产品，占据了网页应用的主导地位，52% 的网页产品专注于此。音乐生成工具 Suno 表现亮眼，排名大幅提升。移动应用方面，图像和视频编辑工具受到用户欢迎，ChatGPT 居于榜首。字节跳动旗下豆包首次进入移动端榜单，显示了公司在 AI 领域的强劲实力。值得关注的是，新的审美和约会类应用如 Looks AI 和 Umax 也首次进入排行榜。整体市场活跃，近30% 公司首次上榜，显示了生成式 AI 应用的快速发展。

百度搜索“Ai 智能回答”登顶AI产品榜7月国内总榜单

百度搜索的「AI智能回答」功能在7月「AI产品榜」中首次参选即登顶总榜，得益于文心大模型的强大支持，显著改变了传统搜索体验。该功能能进行分析、总结、多模态组织答案，并通过智能体调度提供高效、全面的搜索结果，有效解决实际问题。除了「AI智能回答」，百度搜索还包含多项AI功能，如「多模态搜索AI」、「AI图片助手」、「AI祝福语&创意短文案」、「AI助手」、「智能体」等，通过一站式服务和智能体自动调度，提供便捷、个性化体验。AI功能覆盖从信息获取、图片编辑到文案创作、智能解读等多方面，提升了搜索效率，使AI技术更贴近日常生活，实现了技术普惠。

AI新闻资讯