文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
火山引擎今日通过 X 平台宣布,其大模型应用正式开源,并推出全新“大模型应用实验室”平台。这一举措标志着火山引擎在 AI 技术生态建设上的重大突破,旨在通过开放核心应用和技术资源,加速开发者社区的创新步伐。此次开源的应用包括手机助手、Deep Research、DeepSeek 联网版、实时视频理解、互动双语视频生成器以及语音实时通话-青青等一系列前沿 AI 工具,引发了 X 用户的广泛热议。“大模型应用实验室”上线,全面开源火山引擎在 X 上发布声明称,“大模型应用实验室”平台现已
在人工智能领域,大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日,一项基于HHEM-2.1-Open评估体系的测试结果显示,智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。测试数据显示,在参与评估的85个大语言模型中,GLM-4-9B以98.7%的事实一致性率和100%的回答率摘得桂冠。特别值得关注的是,该模型的幻觉率仅为1.3%,这一成绩不仅位居榜首,更是超越了行业巨头OpenAI的GPT系列和Google的Gemini系列模型。图源备注:图片由AI生成,图片授权服务商Midjourney这一突破性成果标志着中国大
在 AI 时代,企业们不仅需要关注模型的参数,更加重视其应用价值。随着2024年大模型中标项目数量激增至1520个,科大讯飞在北京中关村召开了 AI 服务市场行业伙伴生态大会,汇聚了数百家企业代表,共同探讨大模型技术的前沿趋势及应用实践。科大讯飞高级副总裁于继栋指出,AI 服务市场致力于推动产业升级,并为 AI 焕新构建了全新的行业增长模式。自2010年起,科大讯飞就通过开放平台与全球开发者共享最新 AI 技术,并在2018年推出了 AI 服务市场,以连接供需、推动产业发展。如今,
在科技不断发展的背景下,AI 眼镜的热潮已在国内外迅速掀起。2024年1月7日,雷鸟创新公司正式发布了首款搭载阿里通义定制意图识别大模型的雷鸟 V3AI 拍摄眼镜。这一产品的发布标志着国内首次实现大模型与 AI 眼镜硬件的定制合作,旨在加速端侧模型在 AI 眼镜上的应用落地。此次发布会强调,AI 眼镜市场的快速增长受到 Meta 和雷朋等公司推出的第二代拍摄眼镜的影响。雷鸟创始人李宏伟表示,预计2025年将成为智能眼镜的 “世纪大战之年”。业内分析师指出,虽然大模型与 AI 眼镜结合