在开源AI领域,与大型科技公司的差距不仅仅体现在算力上。AI2(前Allen人工智能研究所)正通过一系列开创性举措缩小这一鸿沟,其最新发布的Tülu3后训练方案,让"原始"大语言模型转化为实用AI系统变得触手可及。与普遍认知不同,基础语言模型在预训练后并不能直接投入使用。事实上,后训练过程才是决定模型最终价值的关键环节。正是在这个阶段,模型从一个"无所不知"却缺乏判断力的网络,转变为具有特定功能导向的实用工具。长期以来,各大公司对后训练方案讳莫如深。虽然任何
巴黎初创公司 H,由前谷歌员工创立,去年夏天在未发布任何产品的情况下,便获得了2.2亿美元的种子轮融资,震惊业界。然而,在融资后不久,该公司却因 “运营和业务分歧” 而三位创始人离职,令人担忧其前景。但 H 公司并没有被困难击倒,近日宣布推出其首款产品 Runner H,这是一款针对企业和开发者的 “智能代理” 人工智能,旨在处理质量保证和流程自动化等任务。Runner H 建立在该公司的专有 “紧凑型” 大语言模型(LLM)之上,参数仅有20亿。H 公司已在其官网上设立了 Runner H 的
近日,英伟达发布了其全新的 Blackwell 平台,并在 MLPerf Training4.1基准测试中展示了初步的性能表现。根据测试结果,Blackwell 在某些方面的性能相比于前一代 Hopper 平台实现了翻倍的提升,这一成果引起了业界的广泛关注。在 MLPerf Training4.1基准测试中,Blackwell 平台在 LLM(大语言模型)基准的 Llama270B 微调任务中,每个 GPU 的性能达到了 Hopper 的2.2倍,而在 GPT-3175B 的预训练中则达到了2倍的提升。此外,在 Stable Diffusion v2训练等其他基准测试中,新一代的 Blackwell 也以1.7倍的优势超过了前代产品
普林斯顿大学和耶鲁大学的研究人员最近发布了一份关于大语言模型(LLM)“思维链(CoT)”推理能力的报告,揭示了CoT推理的奥秘:它并非纯粹基于逻辑规则的符号推理,而是融合了记忆、概率和噪声推理等多种因素。研究人员以破解移位密码为测试任务,分析了GPT-4、Claude3和Llama3.1这三个LLM的表现。移位密码是一种简单的编码方式,每个字母都被替换成字母表中向前移动固定位数的字母。例如,将字母表向前移动3位,"CAT"就会变成"FDW"。研究结果表明,影响CoT推理效果的三个关键因素是:概