腾讯的研究者们发现,大语言模型的性能会随着实例化agent数量的增加而增强,无需复杂的多LLM agents协作框架。实验结果显示多个小LM集成可以超越较大LM的性能。论文探讨了性能提升与问题难度之间的关系,并提出了逐步采样和投票、分层采样和投票两种优化策略。
巴黎初创公司 H,由前谷歌员工创立,去年夏天在未发布任何产品的情况下,便获得了2.2亿美元的种子轮融资,震惊业界。然而,在融资后不久,该公司却因 “运营和业务分歧” 而三位创始人离职,令人担忧其前景。但 H 公司并没有被困难击倒,近日宣布推出其首款产品 Runner H,这是一款针对企业和开发者的 “智能代理” 人工智能,旨在处理质量保证和流程自动化等任务。Runner H 建立在该公司的专有 “紧凑型” 大语言模型(LLM)之上,参数仅有20亿。H 公司已在其官网上设立了 Runner H 的
近日,英伟达发布了其全新的 Blackwell 平台,并在 MLPerf Training4.1基准测试中展示了初步的性能表现。根据测试结果,Blackwell 在某些方面的性能相比于前一代 Hopper 平台实现了翻倍的提升,这一成果引起了业界的广泛关注。在 MLPerf Training4.1基准测试中,Blackwell 平台在 LLM(大语言模型)基准的 Llama270B 微调任务中,每个 GPU 的性能达到了 Hopper 的2.2倍,而在 GPT-3175B 的预训练中则达到了2倍的提升。此外,在 Stable Diffusion v2训练等其他基准测试中,新一代的 Blackwell 也以1.7倍的优势超过了前代产品
普林斯顿大学和耶鲁大学的研究人员最近发布了一份关于大语言模型(LLM)“思维链(CoT)”推理能力的报告,揭示了CoT推理的奥秘:它并非纯粹基于逻辑规则的符号推理,而是融合了记忆、概率和噪声推理等多种因素。研究人员以破解移位密码为测试任务,分析了GPT-4、Claude3和Llama3.1这三个LLM的表现。移位密码是一种简单的编码方式,每个字母都被替换成字母表中向前移动固定位数的字母。例如,将字母表向前移动3位,"CAT"就会变成"FDW"。研究结果表明,影响CoT推理效果的三个关键因素是:概
腾讯今日发布开源MOE大语言模型Hunyuan-large,总参数量达398B,激活参数量52B。公开测评结果显示,腾讯混元Large在CMMLU、MMLU、CEva1、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama3.1、Mixtral等一流的开源大模型。据了解,该模型在技术创新上可实现高质量合成数据,通过使用合成数据增强训练,有效应对自然数据的不足。在上下文处理能力方面,预训练模型支持高达256K的文本序列,显著增强了处理长上下文任务的能力。同时,腾讯混元宣布,为填补行业