巴黎初创公司 H,由前谷歌员工创立,去年夏天在未发布任何产品的情况下,便获得了2.2亿美元的种子轮融资,震惊业界。然而,在融资后不久,该公司却因 “运营和业务分歧” 而三位创始人离职,令人担忧其前景。但 H 公司并没有被困难击倒,近日宣布推出其首款产品 Runner H,这是一款针对企业和开发者的 “智能代理” 人工智能,旨在处理质量保证和流程自动化等任务。Runner H 建立在该公司的专有 “紧凑型” 大语言模型(LLM)之上,参数仅有20亿。H 公司已在其官网上设立了 Runner H 的
近日,英伟达发布了其全新的 Blackwell 平台,并在 MLPerf Training4.1基准测试中展示了初步的性能表现。根据测试结果,Blackwell 在某些方面的性能相比于前一代 Hopper 平台实现了翻倍的提升,这一成果引起了业界的广泛关注。在 MLPerf Training4.1基准测试中,Blackwell 平台在 LLM(大语言模型)基准的 Llama270B 微调任务中,每个 GPU 的性能达到了 Hopper 的2.2倍,而在 GPT-3175B 的预训练中则达到了2倍的提升。此外,在 Stable Diffusion v2训练等其他基准测试中,新一代的 Blackwell 也以1.7倍的优势超过了前代产品
普林斯顿大学和耶鲁大学的研究人员最近发布了一份关于大语言模型(LLM)“思维链(CoT)”推理能力的报告,揭示了CoT推理的奥秘:它并非纯粹基于逻辑规则的符号推理,而是融合了记忆、概率和噪声推理等多种因素。研究人员以破解移位密码为测试任务,分析了GPT-4、Claude3和Llama3.1这三个LLM的表现。移位密码是一种简单的编码方式,每个字母都被替换成字母表中向前移动固定位数的字母。例如,将字母表向前移动3位,"CAT"就会变成"FDW"。研究结果表明,影响CoT推理效果的三个关键因素是:概
谷歌 DeepMind 近日意外发布了 AlphaFold3的源代码和模型权重,标志着一个可能加速科学发现和药物开发的重大进展。这一消息传出仅几周后,系统的创造者 Demis Hassabis 和 John Jumper 便获得了2024年诺贝尔化学奖,以表彰他们在蛋白质结构预测方面的贡献。与前一版本 AlphaFold2相比,AlphaFold3的技术能力有了质的飞跃。AlphaFold2只能预测蛋白质的结构,而 AlphaFold3则可以建模蛋白质、DNA、RNA 及小分子之间复杂的相互作用,这是生命的基本过程。这一进展至关重要,因为理解这些分子相互作用是现代药