恒生电子发布金融大模型产品 LightGPT 内测

在人工智能(AI)领域,尽管大型语言模型(LLMs)在处理自然语言方面表现出色,但它们在面对复杂推理任务时常常显得力不从心。这些任务通常需要多步骤的推理、领域特定的知识,或者外部工具的有效集成。为了克服这些限制,研究人员们一直在探索如何通过外部工具的使用来提升 LLM 的能力。传统的增强方法往往需要对模型进行微调或额外训练,导致其在任务适应性和灵活性上受到限制。现有的框架通常依赖于静态的、预定义的工具集,缺乏高效的工具选择和规划机制,从而在执行任务
在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此,迫切需要更高效、更稳定的优化技术来应对这些复杂性。为了解决这些挑战,Moonshot AI (月之暗面)与加州大学洛杉矶分校(UCLA)联合开发了 Moonlight,一个使用 Muon 优
Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比,Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力。此外,Ovis2 引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。
在 AI 行业,Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资,这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反,许行业专家认为,深度推理的进步并没有降低对基础设施的需求,反而在不断提升这一需求。图源备注:图片由AI生成,图片授权服务商Midjourney自2023年成立以来,Together AI 旨在简化企业对开源大型语言模型(LLM)的使用。随着时间的推移,该公司逐步扩展其平台,提供了一个名为 “Together 平台” 的解决方案,支持在虚