大模型新玩法！腾讯优图与上交大联手利用公开知识提升大模型

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年9月29号 10:37

120

腾讯优图实验室与上海交通大学的研究团队联手推出了一项革命性的知识增强方法，为大模型优化开辟了全新道路。这项创新技术摒弃了传统模型微调的局限，直接从开源数据中提取知识，大幅简化了模型优化流程，在多项任务中实现了超越现有最先进技术（SOTA）的卓越表现。

近年来，大型语言模型（LLMs）虽然在各领域取得了显著进展，但在实际应用中仍面临着诸多挑战。传统的模型微调方法需要大量标注数据和计算资源，这对许多实际业务而言往往难以实现。尽管开源社区提供了丰富的微调模型和指令数据集，但如何在有限标注样本的情况下有效利用这些资源，提升模型的任务能力和泛化性能，一直是业界面临的难题。

针对这一问题，研究团队提出了一种新颖的实验框架，专注于在K-shot有标签的真实业务数据条件下，利用开源知识增强模型能力。这一框架充分发挥了有限样本的价值，为大型语言模型提供了定向任务的性能提升。

该研究的核心创新点包括:

高效模型选择:通过综合评估推理困惑度、模型表现及知识丰富度，在有限数据条件下最大化现有模型潜力。

知识提取优化:设计了从开源数据中提取相关知识的方法，通过平衡相似性与多样性的数据筛选策略，为模型提供补充信息，同时降低过拟合风险。

自适应模型系统:构建了基于混合专家模型结构的自适应系统，实现多个有效模型之间的知识互补，提升整体性能。

在实验阶段，研究团队使用六个开源数据集进行了全面评估。结果显示，这种新方法在各项任务中均优于基线和其他先进方法。通过可视化专家激活模式，研究还发现每个专家对模型的贡献都是不可或缺的，进一步证实了该方法的有效性。

这项研究不仅展示了开源知识在大模型领域的巨大潜力，更为人工智能技术的未来发展提供了新的思路。它突破了传统模型优化的局限，为企业和研究机构在有限资源条件下提升模型性能提供了可行的解决方案。

随着这项技术的不断完善和推广，我们有理由相信，它将在各行各业的智能化升级中发挥重要作用。腾讯优图与上海交通大学的这次合作，不仅是学术界和产业界联手的典范，更是推动人工智能技术走向更高层次的重要一步。

论文地址:https://www.arxiv.org/pdf/2408.15915

字节加码AGI：豆包大模型组建“Seed Edge”团队，探索AI未来

据媒体报道，字节跳动正加大在人工智能（AI）领域的基础研究投入，其豆包大模型团队已在内部组建一支代号为“Seed Edge”的AGI长期研究团队。该团队旨在探索更长周期、具有不确定性和大胆的AGI研究课题，体现了字节在AI领域的战略决心。据披露，“Seed Edge”团队已初步确定了五大研究方向，包括探索推理能力的边界、探索感知能力的边界、探索软硬一体的下一代模型设计、探索下一代AI学习范式以及探索下一个scaling方向。这表明字节在AGI的布局并非仅限于应用层面，而是深入到了基础

商汤科技推出 “秒画趣拍” APP，为用户提供个性化的新年写真服务

商汤科技近日正式上线其全新 APP “秒画趣拍”，为广大用户提供了一场充满创意与趣味的 AI 影像体验。恰逢新春佳节的来临，这款应用旨在通过先进的人工智能技术，帮助用户打造个性化的新年写真，营造浓厚的节日氛围。“秒画趣拍” 不仅仅是一个普通的摄影 APP，它的小程序中涵盖了丰富多样的模板，用户可以选择校园毕业照、创意合照、名画风写真、旅拍照片、新国风以及二次元等多种风格。无论你想要记录青春的毕业时光，还是渴望在旅行中留下美好的瞬间，或是想尝试一下不

字节跳动发布豆包大模型1.5Pro，性能超越GPT-4o与Claude3.5Sonnet

字节跳动正式推出其最新的豆包大模型1.5Pro（Doubao-1.5-pro），这一新模型在多个领域的综合能力上表现出色，成功超越了行业内知名的 GPT-4o 和 Claude3.5Sonnet。该模型的发布标志着字节跳动在人工智能领域又向前迈出了重要一步。豆包1.5Pro 采用了新型的稀疏 MoE（混合专家）架构，使用较小的激活参数进行预训练。这种设计的创新之处在于其可以提供等效于7倍激活参数的 Dense 模型性能，使其在效率上远超行业常规的 MoE 架构，带来了约3倍的效率提升。这样的设计使得豆包大模型在知识、代码

加量不加价！豆包大模型1.5正式发布包括Doubao-1.5-vision-pro等

2025年1月22日，字节跳动旗下的火山引擎宣布正式发布豆包大模型1.5，并全面上线火山方舟平台。此次发布的豆包大模型1.5在多个领域取得了显著的性能提升，综合能力达到全球领先水平，标志着字节跳动在人工智能领域的又一重要突破。

AI新闻资讯

大模型新玩法！腾讯优图与上交大联手 利用公开知识提升大模型