百川智能联合天津大学推出“Sibyl System”Agent框架登顶大模型复杂任务榜单GAIA

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年7月24号 8:21

382

百川智能与天津大学合作推出了"Sibyl System"智能体框架，并在GAIA Leader Board上取得了第一名的成绩。GAIA是Meta、Huggingface和AutoGPT于2023年11月提出的全新评测方案，主要评测Agent在复杂任务执行方面的能力和方案。这个评测方案揭示了现有模型的能力缺陷，并为模型和Agent的研发提供了改进方向。

GAIA的测试题目更接近真实世界，要求AI具备推理、多模态理解（文本、图片、音/视频）、网页浏览和使用工具等能力。这些题目对人类来说不难理解，但对模型来说极具挑战性。例如，GPT-4在测试中的成功率仅为15%，而人类实验者可以达到92%。完成这些题目通常需要较长的逻辑链路和时间，涉及多个步骤和工具。

微信截图_20240724082043.png

"Sibyl System"框架的设计特点包括:

类人的浏览器界面替代检索增强生成。
问答替代对话，使用无状态的问答函数，简化系统架构。
仅使用网页浏览器和Python环境这两个通用工具，减少对专用工具的依赖。
从System1到System2，引入“陪审团”机制，通过多代理辩论进行自我批评和修正，利用全局工作区中的信息提高响应的准确性。

Sibyl System是一个结构简单但功能强大的基于大型语言模型的Agent框架，能够通过使用少量工具解决复杂的推理问题。它通过引入Global Workspace和Multi-Agent机制，以及基于浏览器的通用信息获取渠道，降低了系统复杂度，同时扩展了解决问题的复杂度，实现了模型从“快思考”到“慢思考”的转变。Sibyl System还具有很好的可扩展性和易于调试的特点，可以轻松替换其他模型的Agent模块，提升模型的能力。

技术报告:https://arxiv.org/pdf/2407.10718

百川智能推出国内首个全场景深度思考医疗大模型，革新医学推理方式

百川智能于1月24日重磅发布了国内首个全场景深度思考模型 ——Baichuan-M1-preview。此模型在语言、视觉和搜索推理三个维度具备出色的表现，标志着在 AI 领域的又一次重大突破。Baichuan-M1-preview 在多个权威评测集上表现突出，尤其是在数学推理和代码任务方面，其成绩超越了众多知名模型，包括 o1-preview。值得一提的是，Baichuan-M1-preview 的视觉推理能力在 MMMUVa、MathVista 等评测中也超越了 GPT-4o 和 Claude3.5Sonnet 等顶尖模型。如今，这一模型已经在百小应 App 中正式上线，赋予该应用深度思考的

百川智能与北京市海淀区卫健委签署战略合作

百川智能与北京市海淀区卫生健康委员会达成战略合作协议，旨在通过先进的人工智能技术提升基层医疗服务水平。双方将联手实施 “1+2+N” 方案，这一方案包括构建一个多模态医疗大模型，推出两种 AI 医生:AI 全科医生和 AI 儿科医生，以及根据需求开发多个不同场景的 AI 医生应用。图源备注:图片由AI生成，图片授权服务商Midjourney此次合作的背景是当前基层医疗机构面临的医生资源短缺、服务范围局限以及医疗服务效率不高等问题。通过智能化手段，百川智能希望能够为海淀区的医疗服

百川智能发布金融大模型Baichuan4-Finance

百川智能发布全链路领域增强大模型Baichuan4-Finance。据介绍，通过行业首创的领域自约束训练方案，Baichuan4-Finance实现了金融能力和通用能力同步提升的效果，极大提高了金融场景的整体可用性。图源备注:图片由AI生成，图片授权服务商Midjourney据媒体报道，内部人士透露，其金融专业能力和场景应用能力大幅领先GPT-4o，在中国人民大学财政金融学院新近发布的评测体系FLAME以及国内主流开源金融评测基准FinancelQ上均登上榜首。值得一提的是，今年五月份，百川智能发布基座大模型Baichuan4，