近日,微软与加州大学伯克利分校、伊利诺伊大学等研究机构联合开源了一个名为 AIOpsLab 的项目,旨在为云自动化运维提供一套智能代理系统。AIOpsLab 能够模拟真实云服务环境中的复杂操作任务,支持故障的自动检测、定位及解决,显著提高云服务的可观测性与运维效率。
AIOpsLab 的主要功能是通过模块化设计,支持人类与数字代理的协作,方便开发者扩展应用程序、处理不同工作负载及故障场景。其架构由五个关键部分组成:协调器、服务、工作负载生成器、故障生成器以及可观测性。
协调器负责与智能体建立会话,并共享有关基准测试问题的信息。它通过调用一系列文档化的 API(如获取日志、指标等),帮助智能体有效解决任务。协调器还可以代表智能体进行操作,比如扩展或重新部署服务,确保智能体能够在实际环境中顺利运行。
服务模块可以适应多种真实云服务环境,如微服务、无服务器及单体服务。AIOpsLab 还利用开源应用套件 DeathStarBench,为研究人员提供了一种在受控环境中复现和研究生产事件的工具。此外,通过集成 Blueprint 等工具,AIOpsLab 还能够扩展到其他学术和生产服务中,便于快速部署新变体。
工作负载生成器在 AIOpsLab 中扮演着重要角色,负责创建正常和故障场景的模拟,以测试智能体在不同条件下的性能。它根据协调器的规范生成相应的工作负载,帮助用户在多种情况中进行测试。
故障生成器则是 AIOpsLab 的一项创新功能,能够在多种云场景中实施细粒度的故障注入。这一功能能够模拟复杂的故障全流程,并考虑微服务之间的相互依赖性,为用户提供全面的测试与评估能力。
最后,可观测性功能通过整合多种监控工具,提升 AIOpsLab 的全面监控能力,确保用户能够获得定制化的系统信息,以便在可能的数据过载情况下进行有效管理。
开源地址:https://github.com/microsoft/AIOpsLab/?tab=readme-ov-file
划重点:
🌐 微软与高校联合开源 AIOpsLab,旨在提升云服务的自动化运维能力。
🛠️ AIOpsLab 通过协调器、服务、工作负载生成器、故障生成器和可观测性五大部分构成,支持多种云服务环境。
🔍 可观测性功能整合多种监控工具,确保用户获得有效的系统信息和监控能力。