Récemment, Microsoft, en collaboration avec des institutions de recherche telles que l'Université de Californie à Berkeley et l'Université de l'Illinois, a publié en open source un projet nommé AIOpsLab. Ce projet vise à fournir un système d'agents intelligents pour l'automatisation et l'exploitation des clouds.

802df291fffba9010d723a8a951a7a87.png

AIOpsLab est capable de simuler des tâches complexes dans un environnement de services cloud réel, et prend en charge la détection, la localisation et la résolution automatiques des pannes, améliorant ainsi considérablement l'observabilité et l'efficacité de l'exploitation des services cloud.

La principale fonctionnalité d'AIOpsLab est sa conception modulaire, permettant la collaboration entre les humains et les agents numériques. Cela facilite le développement d'applications, la gestion de différentes charges de travail et la simulation de scénarios de pannes. Son architecture se compose de cinq parties clés : un coordinateur, des services, un générateur de charge de travail, un générateur de pannes et un système d'observabilité.

Le coordinateur est responsable de l'établissement de sessions avec les agents et du partage d'informations sur les problèmes de référence. Il aide les agents à résoudre efficacement les tâches en appelant une série d'API documentées (telles que l'obtention de journaux, de mesures, etc.). Le coordinateur peut également effectuer des opérations au nom des agents, telles que l'extension ou le redéploiement de services, garantissant ainsi le bon fonctionnement des agents en environnement réel.

Le module de services peut s'adapter à divers environnements de services cloud réels, tels que les microservices, les services sans serveur et les services monolithiques. AIOpsLab utilise également la suite d'applications open source DeathStarBench, offrant aux chercheurs un outil pour reproduire et étudier les événements de production dans un environnement contrôlé. De plus, grâce à l'intégration d'outils tels que Blueprint, AIOpsLab peut être étendu à d'autres services académiques et de production, facilitant ainsi le déploiement rapide de nouvelles variantes.

Le générateur de charge de travail joue un rôle important dans AIOpsLab, étant responsable de la création de simulations de scénarios normaux et de pannes pour tester les performances des agents dans différentes conditions. Il génère des charges de travail selon les spécifications du coordinateur, aidant les utilisateurs à effectuer des tests dans diverses situations.

Le générateur de pannes est une fonctionnalité innovante d'AIOpsLab, capable d'injecter des pannes granulaires dans divers scénarios cloud. Cette fonctionnalité permet de simuler le cycle de vie complet de pannes complexes, en tenant compte des interdépendances entre les microservices, offrant ainsi aux utilisateurs des capacités complètes de test et d'évaluation.

Enfin, la fonction d'observabilité, grâce à l'intégration de plusieurs outils de surveillance, améliore la capacité de surveillance globale d'AIOpsLab, garantissant aux utilisateurs l'accès à des informations système personnalisées, permettant une gestion efficace en cas de surcharge de données potentielle.

Adresse open source : https://github.com/microsoft/AIOpsLab/?tab=readme-ov-file

Points clés :

🌐 Microsoft et des universités publient en open source AIOpsLab pour améliorer les capacités d'exploitation automatisée des services cloud.

🛠️ AIOpsLab est composé de cinq parties : un coordinateur, des services, un générateur de charge de travail, un générateur de pannes et un système d'observabilité, prenant en charge divers environnements de services cloud.

🔍 La fonction d'observabilité intègre plusieurs outils de surveillance pour garantir aux utilisateurs des informations système et des capacités de surveillance efficaces.