OpenAI publie un rapport détaillé sur la panne de ChatGPT : un petit changement à l'origine du problème

AIbase基地

Publié leActualités IA · 6 minutes de lecture · Dec 16, 2024

592

La semaine dernière (11 décembre), les services d'OpenAI tels que ChatGPT et Sora ont subi une panne de 4 heures et 10 minutes, affectant de nombreux utilisateurs. OpenAI vient de publier un rapport détaillé sur cette panne de ChatGPT.

En résumé, cette panne est due à une petite modification ayant eu des conséquences graves. Les ingénieurs se sont retrouvés bloqués hors du plan de contrôle, incapables de résoudre le problème à temps. Face à cette panne, les ingénieurs d'OpenAI ont rapidement mis en œuvre plusieurs actions correctives, notamment la réduction de la taille du cluster, le blocage de l'accès réseau à l'API de gestion Kubernetes et l'augmentation des ressources du serveur d'API Kubernetes. Après plusieurs tentatives, ils ont finalement récupéré l'accès à une partie du plan de contrôle Kubernetes et ont redirigé le trafic vers des clusters sains, permettant ainsi une restauration complète du système.

L'incident s'est produit à 15h12, heure du Pacifique. Les ingénieurs ont déployé un nouveau service de télémétrie pour collecter les métriques du plan de contrôle Kubernetes (K8S). Cependant, la configuration de ce service était involontairement trop large, entraînant l'exécution simultanée d'opérations gourmandes en ressources de l'API K8S sur chaque nœud de chaque cluster. Cela a rapidement conduit à la saturation des serveurs d'API, rendant la plupart des plans de données K8S des clusters inopérants.

Il est important de noter que, bien que le plan de données K8S puisse théoriquement fonctionner indépendamment du plan de contrôle, la fonctionnalité DNS dépend du plan de contrôle, empêchant ainsi la communication entre les services. La surcharge des opérations de l'API a endommagé le mécanisme de découverte de services, entraînant une panne totale du service. Bien que le problème ait été identifié en 3 minutes, l'incapacité des ingénieurs à accéder au plan de contrôle pour effectuer un rollback a créé une situation de « boucle infinie ». L'échec du plan de contrôle les a empêchés de supprimer le service défaillant et donc de procéder à la restauration.

Les ingénieurs d'OpenAI ont alors exploré différentes méthodes pour restaurer les clusters. Ils ont essayé de réduire la taille des clusters pour diminuer la charge de l'API K8S et de bloquer l'accès à l'API de gestion K8S afin de permettre aux serveurs de récupérer. Ils ont également augmenté les ressources du serveur d'API K8S pour mieux gérer les requêtes. Après plusieurs efforts, ils ont finalement repris le contrôle du plan de contrôle K8S, permettant de supprimer le service défaillant et de restaurer progressivement les clusters.

Pendant ce temps, les ingénieurs ont également redirigé le trafic vers des clusters sains, restaurés ou nouvellement ajoutés, afin de réduire la charge sur les autres clusters. Cependant, de nombreux services tentant de se restaurer simultanément, les limites de ressources ont été saturées, ce qui a nécessité des interventions manuelles supplémentaires et a allongé le temps de restauration de certains clusters. Grâce à cet incident, OpenAI espère tirer des leçons pour éviter de se retrouver à nouveau « enfermé » en cas de situation similaire à l'avenir.

Détails du rapport : https://status.openai.com/incidents/ctrsv3lwd797

Points clés :
🔧 Cause de la panne : Une petite modification du service de télémétrie a entraîné une surcharge des opérations de l'API K8S, provoquant une panne de service.
🚪 Difficulté des ingénieurs : La panne du plan de contrôle a empêché les ingénieurs d'y accéder, les empêchant de résoudre le problème.
⏳ Processus de restauration : La restauration du service a été effectuée grâce à la réduction de la taille des clusters et à l'augmentation des ressources.

Augury lève 75 millions de dollars pour détecter les pannes de machines industrielles grâce à l'IA

Dans un contexte où l'automatisation industrielle et la fabrication intelligente gagnent en importance, la start-up Augury a annoncé avoir levé 75 millions de dollars, portant sa valorisation à plus d'un milliard de dollars. Ce financement servira à attirer de nouveaux clients et à poursuivre le développement de sa technologie de pointe. Augury se concentre sur l'utilisation de l'intelligence artificielle pour surveiller l'état de fonctionnement des machines. En mesurant plusieurs facteurs tels que les vibrations, les sons et la température, elle identifie rapidement les pannes et les besoins de maintenance. Depuis sa création, Augury a surveillé plus de cinq cents millions d'heures de fonctionnement de machines, couvrant une variété de fabricants d'équipements et de processus de fabrication.

Augury lève 75 millions de dollars pour la détection des pannes de machines industrielles par IA

Dans le contexte de l'attention portée à la robotique industrielle, Augury a annoncé avoir levé avec succès 75 millions de dollars, portant sa valorisation à plus d'un milliard de dollars. Entreprise en démarrage spécialisée dans le développement de matériel d'IA, Augury propose une technologie capable de détecter en temps réel les pannes d'équipement dans les usines et d'en identifier les causes, aidant ainsi les fabricants à réduire les temps d'arrêt et à améliorer leur productivité. Le PDG et fondateur d'Augury, Saar Yoskovitz, a révélé lors d'une interview que le système d'IA de la société avait déjà surveillé plus de cinq cents millions

Microsoft et les universités collaborent pour open-sourcer AIOpsLab : pour construire un agent IA autonome pour le cloud

Récemment, Microsoft et des institutions de recherche telles que l'université de Californie à Berkeley et l'université de l'Illinois ont collaboré pour open-sourcer un projet nommé AIOpsLab, visant à fournir un système d'agent intelligent pour l'automatisation des opérations cloud. AIOpsLab peut simuler des tâches opérationnelles complexes dans un environnement de services cloud réel, prendre en charge la détection, la localisation et la résolution automatiques des pannes, améliorant ainsi considérablement l'observabilité et l'efficacité des opérations des services cloud. La fonction principale d'AIOpsLab est, grâce à une conception modulaire, de prendre en charge la collaboration entre les humains et les agents numériques, facilitant ainsi l'extension des applications pour les développeurs.

Panne ? ChatGPT et Sora d'OpenAI connaissent une deuxième panne ce mois-ci

Jeudi dernier, ChatGPT, Sora et les services API d'OpenAI destinés aux développeurs ont de nouveau subi une panne de plus de quatre heures. OpenAI a indiqué qu'une interruption majeure avait commencé à 11 h (heure américaine, toutes les heures mentionnées dans cet article sont en heure américaine), mais que les services étaient en voie de rétablissement à 15 h 16. Les utilisateurs réguliers de ChatGPT se souviendront peut-être d'une interruption similaire au début du mois. Sur sa page d'état, OpenAI a indiqué que cette interruption majeure était due à une défaillance de son fournisseur en amont.

Actualités IA