Numeriblog Hors-sujet Lundi 14 décembre 2020 : Google Drive, Gmail, YouTube, une panne mondiale paralyse ces services

Lundi 14 décembre 2020 : Google Drive, Gmail, YouTube, une panne mondiale paralyse ces services

La panne massive a été rapportée à l’échelle mondiale et Google a indiqué que “la majorité des utilisateurs” était concernée. Voici ce lundi 14 décembre 2020, midi, ce qu’on pouvait trouver en allant se connecter […]

personnes ont consulté cet article

5 minutes

Rédigé par Thierry Vanoffe - il y a 2 ans

Ce que vous allez découvrir

  • Voici les services concernés par la panne de ce lundi 14 décembre 2020 :
  • Comment vérifier si un service Google est en panne ?
  • Que s'est-il passé ?

Lundi 14 décembre 2020 : Google Drive, Gmail, YouTube, une panne mondiale paralyse ces services

La panne massive a été rapportée à l’échelle mondiale et Google a indiqué que “la majorité des utilisateurs” était concernée. Voici ce lundi 14 décembre 2020, midi, ce qu’on pouvait trouver en allant se connecter sur les services comme Gmail, Drive, Google Documents ou Youtube.

“Ok Google, qu’est ce qui se passe ?”

Des pannes ont été rapportées en France, en Espagne, en Italie, au Royaume-Uni mais aussi aux États-Unis et au Japon. Google indique sur son tableau de bord accessible en ligne que tous ses services sont concernés, et ce pour “la majorité des utilisateurs”.

Voici les services concernés par la panne de ce lundi 14 décembre 2020 :

  • Gmail
  • Google Agenda
  • Google Drive
  • Google Docs
  • Google Sheets
  • Google Slides
  • Google Sites
  • Google Groupes
  • Hangouts classique
  • Google Chat
  • Google Meet
  • Google Vault
  • Currents
  • Google Forms
  • Google Cloud Search
  • Google Keep
  • Google Tasks
  • Google Voice
  • Console d’administration
  • Google Analytics
  • App Maker
  • Google Maps
  • Blogger
  • Google Sync for Mobile
  • Classroom

Comment vérifier si un service Google est en panne ?

Pour vérifier en tant réel si les services fonctionnent bien, je vous invite à visiter ce site officiel et à le mettre dans votre dossier Google en Favoris à côté de Numeriblog.

Un dashboard tout rouge comme aujourd’hui, c’est du jamais vu depuis que je pratique de manière intensive l’univers Google (>10 ans). Cette journée restera historique.

Que s’est-il passé ?

Pour l’instant, la firme californienne n’a pas donné de détail sur l’origine de la panne. Toutefois, comme l’ont signalé certains internautes et sites spécialisés, elle pourrait être liée à un problème sur la couche d’authentification car les services étaient accessibles en navigation privée et sur le mobile. Il semblerait que d’autres services soient également touchés ce jour.

Plus d’informations à venir... Je n’hésiterai pas à compléter cet article dans la semaine. Pensez bien à télécharger vos données en local (Spanning.com, takeout.google.com ou synchronisation avec un NAS, pour ne citer qu’eux).

Update (communiqué de Google).


Le lundi 14 décembre 2020, pour une durée de 47 minutes, les services Google destinés aux clients nécessitant un accès Google OAuth n’étaient pas disponibles. Les comptes de service cloud utilisés par les charges de travail GCP n’ont pas été affectés et ont continué à fonctionner. Nous nous excusons auprès de nos clients dont les services ou les activités ont été impactés lors de cet incident, et nous prenons des mesures immédiates pour améliorer les performances et la disponibilité de la plateforme.

CAUSE PREMIÈRE
Le service Google User ID gère un identifiant unique pour chaque compte et gère les informations d’authentification pour les jetons OAuth et les cookies. Il stocke les données de compte dans une base de données distribuée, qui utilise les protocoles Paxos pour coordonner les mises à jour. Pour des raisons de sécurité, ce service rejettera les demandes lorsqu’il détectera des données obsolètes.Google utilise une suite évolutive d’outils d’automatisation pour gérer le quota de diverses ressources allouées aux services. Dans le cadre d’une migration en cours du service d’ID utilisateur vers un nouveau système de quotas, une modification a été apportée en octobre pour enregistrer le service d’ID utilisateur avec le nouveau système de quotas, mais des parties de l’ancien système de quotas ont été laissées en place, ce qui signalait à tort le utilisation du service User ID à 0. Une période de grâce existante sur l’application des restrictions de quota a retardé l’impact, qui a finalement expiré, déclenchant des systèmes de quotas automatisés pour réduire le quota autorisé pour le service User ID et déclenchant cet incident. Des contrôles de sécurité existants existent pour empêcher de nombreux changements de quota involontaires, mais à l’époque, ils ne couvraient pas le scénario de charge nulle pour un service unique:• Changement de quota pour un grand nombre d’utilisateurs, étant donné qu’un seul groupe était la cible du changement,• Réduction du quota en deçà de l’utilisation, car l’utilisation signalée a été signalée à tort comme zéro,• Réduction excessive des quotas des systèmes de stockage, car aucune alerte n’est déclenchée pendant la période de grâce,• Quota faible, car la différence entre l’utilisation et le quota dépassait la limite de protection.En conséquence, le quota pour la base de données des comptes a été réduit, ce qui a empêché le chef de Paxos d’écrire. Peu de temps après, la majorité des opérations de lecture sont devenues obsolètes, ce qui a entraîné des erreurs lors des recherches d’authentification.

REMÉDIATION ET PRÉVENTION
L’ampleur du problème a été immédiatement claire lorsque les nouveaux quotas sont entrés en vigueur. Cela a été détecté par des alertes automatisées pour la capacité à 2020-12-14 03:43 US / Pacific, et pour des erreurs avec le service User ID à partir de 03:46, qui a paginé Google Engineers à 03:48 dans la minute suivant l’impact client. À 04h08, la cause première et un correctif potentiel ont été identifiés, ce qui a conduit à la désactivation de l’application des quotas dans un centre de données à 04h22. Cela a rapidement amélioré la situation et à 04h27, la même atténuation a été appliquée à tous les centres de données, ce qui a renvoyé les taux d’erreur à des niveaux normaux à 04h33. Comme indiqué ci-dessous, certains services utilisateurs ont mis plus de temps à se rétablir complètement.En plus de corriger la cause sous-jacente, nous mettrons en œuvre des changements pour prévenir, réduire l’impact et mieux communiquer sur ce type de panne de plusieurs manières:1. Passez en revue notre automatisation de la gestion des quotas pour éviter la mise en œuvre rapide des changements mondiaux2. Améliorez la surveillance et les alertes pour détecter les configurations incorrectes plus tôt3. Améliorer la fiabilité des outils et des procédures d’affichage des communications externes lors des pannes affectant les outils internes4. Évaluer et mettre en œuvre une meilleure résilience des échecs d’écriture dans notre base de données de service User ID5. Améliorez la résilience des services GCP pour limiter plus strictement l’impact sur le plan de données lors des échecs du service User IDNous tenons à nous excuser pour l’ampleur de l’impact que cet incident a eu sur nos clients et leurs entreprises. Nous prenons très au sérieux tout incident affectant la disponibilité et la fiabilité de nos clients, en particulier les incidents qui couvrent plusieurs régions. Nous menons une enquête approfondie sur l’incident et ferons des changements résultant de cette enquête notre priorité absolue dans Google Engineering.

DESCRIPTION DÉTAILLÉE DE L’IMPACT
Le lundi 14 décembre 2020 de 03h46 à 04h33 (États-Unis / Pacifique), l’émission des informations d’identification et la recherche de métadonnées de compte pour tous les comptes d’utilisateurs Google ont échoué. Par conséquent, nous n’avons pas pu vérifier que les demandes des utilisateurs étaient authentifiées et servaient des erreurs 5xx sur pratiquement tout le trafic authentifié. La majorité des services authentifiés ont eu un impact similaire sur le plan de contrôle: des taux d’erreur élevés sur toutes les API et consoles Google Cloud Platform et Google Workspace. Les produits ont continué à fournir un service normalement pendant l’incident, sauf indication contraire ci-dessous. La plupart des services ont récupéré automatiquement dans un court laps de temps après la fin du problème principal à 04h33. Certains services ont eu un impact unique ou persistant, qui est détaillé ci-dessous.Cloud ConsoleLes utilisateurs qui ne s’étaient pas déjà authentifiés sur Cloud Console n’ont pas pu se connecter. Les utilisateurs déjà authentifiés ont peut-être pu utiliser Cloud Console, mais ont peut-être vu certaines fonctionnalités se dégrader.Google BigQueryAu cours de l’incident, les demandes de streaming ont renvoyé environ 75% d’erreurs, tandis que les tâches BigQuery ont renvoyé environ 10% d’erreurs en moyenne dans le monde.Google Cloud Storage Environ 15% des demandes adressées à Google Cloud Storage (GCS) ont été affectées pendant la panne, en particulier celles utilisant l’authentification OAuth, HMAC ou par e-mail. Après 2020-12-14 04:31 États-Unis / Pacifique, la majorité de l’impact a été résolue, cependant, il y avait un impact persistant, pour <1% des clients qui ont tenté de finaliser les téléchargements pouvant être repris pendant la fenêtre. Ces téléchargements ont été laissés dans un état non réactivable; le code d’erreur renvoyé par GCS était réessayable, mais les tentatives suivantes n’ont pas pu progresser, laissant ces objets non finalisés.Réseau Google CloudLe plan de contrôle du réseau a continué de voir des taux d’erreur élevés sur les opérations jusqu’à ce qu’il se rétablisse complètement à 2020-12-14 05:21 US / Pacific. Seules les opérations ayant apporté des modifications au réseau VPC du plan de données ont été affectées. Toutes les configurations existantes dans le plan de données sont restées opérationnelles.Google Kubernetes EngineAu cours de l’incident, environ 4% des demandes adressées à l’API du plan de contrôle GKE ont échoué et presque toutes les charges de travail gérées par Google et les clients n’ont pas pu signaler les métriques à Cloud Monitoring.Nous pensons qu’environ 5% des demandes adressées aux plans de contrôle Kubernetes ont échoué mais ne disposent pas de mesures précises en raison de métriques de surveillance du cloud non signalées.Pendant jusqu’à une heure après la panne, environ 1,9% des nœuds ont signalé des conditions telles que StartGracePeriod ou NetworkUnavailable qui peuvent avoir eu un impact sur les charges de travail des utilisateurs.Google WorkspaceTous les services Google Workspace s’appuient sur l’ infrastructure de compte de Google pour la connexion, l’authentification et l’application du contrôle d’accès aux ressources (par exemple, documents, événements d’agenda, messages Gmail). En conséquence, toutes les applications Google Workspace authentifiées étaient en panne pendant la durée de l’incident. Une fois le problème résolu à 2020-12-14 04:32 États-Unis / Pacifique, les applications Google Workspace ont été récupérées et la plupart des services ont été entièrement récupérés à 05h00. Certains services, notamment Google Agenda et la console d’administration Google Workspace, ont généré des erreurs jusqu’à 5 h 21 en raison d’un pic de trafic après la récupération initiale. Certains utilisateurs de Gmail ont rencontré des erreurs jusqu’à une heure après la récupération en raison de la mise en cache des erreurs des services d’identité.Assistance cloudLes outils internes de l’assistance cloud ont été touchés, ce qui a retardé notre capacité à partager les communications en cas de panne avec les clients sur Google Cloud Platform et les tableaux de bord d’état de Google Workspace. Les clients n’ont pas été en mesure de créer ou d’afficher des requêtes dans Cloud Console. Nous avons pu mettre à jour les clients à 2020-12-14 05:34 US / Pacific après la fin de l’impact.

Rédacteur

Photo de profil de l'auteur
Thierry Vanoffe

Thierry VANOFFE, consultant, formateur, coach Google Workspace CEO de Numericoach, leader de la formation Google Workspace en France. Passionné par Google, ce blog me permet de partager cette passion et distiller tutos, trucs, astuces, guides sur les outils Google. N'hésitez pas à me solliciter pour vos projets de formation.

S’abonner
Notification pour
guest
0 Commentaires
Commentaires en ligne
Afficher tous les commentaires