Référence incident
TSR-2090
Service concerné
Paiements e-commerce et magasin.
Impact client
Indisponibilité générale.
Synthèse de l’incident
Contexte
La patch management consiste en une série de correctifs qui sont déployés chaque semaine alternativement sur chacune des trois parties des serveurs de production (les mardi, mercredi et jeudi).
Root cause
Le patch management a successivement mis hors production chacun des serveurs.
Actions à entreprendre par Payplug
Symptômes | Actions |
---|---|
Défaut de détection de la mise hors production des serveurs. | Ajout de contrôles pour être alerté dès qu’un serveur est mis hors production. |
Mise hors production du dernier serveur. | Ajout de contrôles pour être alerté lorsqu’il ne reste plus qu’un serveur actif en production. Interdiction de la mise hors production automatique du dernier serveur. |
Mises hors production successives de tous les serveurs de production par le patch management. | Désactivation jusqu’à nouvel ordre du patch management. Investigations en cours. |
==============ENGLISH VERSION==============
Incident reference
TSR-2090
Payment services affected by the incident
E-commerce and in-store payments.
Client impact
Widespread unavailability.
Incident Overview
Context
Patch management consists of a series of updates that are deployed weekly in rotation across each of the three groups of production servers (on Tuesdays, Wednesdays, and Thursdays).
Root cause
Patch management successively decommissioned each of the servers.
Actions to be taken by Payplug
Symptômes | Actions |
---|---|
Failure to detect server decommissioning. | Addition of controls to trigger alerts as soon as a server is decommissioned. |
Decommissioning of the last server. | Addition of controls to trigger alerts when only one active production server remains. Blocking of automatic decommissioning of the last server. |
Successive decommissioning of all production servers by patch management. | Patch management deactivated until further notice. Ongoing investigations. |