Service concerné
Processing et authentification 3DS
Impact client
Les services processing suivants n'étaient pas disponible de 15h55 à 16h35 :
De plus, la plupart des notifications ont été impactées sur la période
Synthèse de l’incident
15h54 : ajout de règles réseaux pour autoriser des nouveaux accès. Début de l’incident
16h01 : ouverture de la cellule de crise
16h05 : compréhension de la root cause
16h05-35 : multiples actions pour rétablir le service
16h35 : redémarrage réussi de l'équipement réseau en cause et fin de l’incident
Root cause
L’ajout de règles réseaux a déclenché le redémarrage des deux équipements réseaux redondés. Une mauvaise configuration a empêché le redémarrage des équipements, ce qui a coupé totalement les services listés plus haut.
Contexte
L’ajout de règles réseaux ne devrait pas déclencher le redémarrage de l'équipement réseau. Seule une modification de la configuration déclenche ce redémarrage. L’opération effectuée n’était donc pas considérée à risque concernant l'équipement réseau et aucun monitoring manuel n’a été fait sur cet équipement.
Actions à entreprendre par Payplug
Symptôme | Action |
---|---|
Redémarrage de l'équipement réseau | Stratégie de mise à jour des équipements réseaux et configuration réseau à revoir |
Redémarrage simultané des 2 équipements redondés | Idem. Etudier la possibilité de désynchroniser les redémarrages des 2 équipements redondés |
Aucune alerte nous informant du statut de l'équipement réseau | Mise en place d’un alerting sur le statut de l'équipement réseau Mise en place d’un monitoring sur le statut de redémarrage de l'équipement intégré à la procédure de mise à jour |
Notifications impactées | Rejeu des notifications le 16 janvier entre 10h30 et la fin d’après midi |
==============ENGLISH VERSION==============
Affected service
Processing and 3DS authentication
Customer impact
Following processing services were not available from 3.55pm until 4.35pm :
internal 3DS authentication
(3DS authentications performed through merchant plugins were not impacted)
In addition, most of the notifications were impacted during the incident.
Incident overview
3.54pm : network rules added to authorize new access. Beginning of the incident
4.01pm : crisis cell opened
4.05pm : root cause understood
4.05-35pm : multiple actions to resume service
4.35pm : successful reboot of the network device causing the incident. End of the incident
Root cause
Network rules addition triggered 2 redundant network devices reboot. Devices reboot was blocked by an incorrect configuration, which caused outage of the services listed above.
Background
Network rules addition should not trigger network device reboot. Only a configuration modification should trigger this reboot. Performed operations wasn’t considered risky regarding the network device. No manual monitoring was therefore performed upon this device.
Actions to be taken by Payplug
Symptom | Action |
---|---|
network device reboot | Network devices and configuration update strategy to be reworked |
Simultaneous reboot of redundant devices | Idem. Investigate reboot desynchronization option |
No alerts upon the network device status | Alerting setup upon network device status Monitoring upon device reboot status integrated to the update procedure. |
Notifications affected | Notifications replayed on the 16th of January from 10.30am until end of the afternoon. |