INCIDENT PROCESSING P1 | Incident on the platform / Incident sur la plateforme
Incident Report for Payplug
Postmortem

Service concerné

Processing et authentification 3DS

Impact client

Les services processing suivants n'étaient pas disponible de 15h55 à 16h35 :

  • authentification 3DS faite en interne (les authentifications 3DS faite via des modules marchand n'étaient pas impactées)
  • transactions en devises étrangères
  • moyens de paiement alternatifs (Oney, Bancontact, Ideal, Sofort)

De plus, la plupart des notifications ont été impactées sur la période

Synthèse de l’incident

15h54 : ajout de règles réseaux pour autoriser des nouveaux accès. Début de l’incident

16h01 : ouverture de la cellule de crise

16h05 : compréhension de la root cause

16h05-35 : multiples actions pour rétablir le service

16h35 : redémarrage réussi de l'équipement réseau en cause et fin de l’incident

Root cause

L’ajout de règles réseaux a déclenché le redémarrage des deux équipements réseaux redondés. Une mauvaise configuration a empêché le redémarrage des équipements, ce qui a coupé totalement les services listés plus haut.

Contexte

L’ajout de règles réseaux ne devrait pas déclencher le redémarrage de l'équipement réseau. Seule une modification de la configuration déclenche ce redémarrage. L’opération effectuée n’était donc pas considérée à risque concernant l'équipement réseau et aucun monitoring manuel n’a été fait sur cet équipement.

Actions à entreprendre par Payplug

Symptôme Action
Redémarrage de l'équipement réseau Stratégie de mise à jour des équipements réseaux et configuration réseau à revoir
Redémarrage simultané des 2 équipements redondés Idem. Etudier la possibilité de désynchroniser les redémarrages des 2 équipements redondés
Aucune alerte nous informant du statut de l'équipement réseau Mise en place d’un alerting sur le statut de l'équipement réseau Mise en place d’un monitoring sur le statut de redémarrage de l'équipement intégré à la procédure de mise à jour
Notifications impactées Rejeu des notifications le 16 janvier entre 10h30 et la fin d’après midi

==============ENGLISH VERSION==============

Affected service

Processing and 3DS authentication

Customer impact

Following processing services were not available from 3.55pm until 4.35pm :

  • internal 3DS authentication

    (3DS authentications performed through merchant plugins were not impacted)

  • Foreign currencies operations
  • Alternative payment methods (Oney, Bancontact, Ideal, Sofort)

In addition, most of the notifications were impacted during the incident.

Incident overview

3.54pm : network rules added to authorize new access. Beginning of the incident

4.01pm : crisis cell opened

4.05pm : root cause understood

4.05-35pm : multiple actions to resume service

4.35pm : successful reboot of the network device causing the incident. End of the incident

Root cause

Network rules addition triggered 2 redundant network devices reboot. Devices reboot was blocked by an incorrect configuration, which caused outage of the services listed above.

Background

Network rules addition should not trigger network device reboot. Only a configuration modification should trigger this reboot. Performed operations wasn’t considered risky regarding the network device. No manual monitoring was therefore performed upon this device.

Actions to be taken by Payplug

Symptom Action
network device reboot Network devices and configuration update strategy to be reworked
Simultaneous reboot of redundant devices Idem. Investigate reboot desynchronization option
No alerts upon the network device status Alerting setup upon network device status Monitoring upon device reboot status integrated to the update procedure.
Notifications affected Notifications replayed on the 16th of January from 10.30am until end of the afternoon.
Posted Jan 17, 2024 - 20:11 CET

Resolved
SRM-5517
- Début / Start : 15/01/2024 15h55 CET
- Fin / End : 15/01/2024 16h35 CET
- Catégorie / Category : Production - Processing
- Responsabilité / Responsibility : Interne / internal
- Priorité / Priority : P1

L'incident est résolu.

==============ENGLISH VERSION==============

Incident is now resolved
Posted Jan 15, 2024 - 16:43 CET
Identified
SRM-5517
- Début / Start : 15/01/2024 15h55 CET
- Fin / End : En cours / Ongoing
- Catégorie / Category : Production - Processing
- Responsabilité / Responsibility : Interne / internal
- Priorité / Priority : P1

L'incident est interne. Il affecte totalement le trafic 3DS en interne (pas d'impact sur le 3DS externe), le trafic en devises et les notifications.
L'investigation est en cours

==============ENGLISH VERSION==============

Incident is internal. It fully impacts internal 3DS (no impact on external 3DS), foreign currency trafic and notifications.
Investigation is in progress
Posted Jan 15, 2024 - 16:26 CET
Investigating
SRM-5517
- Début / Start : 15/01/2024 15h55 CET
- Fin / End : En cours / Ongoing
- Catégorie / Category : Production - Authentification 3DS / 3DS authentication
- Responsabilité / Responsibility : A confirmer / To be confirmed
- Priorité / Priority : P2

Notre système de monitoring a détecté un taux anormalement élevé d'échecs sur les transactions 3DS
L'incident est en cours d'analyse

==============ENGLISH VERSION==============

Our monitoring system has noticed a high fail rate on 3DS transactions.
An investigation is in progress
Posted Jan 15, 2024 - 16:06 CET
This incident affected: Processing (Processing e-commerce / E-commerce processing, Authentification 3DS / 3DS authentication, Moyens de paiements alternatifs / Alternative payment methods).