English version below
Post Mortem
Référence incident
TSR-2065
Service concerné
Reversement des paiements e-commerce et magasin.
Impact client
Reversement partiel des transactions.
Synthèse de l’incident
- 23 juillet - 14h : mise en production dans le cadre d’une migration de service.
- 24 juillet - 1h15 : suite à des alertes, interruption de la chaîne de reversement.
- 24 juillet - 1h48 : rollback de la mise en production.
- 24 juillet - 1h50 : reprise de la chaîne de reversement.
- 24 juillet - 10h19 : détection de faibles montants dans le fichier de reversement.
- 24 juillet - 10h22 : création d’une cellule de crise dédiée et début des analyses.
- 24 juillet - 10h45 : décision de signer les virements en l’état et d’établir un plan pour chercher les transactions manquantes afin qu’elles soient incluses dans les virements du lendemain.
- 24 juillet - 14h43 : actions pour inclure les transactions dans les reversements du lendemain.
- 25 juillet : reversement des transactions. Fin de l’incident.
Contexte
N/A
Root cause
Mise en production ayant entraîné un blocage de la chaîne de reversement.
Actions à entreprendre par Payplug
Symptômes |
Actions |
Non détection de l’erreur lors de l'exécution de la chaîne de nuit. |
Ajout d’un monitoring sur la partie d’exécution de la chaîne de nuit. |
==============ENGLISH VERSION==============
Post Mortem
Incident reference
TSR-2065
Payment services affected by the incident
E-commerce & in-store payments settlement.
Client impact
Partial settlement of transactions.
Incident Overview
- 23 July – 2:00pm: deployment as part of a service migration.
- 24 July – 1:15am: following alerts, interruption of the payout process.
- 24 July – 1:48am: rollback of the deployment.
- 24 July – 1:50am: resumption of the payout process.
- 24 July – 10:19am: detection of unusually low amounts in the payout file.
- 24 July – 10:22am: creation of a dedicated crisis team and start of analysis.
- 24 July – 10:45am: decision to approve the transfers as-is and to set up a plan to identify
- missing transactions so they could be included in the next day’s transfers.
- 24 July – 2:43pm: actions taken to include the transactions in the following day's payouts.
- 25 July: transactions paid out. End of the incident.
Context
N/A
Root cause
Deployment caused a blockage in the payout process.
Actions to be taken by Payplug
Symptoms |
Actions |
Failure to detect the error during the execution of the overnight process. |
Monitoring has been added to the execution part of the overnight process. |