English version below
Post Mortem
Référence incident
TSR-2673.
Service concerné
Dashboard & reversement.
Impact client
Retard d’affichage des transactions sur le Dashboard et interruption du processus de reversement.
Synthèse de l’incident
- 10 décembre 01h00 : remontées d’alertes indiquant un retard de remontée des transactions. Début de l’incident.
- 10 décembre 9h04 : création d’une cellule de crise dédiée et début des investigations.
- 10 décembre 9h05 : identification d’un retard des remontées des transactions dans le Dashboard. Confirmation de l’absence d’impact sur le processing.
- 10 décembre 9h07 : identification d’un problème d'empilement de données en base qui engendre des ralentissements.
- 10 décembre 9h15 : interruption d’une tâche qui ne répondait plus et qui semblait interférer avec la remontée des transactions sur le Dashboard.
- 10 décembre 9h20 : tests non concluants. Les files de logs continuent de se remplir. Poursuite des investigations.
- 10 décembre 9h29 : communication Statuspage.
- 10 décembre 10h26 : identification de l’origine de l’incident.
- 10 décembre 10h27 - 20h : études de différentes solutions pour traiter les logs plus rapidement.
- 10 décembre 20h05 : décision prise de ne pas lancer les fichiers de reversements pour éviter tout surincident.
- 10 décembre 20h06 : suppression de certaines transactions qui seront réimportées le lendemain matin. Resynchronisation de la base de données.
- 10 décembre 22h19 : fin de la resynchronisation. Situation revenue à la normale.
- 10 décembre 00h20 : la file de logs commence à se remplir à nouveau.
- 11 décembre 8h20 : identification de lenteurs dans une table présente dans la base de données. Nouvelles investigations pour essayer de traiter les logs plus rapidement.
- 11 décembre 10h00 : identification d’une saturation d’une base de données.
- 11 décembre 10h45 : redémarrage de la base de données et actions menées pour augmenter la capacité de la machine.
- 11 décembre 11h11 : l’affichage des transactions revient à la normale. Fin de l’incident.
- 11 décembre 11h25 : relance des fichiers pour assurer les reversements le lendemain.
- 11 décembre 14h05 : les fichiers ont été relancés avec succès.
- 12 décembre 8h20 : reversements effectués.
Contexte
N/A
Root cause
Les files qui traitent les logs ont été impactées par un dépassement de capacité d'une base de données.
Actions à entreprendre par Payplug
| Symptômes |
Actions |
| Saturation de la base de données. |
Réalisation d’un inventaire complet de la base de données et planification de scripts pour éviter toute saturation. |
| Absence d’alerte prévenant de la saturation de la base de données. |
Ajouts d’alertes spécifiques pour éviter une saturation de la base de données. |
==============ENGLISH VERSION==============
Post Mortem
Incident reference
TSR-2673.
Payment services affected by the incident
Dashboard & payments settlement.
Client impact
Delay in the display of transactions on the dashboard and interruption of the settlement process.
Incident Overview
- December 10 - 1:00am: alerts raised indicating a delay in transaction reporting. Start of the incident.
- December 10 - 9:04am: establishment of a dedicated crisis unit and start of investigations.
- December 10 - 9:05am: identification of a delay in transaction reporting on the dashboard. Confirmation that there was no impact on processing.
- December 10 - 9:07am: identification of a data stacking issue in the database causing slowdowns.
- December 10 - 9:15am: interruption of an unresponsive task that appeared to be interfering with transaction reporting on the dashboard.
- December 10 - 9:20am: inconclusive tests. Log queues continue to build up. Investigations ongoing.
- December 10 - 9:29am: Statuspage communication.
- December 10 - 10:26am: identification of the root cause of the incident.
- December 10 - 10:27am – 8:00pm: review of various solutions to process logs more quickly.
- December 10 - 8:05pm: decision taken not to run settlement files in order to avoid any further incident.
- December 10 - 8:06pm: deletion of certain transactions to be reimported the following morning. Database resynchronisation.
- December 10 - 10:19pm: end of the resynchronisation. Situation returned to normal.
- December 11 - 00:20am: the log queue starts to build up again.
- December 11 - 8:20am: identification of slow performance in a table within the database. New investigations to process logs more quickly.
- December 11 - 10:00am: identification of database saturation.
- December 11 - 10:45am: database restart and actions taken to increase the machine’s capacity.
- December 11 - 11:11am: transaction display returns to normal. End of the incident.
- December 11 - 11:25am: restart of files to ensure reimbursements the following day.
- December 11 - 2:05pm: files successfully restarted.
- December 12 - 08:20am: reimbursements completed.
Context
N/A
Root cause
The queues responsible for processing logs were impacted by a database capacity overrun.
Actions to be taken by Payplug
| Symptoms |
Actions |
| Database saturation. |
Completion of a full database inventory and planning of scripts to prevent any saturation. |
| Lack of alerts warning of database saturation. |
Addition of specific alerts to prevent database saturation. |