Service concerné
Transactions e-commerce et notifications de paiement
Impact client
Les services suivants ont subi une perturbation de 5% à 10% de 12h45 à 17h40 avec un pic plus fort entre 14h38 et 14h48 :
Synthèse de l’incident
Root cause
Une forte montée en charge a saturé les capacités de traitement d’un serveur. les capacités de ce serveur ont été fortement augmentées le samedi à 17h40, ce qui a permis de fixer l’incident. La root cause permettant d’expliquer cette montée en charge est toujours en cours d’investigation. Le serveur restera en l'état tant que la root cause n’aura pas été déterminée.
Contexte
L’astreinte technique a pour mission première d’assurer la bonne marche de la plateforme. L’astreinte opérationnelle a pour mission d’assurer la communication avec nos marchands. L’astreinte technique peut être sollicitée sans impact marchand et sans nécessiter de solliciter l’astreinte opérationnelle. Aucune alerte opérationnelle n’ayant été déclenchée, l’astreinte opérationnelle n’a pas été sollicitée sur cet incident.
Actions à entreprendre par Payplug
Symptôme | Action |
---|---|
Pas de monitoring du serveur impliqué | Ajout de monitoring sur ce serveur |
Absence d’alerte sur la baisse du taux d’acceptation | Correction de l’alerting dédié |
Absence d’alerte sur les notifications de paiement non envoyées | Développement d’un alerting dédié |
Notifications de paiement non envoyées | Renvoi des notifications de paiement sur demande |
Non détection de l’impact marchand par l'équipe d’astreinte technique. Non communication de l’incident sur la status page | Formation de l'équipe d’astreinte technique pour améliorer leur capacité à détecter un impact marchand afin de solliciter l'équipe d’astreinte opérationnelle |
root cause non identifiée | Investigation de la root cause en cours |
==============ENGLISH VERSION==============
Affected service
E-commerce transactions and payment notifications
Customer impact
The following services experienced a disruption of 5% to 10% from 12:45 PM to 5:40 PM, with a stronger peak between 2:38 PM and 2:48 PM:
Incident overview
Root Cause
A significant load increase saturated the processing capacities of a server. The capacities of this server were significantly increased on Saturday at 5:40 PM, which resolved the incident. The root cause explaining this load increase is still under investigation. The server will remain in its current state until the root cause is determined.
Context
The primary mission of the technical on-call team is to ensure the smooth operation of the platform. The operational on-call team’s mission is to ensure communication with our merchants. The technical on-call team can be engaged without merchant impact and without the need to involve the operational on-call team. Since no operational alert was triggered, the operational on-call team was not involved in this incident.
Actions to Be Taken by Payplug
Symptom | Action |
---|---|
No monitoring of the involved server | Add monitoring to this server |
No alert on the drop in acceptance rate | Correct the dedicated alerting |
No alert on unsent payment notifications | Develop dedicated alerting |
Payment notifications not sent | Payment notifications were sent upon request |
Failure to detect merchant impact by the technical on-call team. No incident communication on the status page | Train the technical on-call team to improve detection of an impact on merchants in order to engage operational on-call team |
Root cause not identified | Ongoing root cause investigation |