INFORMATION PROCESSING | Perturbations plateforme de paiement samedi 4 mai / Saturday 4th of May payment platform disruptions
Incident Report for Payplug
Postmortem

Service concerné

Transactions e-commerce et notifications de paiement

Impact client

Les services suivants ont subi une perturbation de 5% à 10% de 12h45 à 17h40 avec un pic plus fort entre 14h38 et 14h48 :

  • authentification 3DS faites en interne (les authentifications 3DS faites via des modules marchand n'étaient pas impactées)
  • notifications de paiements

Synthèse de l’incident

  • 12h24 : Première alerte technique signalant des appels aux services d’authentification externes à Payplug en échec (timeout). Début des investigations par l’astreinte technique
  • 12h45 : Début de perturbation des authentifications 3DS et des envois de notification. Perturbation non détectée par notre astreinte technique. Début de l’incident
  • 14h30 : Identification du serveur en cause
  • 15h30 : Escalade à un autre membre de l'équipe d’astreinte.
  • 17h40 : Fix déployé, reprise du service et fin de l’incident

Root cause

Une forte montée en charge a saturé les capacités de traitement d’un serveur. les capacités de ce serveur ont été fortement augmentées le samedi à 17h40, ce qui a permis de fixer l’incident. La root cause permettant d’expliquer cette montée en charge est toujours en cours d’investigation. Le serveur restera en l'état tant que la root cause n’aura pas été déterminée.

Contexte

L’astreinte technique a pour mission première d’assurer la bonne marche de la plateforme. L’astreinte opérationnelle a pour mission d’assurer la communication avec nos marchands. L’astreinte technique peut être sollicitée sans impact marchand et sans nécessiter de solliciter l’astreinte opérationnelle. Aucune alerte opérationnelle n’ayant été déclenchée, l’astreinte opérationnelle n’a pas été sollicitée sur cet incident.

Actions à entreprendre par Payplug

Symptôme Action
Pas de monitoring du serveur impliqué Ajout de monitoring sur ce serveur
Absence d’alerte sur la baisse du taux d’acceptation Correction de l’alerting dédié
Absence d’alerte sur les notifications de paiement non envoyées Développement d’un alerting dédié
Notifications de paiement non envoyées Renvoi des notifications de paiement sur demande
Non détection de l’impact marchand par l'équipe d’astreinte technique. Non communication de l’incident sur la status page Formation de l'équipe d’astreinte technique pour améliorer leur capacité à détecter un impact marchand afin de solliciter l'équipe d’astreinte opérationnelle
root cause non identifiée Investigation de la root cause en cours

==============ENGLISH VERSION==============

Affected service

E-commerce transactions and payment notifications

Customer impact

The following services experienced a disruption of 5% to 10% from 12:45 PM to 5:40 PM, with a stronger peak between 2:38 PM and 2:48 PM:

  • Internal 3DS authentications (3DS authentications performed through merchant plugins were not impacted)
  • Payment notifications

Incident overview

  • 12:24 PM: First technical alert indicating failed calls to external authentication services (timeout). The technical on-call team started investigations.
  • 12:45 PM: Start of 3DS authentications and notification deliveries disruption. This disruption was not detected by our technical on-call team. Beginning of the incident.
  • 2:30 PM: Identification of the problematic server.
  • 3:30 PM: Escalation to another member of the on-call team.
  • 5:40 PM: Fix deployed, service resumed. End of the incident.

Root Cause

A significant load increase saturated the processing capacities of a server. The capacities of this server were significantly increased on Saturday at 5:40 PM, which resolved the incident. The root cause explaining this load increase is still under investigation. The server will remain in its current state until the root cause is determined.

Context

The primary mission of the technical on-call team is to ensure the smooth operation of the platform. The operational on-call team’s mission is to ensure communication with our merchants. The technical on-call team can be engaged without merchant impact and without the need to involve the operational on-call team. Since no operational alert was triggered, the operational on-call team was not involved in this incident.

Actions to Be Taken by Payplug

Symptom Action
No monitoring of the involved server Add monitoring to this server
No alert on the drop in acceptance rate Correct the dedicated alerting
No alert on unsent payment notifications Develop dedicated alerting
Payment notifications not sent Payment notifications were sent upon request
Failure to detect merchant impact by the technical on-call team. No incident communication on the status page Train the technical on-call team to improve detection of an impact on merchants in order to engage operational on-call team
Root cause not identified Ongoing root cause investigation
Posted May 17, 2024 - 18:01 CEST

Resolved
SRM-5981
- Début / Start : 04/05/2024 12h45 CEST
- Fin / End : 04/05/2024 17h30 CEST
- Catégorie / Category : Production - Processing
- Responsabilité / Responsibility : Payplug

FR
Les notifications non envoyées durant l'incident ont été envoyées pour ceux qui nous en ont fait la demande.
Notre support reste disponible via notre formulaire de contact https://help.dalenys.com/hc/fr/requests/new si vous souhaitez que nous relancions les notifications.

EN
Notifications not sent during the incident were sent for those who asked for it.
Our support team stays available through our contact form at https://help.dalenys.com/hc/en-gb/requests/new if you wish for us to resend the affected notifications.
Posted May 13, 2024 - 18:29 CEST
Monitoring
FR
Nous sommes au regret de vous informer que nos services ont été perturbé samedi 4 mai de 12h45 à 17h30 CEST. Cet incident a entrainé des erreurs sur certaines transactions et notifications de paiement.
Résolution :
Nos équipes ont résolu l'incident en augmentant les capacités de traitement de nos serveurs. La root cause est en cours d'investigation.
Impact :
Les notifications de paiement concernées n'ayant pas pu être rejouées le samedi juste après l'incident, et les 8 et 9 mai étant des jours fériés, nous avons pris la décision de reporter le renvoi de ces notifications afin d'éviter un potentiel surincident.
Actions requises :
Veuillez contacter notre support via notre formulaire de contact https://help.dalenys.com/hc/fr/requests/new si vous souhaitez que nous relancions les notifications lundi 13 mai.
Vous avez également la possibilité de relancer une notification sur le détail de la transaction correspondante dans votre espace cockpit

Nous vous prions d'accepter nos excuses pour les inconvénients que cet incident a pu causé et vous assurons de notre engagement pour assurer la stabilité et la fiabilité de notre service
Merci de votre compréhension et de votre soutien

EN
We regret to inform you that on Saturday, 4th of May from 12:45 PM to 5:30 PM CEST, our services experienced a partial disruption. This incident resulted in errors affecting some transactions and payment notifications.
Resolution:
Our team addressed the issue by increasing server processing capabilities. However, the root cause is still under investigation.
Impact:
Due to the incident, affected payment notifications could not be sent immediately after its resolution. Considering the upcoming French bank holidays on May 8th and 9th, we have made the decision to postpone sending these notifications this week to avoid potential disruptions.
Action Required:
Please reach out to our support team via our contact form at https://help.dalenys.com/hc/en-gb/requests/new if you wish for us to resend the affected notifications on Monday, May 13th.
Additionally, you can refresh a notification on your cockpit space by referring to the transaction detail.

We sincerely apologize for any inconvenience this incident may have caused and assure you that we are committed to ensuring the stability and reliability of our services.
Thank you for your understanding and continued support.
Posted May 07, 2024 - 18:37 CEST
This incident affected: Processing (Processing e-commerce / E-commerce processing, Moyens de paiements alternatifs / Alternative payment methods).