INCIDENT PROCESSING | Perturbations paiements magasin NEXO / NEXO instore payment disruptions
Incident Report for Payplug
Postmortem

Post Mortem

Référence incident

TSR-965

Service concerné

Paiements en magasin NEXO

Impact client

Indisponibilité du paiement en magasin via TPE NEXO.

Synthèse de l’incident

  • 5 décembre 14h34 : activation de la nouvelle brique d’acquisition.
  • 7 décembre - 16h45 : début de l’incident.
  • 7 décembre - 16h58 : remontées d’alertes.
  • 7 décembre - 17h17 : création de la cellule incident majeur.
  • 7 décembre - 17h25 : communication status page.
  • 7 décembre - 17h35 : actions pour purger des files de messages bloquant le trafic.
  • 7 décembre - 18h00 : Reprise du service et fin de l’incident.

Contexte

Plan de transformation en cours impliquant un changement de brique d’acquisition, pour se rendre plus indépendant, réactif et résilient qu’avec la brique actuelle.

Root cause

Le timeout d’une requête d’autorisation n’a pas été géré correctement par une instance de notre nouvelle brique d’acquisition. L’instance est restée en attente de réponse à cette requête, sans passer aux requêtes suivantes. La file d’attente de cette instance s’est engorgée jusqu’à ne plus répondre et a fini par faire échouer les deux autres instances, coupant par la même occasion l’intégralité du trafic NEXO.

Les tests n’ont pas permis de reproduire ce cas en amont du déploiement et de s’en prémunir.

Actions à entreprendre par Payplug

Symptôme Action
Robustesse de la nouvelle brique insuffisante. Switch sur l’ancienne brique tant qu’on n’a pas suffisamment fiabilisé la nouvelle. Aucun risque ne sera pris avant la fin des soldes.
Mauvaise gestion des requêtes d’autorisations en erreur. Changement structurant sur les applicatifs utilisés par cette nouvelle brique priorisé en amont du redéploiement de cette nouvelle brique.
Délai de résolution important. Mise à jour de la documentation à destination de l’astreinte.
Posted Dec 10, 2024 - 18:25 CET

Resolved
FR
Nos services sont à nouveau pleinement opérationnels.
Un post mortem sera publié lundi.

EN
Our services are fully operational again.
A post-mortem will be published on Monday.
Posted Dec 07, 2024 - 18:38 CET
Monitoring
FR
Nous actions ont permis de restaurer une pleine capacité d'encaissement en magasin / Nexo.
Nous monitorons avant d'annoncer une pleine résolution.

EN
Our actions have restored full in-store / Nexo checkout capacity.
We are monitoring before announcing a full recovery.
Posted Dec 07, 2024 - 18:04 CET
Update
FR
Nous poursuivons nos investigations pour rétablir le trafic au plus vite.

EN
We are continuing our investigations to restore traffic as quickly as possible.
Posted Dec 07, 2024 - 17:50 CET
Investigating
FR
Nous avons identifié des difficultés sur le paiement magasin NEXO.
L'incident est en cours d'analyse.

EN
We have identified ongoing difficulties on NEXO instore payments.
An investigation is in progress.
Posted Dec 07, 2024 - 17:25 CET
This incident affected: Processing (Paiement en magasin - NEXO / Instore payment).