Référence incident
TSR-965
Service concerné
Paiements en magasin NEXO
Impact client
Indisponibilité du paiement en magasin via TPE NEXO.
Synthèse de l’incident
Contexte
Plan de transformation en cours impliquant un changement de brique d’acquisition, pour se rendre plus indépendant, réactif et résilient qu’avec la brique actuelle.
Root cause
Le timeout d’une requête d’autorisation n’a pas été géré correctement par une instance de notre nouvelle brique d’acquisition. L’instance est restée en attente de réponse à cette requête, sans passer aux requêtes suivantes. La file d’attente de cette instance s’est engorgée jusqu’à ne plus répondre et a fini par faire échouer les deux autres instances, coupant par la même occasion l’intégralité du trafic NEXO.
Les tests n’ont pas permis de reproduire ce cas en amont du déploiement et de s’en prémunir.
Actions à entreprendre par Payplug
Symptôme | Action |
---|---|
Robustesse de la nouvelle brique insuffisante. | Switch sur l’ancienne brique tant qu’on n’a pas suffisamment fiabilisé la nouvelle. Aucun risque ne sera pris avant la fin des soldes. |
Mauvaise gestion des requêtes d’autorisations en erreur. | Changement structurant sur les applicatifs utilisés par cette nouvelle brique priorisé en amont du redéploiement de cette nouvelle brique. |
Délai de résolution important. | Mise à jour de la documentation à destination de l’astreinte. |