Incident terminaux de paiement / Payment terminal incident
Incident Report for Payplug
Postmortem

Service concerné

Paiements de proximité NEXO

Impact client

Interruption des paiements de proximité NEXO de 10h50 à 13h42

Synthèse de l’incident

10h50 : expiration d’un certificat lié au trafic NEXO et début de l’incident

11h46 : alertes marchand

11h50 : ouverture de la cellule de crise technique

13h30 : détection du certificat expiré

13h42 : solution temporaire permettant la reprise du trafic Nexo

14h06 : mise à jour du certificat et fin de l’incident

Root cause

Expiration d’un certificat lié au trafic NEXO

Contexte

Incident durant le weekend sans l’expertise de toute l'équipe technique

Actions à entreprendre par Payplug

Symptôme Action
Expiration du certificat Inventaire des certificats répartis sur nos datacenters et sur GCP réalisé cette semaine par l’ensemble de l'équipe infrastructure (plus d’une centaine de certificats) Ajout de monitoring sur chaque certificat inventorié avant mise en place d’une solution de gestion des certificats.
Non détection de la panne Ajout d’un alerting sur les paiements NEXO
Délai de résolution important Revue de la documentation NEXO Formation des équipes d’astreinte

==============ENGLISH VERSION==============

Affected service

NEXO in store payments

Customer impact

NEXO in store payment outage from 10.50am until 1.42pm

Incident overview

10.50am : expiry of a certificate linked to NEXO trafic. Incident starts

11.46am : merchant alerts

11.50am : technical crisis unit set up

1.30pm : detection of the expired certificate

1.42pm : workaround deployed. Service resumes.

2.06pm : expired certificate update. End of the incident

Root cause

Expiry of a certificate linked to NEXO trafic

Background

Incident during the wekend without full technical team expertise

Actions to be taken by Payplug

Symptom Action
Certificate expiry Inventory of certificates spread accross our datacenters and GCP is to be performed this week by the whole infrastructure team (more than a hundred certificates) Monitoring added for each listed certificate before deployment of a certificate management solution
Undetected failure Alerting added on NEXO in store payments
Large resolution delay NEXO documentation review On-duty team training
Posted Feb 07, 2024 - 12:58 CET

Resolved
This incident has been resolved.
Posted Feb 03, 2024 - 15:30 CET
Update
We are continuing to monitor for any further issues.
Posted Feb 03, 2024 - 15:30 CET
Update
FR
Les services sont pleinement restaurés depuis 13h41 UTC+1.
Un post-mortem sera mis à jour rapidement.

EN
Services have been fully restored since 13h41 (1:41pm) UTC+1.
A post-mortem will be updated shortly.
Posted Feb 03, 2024 - 14:12 CET
Update
We are continuing to monitor for any further issues.
Posted Feb 03, 2024 - 14:01 CET
Monitoring
A fix has been implemented and we are monitoring the results.
Posted Feb 03, 2024 - 13:46 CET
Identified
FR
La cause de l'incident a été identifiée, nos équipes travaillent à la pleine restauration des services.

EN
The incident cause has been identified, and our teams are working to restore full service.
Posted Feb 03, 2024 - 13:45 CET
Update
FR
Les équipes techniques sont pleinement mobilisées, nous poursuivons l'investigation pour rétablir les services au plus vite.

EN
Our technical teams are fully mobilized and we are continuing our investigations to restore services as quickly as possible.
Posted Feb 03, 2024 - 13:24 CET
Update
FR
Les équipes techniques sont pleinement mobilisées, nous poursuivons l'investigation pour rétablir les services au plus vite.

EN
Our technical teams are fully mobilized and we are continuing our investigations to restore services as quickly as possible.
Posted Feb 03, 2024 - 13:04 CET
Update
FR
Les équipes techniques sont pleinement mobilisées, nous poursuivons l'investigation pour rétablir les services au plus vite.

EN
Our technical teams are fully mobilized and we are continuing our investigations to restore services as quickly as possible.
Posted Feb 03, 2024 - 12:46 CET
Update
FR
Nous poursuivons l'investigation pour rétablir les services au plus vite.

EN
We are continuing our investigation to restore services as quickly as possible.
Posted Feb 03, 2024 - 12:25 CET
Investigating
FR
Un incident impacte les transactions des terminaux de paiement, nous investiguons pour rétablir la situation au plus vite.

EN
An incident affects payment terminal transactions and we investigate to restore the situation as quickly as possible.
Posted Feb 03, 2024 - 12:07 CET
This incident affected: Processing (Paiement en magasin - NEXO / Instore payment).