Un incident arrivera. Pas « si », mais « quand ». Une compromission, une panne, une dégradation de service. La question n'est donc pas si vous serez confronté à une crise, mais êtes-vous prêt à réagir efficacement ?
Sans plan de réponse structuré, une organisation perd des jours — voire des semaines — avant même d'identifier le problème. Avec les bonnes pratiques, les outils et une méthodologie éprouvée, vous réduisez drastiquement l'impact : détection plus rapide, résolution plus courte, dégâts minimisés.
Cet article vous guide à travers la construction d'un plan de réponse aux incidents solide, basé sur le cadre NIST SP 800-61 (standard industriel), les métriques clés pour mesurer votre performance, et les outils qui automatisent votre réaction.
Plan de l'article
- Les 6 phases NIST SP 800-61
- Classifier la sévérité (SEV1 à SEV4)
- Les métriques essentielles (MTTA, MTTD, MTTR)
- Outils d'incident management
- Construire votre playbook
- Perspectives complémentaires
- Sources et conclusion
Les 6 phases NIST SP 800-61
Le guide NIST SP 800-61 Rev. 2 (Computer Security Incident Handling Guide) définit une approche cyclique en 6 phases. Cette structure a été adoptée par des milliers d'organisations — elle fonctionne.
1. Préparation (Preparation)
Avant que tout incident ne survienne, équipez votre infrastructure et votre équipe :
- Outils de monitoring : collecte de logs centralisée (SIEM), alertes temps réel
- Procédures documentées : playbooks, contacts d'escalade, plan de communication
- Formation : tous les rôles (DevOps, Sec, Support) doivent connaître leur rôle
- Redondance : systèmes critiques répliqués, backup testé, failover automatisé
2. Détection & Analyse (Detection & Analysis)
Identifier qu'un incident se produit, puis le caractériser.
- Alerte d'un système de monitoring
- Rapport utilisateur ou client
- Analyse des logs pour comprendre la nature : intrusion, malveillance, dégradation, erreur ?
- Isoler les systèmes affectés sans couper les preuves
3. Confinement (Containment)
Arrêter la propagation. Il y a trois stratégies :
- Stratégie court terme : limiter le dégât immédiatement (isoler une machine infectée)
- Stratégie long terme : corriger la vulnérabilité (patch système, règle firewall)
- Compensation : migrer les charges sur une infrastructure saine
4. Éradication (Eradication)
Supprimer la cause racine :
- Fermer les accès compromis
- Patching des vulnérabilités
- Renforcer les contrôles (MFA, segmentation réseau)
5. Récupération (Recovery)
Restaurer les services dans un état sain :
- Redémarrer les systèmes nettoyés
- Restaurer les données depuis backup validé
- Tester la continuité
- Rétablir progressivement le trafic
6. Retour d'expérience (Lessons Learned)
C'est la phase la plus ignorée — et pourtant la plus critique.
- Post-mortem dans les 48–72h suivant la fin
- Documenter les timeline exactes (MTTD, MTTR)
- Identifier les points faibles : outils manquants ? Communication lente ? Absence de procédure ?
- Plans d'action pour éviter la répétition
Classifier la sévérité (SEV1 à SEV4)
Tous les incidents n'ont pas le même poids. Définir des niveaux de sévérité permet d'allouer les ressources correctement.
| Niveau | Nom | Définition | Réponse | Escalade |
| SEV1 | Critique | Service complètement indisponible, clients impactés massivement | Tous les mains, P1 immédiat | VP/Directeur |
| SEV2 | Majeur | Service dégradé, fonctionnalité clé affectée, impact significatif | Équipe dédiée, réunie en 15 min | Manager technique |
| SEV3 | Mineur | Anomalie isolée, peu de clients impactés, contournement possible | Support standard, investigation dans l'heure | Responsable technique |
| SEV4 | Bas | Cosmétique, demande future, aucun impact opérationnel | Backlog normal | Non escaladé |
Objectifs de réponse typiques :
- SEV1 : Commencer la réaction en < 5 min
- SEV2 : Commencer en < 15 min
- SEV3 : Commencer en < 1h
- SEV4 : Planning normal
Les métriques essentielles
Pour améliorer votre réponse, vous devez mesurer. Trois métriques dominent :
MTTD — Mean Time To Detect
Combien de temps avant d'identifier qu'un incident se produit ?
- Industrie (2023, IBM) : 197 jours en moyenne (pour une brèche de sécurité)
- Meilleure classe : < 7 jours
- Comment améliorer : SIEM proactif, alertes temps réel, threat intelligence, tests d'intrusion réguliers
MTTA — Mean Time To Acknowledge
Combien de temps avant qu'une équipe commence à travailler sur l'incident une fois détecté ?
- Objectif : < 15 min (surtout pour SEV1/2)
- Facteurs : notification fiable, escalade automatisée, on-call clair
- Outil clé : système d'alerting (PagerDuty, Opsgenie)
MTTR — Mean Time To Resolve
Combien de temps pour revenir à l'état nominal ?
- Industrie (2023) : 73 jours en moyenne (brèche de sécurité)
- Objectif : SEV1 < 2h, SEV2 < 4h, SEV3 < 24h
- Facteurs : playbooks détaillés, runbooks validés, équipes cross-fonctionnelles coordonnées, isolation rapide
Benchmark coût : Le coût moyen d'une brèche de sécurité est $4,45M (IBM 2023). Chaque jour de MTTR prolongé augmente ce coût exponentiellement.
Outils d'incident management
Quatre outils dominent l'industrie. Aucun n'est une solution complète — vous combinez souvent SIEM + alerting + on-call + postmortem.
| Outil | Force | Faiblesse | Coût |
| PagerDuty | Gold standard, escalade fluide, intégrations massives, incidents timeline | Cher, courbe apprentissage | Entreprise |
| Opsgenie (Atlassian) | Bon marché, alerting fiable, intègre Jira, webhook simple | Moins de features avancées | Startup |
| Grafana OnCall | Open-source, intégré à Prometheus/Grafana, très léger | Moins mature, équipe réduite | Gratuit + hosting |
| incident.io | Postmortem automatisé, timeline collaborative, blameless | Jeune, moins d'intégrations | Scale-up |
Notre recommandation : Commencer avec Grafana OnCall (gratuit, intégration Prometheus/AlertManager), migrer vers Opsgenie à 50+ incidents/mois, PagerDuty au-delà de 200+.
Construire votre playbook
Un playbook incident est un document (ou plusieurs) qui décrit exactement quoi faire, par qui, dans quel ordre.
Structure minimale d'un playbook par type
[Service: Database]
- Symptôme : Erreur 503, response time > 5s
- SEV : 2 (majeur)
- Escalade : DBA on-call → Responsable infra
- Étapes :
1. Confirmer via dashboard Grafana (CPU/RAM/Disk)
2. Checker les requêtes slow (MySQL slow log)
3. Si DB lockée : kill sessions non-essentielles
4. Si disk saturé : archiver logs, appliquer quota
5. Si process crush : restart instance, vérifier récurrence
6. Postmortem SEV2 obligatoire
Plan de communication
- Canaux : Slack (#incidents), SMS (SEV1), email (tous)
- Template notification :
[SEV2] Database dégradée — MTTA 15min - Update toutes les 30 min jusqu'à résolution
- Notification de fin : "Résolu — Postmortem demain 14h"
Rôles & responsabilités
- Incident Commander : dirige la chronologie, prend les décisions
- Subject Matter Expert (SME) : expertise technique du service affecté
- Scribe : documente chaque action en temps réel
- Communication : informe clients, sponsor exécutif
- SRE on-call : surveillance en temps réel, exécution des steps
Perspectives complémentaires
Cet article se concentre sur la réaction. Pour une défense complète, consultez aussi :
- Wazuh pour la détection menace — SIEM open-source, excellent pour MTTD
- Suricata : IDS/IPS pour filtrer les attaques — capture des patterns malveillants
- Prometheus + Grafana + AlertManager — observabilité complète, fondation des alertes fiables
Chez SHPV, nous accompagnons les organisations à travers l'infogérance : notre GTI standard 2h assure un incident management proactif 24/7. Nous documentons les playbooks avec vous, testons les failover, mettons en place les escalades — parce que la préparation est la moitié du succès.
Sources
- NIST SP 800-61 Rev. 2 : Computer Security Incident Handling Guide
- IBM Cost of a Data Breach Report 2023 : Analyse des MTTD, MTTR, coûts moyens
- PagerDuty Incident Response Report : Benchmarks industrie sur SEV & MTTR
- Grafana Alerting docs : AlertManager best practices
Conclusion
Un plan de réponse aux incidents n'est pas une assurance — c'est une obligation. Les données montrent que 197 jours d'aveuglement avant détection, c'est inacceptable. Une organisation moderne construit :
- Infrastructure observable : logs centralisés, métriques temps réel, alertes fiables
- Équipe formée : chacun connaît son rôle, les playbooks sont testés trimestriellement
- Outils automatisés : on-call rotatif, escalade transparente, postmortem blameless
- Culture d'amélioration : chaque incident est une opportunité d'apprendre
Avec NIST SP 800-61 comme fondation, vous avez une roadmap. Commencez par documenter vos 5 incidents les plus probables. Testez-les en jeu de rôle. Mesurez vos métriques. Améliorez chaque trimestre.
Quand l'incident arrive — et il arrivera — vous serez prêt.


