Un incident arrivera. Pas « si », mais « quand ». Une compromission, une panne, une dégradation de service. La question n'est donc pas si vous serez confronté à une crise, mais êtes-vous prêt à réagir efficacement ?
Sans plan de réponse structuré, une organisation perd des jours (voire des semaines) avant même d'identifier le problème. Avec les bonnes pratiques, les outils et une méthodologie éprouvée, vous réduisez drastiquement l'impact : détection plus rapide, résolution plus courte, dégâts minimisés.
Cet article vous guide à travers la construction d'un plan de réponse aux incidents solide, basé sur le cadre NIST SP 800-61 (standard industriel), les métriques clés pour mesurer votre performance, et les outils qui automatisent votre réaction.
Plan de l'article
- Les 6 phases NIST SP 800-61
- Classifier la sévérité (SEV1 à SEV4)
- Les métriques essentielles (MTTA, MTTD, MTTR)
- Outils d'incident management
- Construire votre playbook
- Perspectives complémentaires
- Sources et conclusion
Les 6 phases NIST SP 800-61
Le guide NIST SP 800-61 Rev. 2 (Computer Security Incident Handling Guide) définit une approche cyclique en 6 phases. Cette structure a été adoptée par des milliers d'organisations, elle fonctionne.
1. Préparation (Preparation)
Avant que tout incident ne survienne, équipez votre infrastructure et votre équipe :
- Outils de monitoring : collecte de logs centralisée (SIEM), alertes temps réel
- Procédures documentées : playbooks, contacts d'escalade, plan de communication
- Formation : tous les rôles (DevOps, Sec, Support) doivent connaître leur rôle
- Redondance : systèmes critiques répliqués, backup testé, failover automatisé
2. Détection & Analyse (Detection & Analysis)
Identifier qu'un incident se produit, puis le caractériser.
- Alerte d'un système de monitoring
- Rapport utilisateur ou client
- Analyse des logs pour comprendre la nature : intrusion, malveillance, dégradation, erreur ?
- Isoler les systèmes affectés sans couper les preuves
3. Confinement (Containment)
Arrêter la propagation. Il y a trois stratégies :
- Stratégie court terme : limiter le dégât immédiatement (isoler une machine infectée)
- Stratégie long terme : corriger la vulnérabilité (patch système, règle firewall)
- Compensation : migrer les charges sur une infrastructure saine
4. Éradication (Eradication)
Supprimer la cause racine :
- Fermer les accès compromis
- Patching des vulnérabilités
- Renforcer les contrôles (MFA, segmentation réseau)
5. Récupération (Recovery)
Restaurer les services dans un état sain :
- Redémarrer les systèmes nettoyés
- Restaurer les données depuis backup validé
- Tester la continuité
- Rétablir progressivement le trafic
6. Retour d'expérience (Lessons Learned)
C'est la phase la plus ignorée, et pourtant la plus critique.
- Post-mortem dans les 48–72h suivant la fin
- Documenter les timeline exactes (MTTD, MTTR)
- Identifier les points faibles : outils manquants ? Communication lente ? Absence de procédure ?
- Plans d'action pour éviter la répétition
Classifier la sévérité (SEV1 à SEV4)
Tous les incidents n'ont pas le même poids. Définir des niveaux de sévérité permet d'allouer les ressources correctement.
| Niveau | Nom | Définition | Réponse | Escalade |
| SEV1 | Critique | Service complètement indisponible, clients impactés massivement | Tous les mains, P1 immédiat | VP/Directeur |
| SEV2 | Majeur | Service dégradé, fonctionnalité clé affectée, impact significatif | Équipe dédiée, réunie en 15 min | Manager technique |
| SEV3 | Mineur | Anomalie isolée, peu de clients impactés, contournement possible | Support standard, investigation dans l'heure | Responsable technique |
| SEV4 | Bas | Cosmétique, demande future, aucun impact opérationnel | Backlog normal | Non escaladé |
Objectifs de réponse typiques :
- SEV1 : Commencer la réaction en < 5 min
- SEV2 : Commencer en < 15 min
- SEV3 : Commencer en < 1h
- SEV4 : Planning normal
Les métriques essentielles
Pour améliorer votre réponse, vous devez mesurer. Trois métriques dominent :
MTTD, Mean Time To Detect
Combien de temps avant d'identifier qu'un incident se produit ?
- Industrie (2023, IBM) : 197 jours en moyenne (pour une brèche de sécurité)
- Meilleure classe : < 7 jours
- Comment améliorer : SIEM proactif, alertes temps réel, threat intelligence, tests d'intrusion réguliers
MTTA, Mean Time To Acknowledge
Combien de temps avant qu'une équipe commence à travailler sur l'incident une fois détecté ?
- Objectif : < 15 min (surtout pour SEV1/2)
- Facteurs : notification fiable, escalade automatisée, on-call clair
- Outil clé : système d'alerting (PagerDuty, Opsgenie)
MTTR, Mean Time To Resolve
Combien de temps pour revenir à l'état nominal ?
- Industrie (2023) : 73 jours en moyenne (brèche de sécurité)
- Objectif : SEV1 < 2h, SEV2 < 4h, SEV3 < 24h
- Facteurs : playbooks détaillés, runbooks validés, équipes cross-fonctionnelles coordonnées, isolation rapide
Benchmark coût : Le coût moyen d'une brèche de sécurité est $4,45M (IBM 2023). Chaque jour de MTTR prolongé augmente ce coût exponentiellement.
Outils d'incident management
Quatre outils dominent l'industrie. Aucun n'est une solution complète, vous combinez souvent SIEM + alerting + on-call + postmortem.
| Outil | Force | Faiblesse | Coût |
| PagerDuty | Gold standard, escalade fluide, intégrations massives, incidents timeline | Cher, courbe apprentissage | Entreprise |
| Opsgenie (Atlassian) | Bon marché, alerting fiable, intègre Jira, webhook simple | Moins de features avancées | Startup |
| Grafana OnCall | Open-source, intégré à Prometheus/Grafana, très léger | Moins mature, équipe réduite | Gratuit + hosting |
| incident.io | Postmortem automatisé, timeline collaborative, blameless | Jeune, moins d'intégrations | Scale-up |
Notre recommandation : Commencer avec Grafana OnCall (gratuit, intégration Prometheus/AlertManager), migrer vers Opsgenie à 50+ incidents/mois, PagerDuty au-delà de 200+.
Construire votre playbook
Un playbook incident est un document (ou plusieurs) qui décrit exactement quoi faire, par qui, dans quel ordre.
Structure minimale d'un playbook par type
[Service: Database]
- Symptôme : Erreur 503, response time > 5s
- SEV : 2 (majeur)
- Escalade : DBA on-call → Responsable infra
- Étapes :
1. Confirmer via dashboard Grafana (CPU/RAM/Disk)
2. Checker les requêtes slow (MySQL slow log)
3. Si DB lockée : kill sessions non-essentielles
4. Si disk saturé : archiver logs, appliquer quota
5. Si process crush : restart instance, vérifier récurrence
6. Postmortem SEV2 obligatoire
Plan de communication
- Canaux : Slack (#incidents), SMS (SEV1), email (tous)
- Template notification :
[SEV2] Database dégradée, MTTA 15min - Update toutes les 30 min jusqu'à résolution
- Notification de fin : "Résolu, Postmortem demain 14h"
Rôles & responsabilités
- Incident Commander : dirige la chronologie, prend les décisions
- Subject Matter Expert (SME) : expertise technique du service affecté
- Scribe : documente chaque action en temps réel
- Communication : informe clients, sponsor exécutif
- SRE on-call : surveillance en temps réel, exécution des steps
Perspectives complémentaires
Cet article se concentre sur la réaction. Pour une défense complète, consultez aussi :
- Wazuh pour la détection menace, SIEM open-source, excellent pour MTTD
- Suricata : IDS/IPS pour filtrer les attaques, capture des patterns malveillants
- Prometheus + Grafana + AlertManager, observabilité complète, fondation des alertes fiables
Chez SHPV, nous accompagnons les organisations à travers l'infogérance : notre GTI standard 2h assure un incident management proactif 24/7. Nous documentons les playbooks avec vous, testons les failover, mettons en place les escalades, parce que la préparation est la moitié du succès.
Sources
- NIST SP 800-61 Rev. 2 : Computer Security Incident Handling Guide
- IBM Cost of a Data Breach Report 2023 : Analyse des MTTD, MTTR, coûts moyens
- PagerDuty Incident Response Report : Benchmarks industrie sur SEV & MTTR
- Grafana Alerting docs : AlertManager best practices
Conclusion
Un plan de réponse aux incidents n'est pas une assurance, c'est une obligation. Les données montrent que 197 jours d'aveuglement avant détection, c'est inacceptable. Une organisation moderne construit :
- Infrastructure observable : logs centralisés, métriques temps réel, alertes fiables
- Équipe formée : chacun connaît son rôle, les playbooks sont testés trimestriellement
- Outils automatisés : on-call rotatif, escalade transparente, postmortem blameless
- Culture d'amélioration : chaque incident est une opportunité d'apprendre
Avec NIST SP 800-61 comme fondation, vous avez une roadmap. Commencez par documenter vos 5 incidents les plus probables. Testez-les en jeu de rôle. Mesurez vos métriques. Améliorez chaque trimestre.
Quand l'incident arrive (et il arrivera) vous serez prêt.


