IT‑Notfallplan 2025 – Der komplette Praxis‑Guide in 5 + 1 Schritten

cyber security

Cyber‑Risiken, ESG‑Audits und strengere Lieferkettenanforderungen steigern den Druck auf Unternehmen, ihre Betriebsfähigkeit auch unter Extrembedingungen aufrechtzuerhalten. Ein IT‑Notfallplan sorgt dafür, dass Ausfälle nicht zur Existenzfrage werden. Dieser Guide führt dich Schritt für Schritt – orientiert an BSI‑Standard 200‑4 und ISO 22301 – durch Konzeption, Aufbau und Pflege eines belastbaren Plans. 

Schritt 1: Rahmen & Ziele für den Notfallplan festlegen

Zuerst legst du fest, was der Plan umfasst, warum er existiert und wer verantwortlich ist.

1.1 Scope definieren – Was ist abgedeckt?

ElementWas ist gemeint?Warum ist das wichtig?
SystemeServer, Storage, Datenbanken, Cloud‑SaaS, Produktions‑OTUnterschiedliche Plattformen reagieren verschieden auf Störungen. Nur wenn du alle kennst, kannst du passende Maßnahmen definieren.
StandorteZentrale, Außenstellen, Home‑Office, RechenzentrumDie Auswirkung eines Vorfalls variiert stark je nach Standort. Ein Stromausfall im HQ ist fatal, während ein Home‑Office‑Ausfall oft tolerierbar ist.
DienstleisterHoster, MS 365‑Provider, Telekom, WartungsfirmenAbhängigkeiten zu Drittparteien bestimmen, wie schnell du reagieren kannst. Klare SLAs sichern Wiederanlaufzeiten.

Praxishinweis: Erstelle eine tabellarische Übersicht „Komponente ↔ Betreiber ↔ Standort ↔ SLA“. Dadurch weiß im Ernstfall jeder sofort, wen er anrufen muss und welche Wiederherstellungszeiten vereinbart sind.

1.2 Ziele & Kennzahlen – Wohin wollen wir?

KennzahlBedeutungBeispiel‑ZielwertErläuterung
RTOMax. Zeit, bis ein Prozess wieder funktionsfähig ist≤ 4 h (ERP)RTO richtet sich nach geschäftlicher Kritikalität und gesetzlichen Pflichten (z. B. Lieferfristen, Lohnabrechnung).
RPOMax. Zeitraum, für den Datenverlust akzeptiert wird≤ 15 min (SQL‑DB)Je kleiner der RPO, desto häufiger Backups oder Replikation – ergo höhere Kosten.
MTTRDurchschnittliche Reparatur‑ oder Wiederherstellungszeit≤ 3 h (kritische Systeme)MTTR zeigt Effektivität deines Incident‑Handlings. Hohe MTTR deutet auf Prozesslücken hin.

Diese Kennzahlen dienen später als Maßstab, um Wiederherstellungsmaßnahmen zu bewerten.

1.3 Governance & Rollen – Wer macht was?

RollePrimäre AufgabeStellvertretungDetailbeschreibung
Incident CommanderKoordiniert alle Aktivitäten, trifft Entscheidungen, berichtet an GeschäftsleitungIT‑Leiter Stv.Der IC hat alleinige Weisungsbefugnis während des Vorfalls und beendet offiziell die Krisenlage.
Technical LeadLeitet Fehleranalyse, System­wiederherstellungSenior System‑EngineerPriorisiert Systeme nach RTO, steuert externe Dienstleister, dokumentiert technische Schritte.
Communication LeadInformiert intern & extern, pflegt StatusupdatesMarketing‑ManagerPasst Tonalität an Stakeholder an (Kunden, Presse, Behörden) und stellt Konsistenz sicher.
Documentation LeadProtokolliert Maßnahmen, sammelt Lessons LearnedPMOErstellt nach Abschluss einen Abschlussbericht inkl. Ursachenanalyse und Verbesserungs­empfehlungen.

Praxishinweis: Hinterlege für jede Rolle Notfall‑Kontaktwege (Mobil, Privat‑E‑Mail), falls Unternehmens‑Systeme betroffen sind.


Schritt 2: Risiken systematisch identifizieren

Ein Notfallplan kann nur schützen, wenn er echte Bedrohungen abdeckt. Sammle deshalb breit, bewerte schlank und priorisiere scharf.

2.1 Bedrohungs­katalog – Welche Risiken existieren?

KategorieKonkrete BeispieleWarum relevant?
NaturSturm, Hochwasser, Hitze, BlitzeinschlagNaturereignisse verursachen Stromausfälle oder Hardware‑Schäden, oft mit langer Wieder­beschaffung.
TechnikHW‑Defekt, Stromausfall, fehlgeschlagenes PatchenTechnische Fehler sind häufigster Auslöser für Datenverlust. Präventive Wartung reduziert, aber eliminiert sie nie.
MenschSocial Engineering, Insider‑Sabotage, Fahrlässigkeit80 % aller Sicherheitsvorfälle beinhalten menschliches Versagen. Awareness‑Trainings adressieren nur einen Teil.
ExternRansomware, DDoS, Lieferanten­ausfallCyber‑Angriffe und Abhängigkeiten auf externe Services können Betriebsfähigkeit plötzlich beenden.

Vorgehen: Führe Workshops („Brain‑Dump“ + Voting) mit Fachabteilungen durch, um realistische Szenarien zu sammeln. Ergänze Branchen‑Reports für Vollständigkeit.

2.2 Risiko­bewertung – Wie kritisch sind sie?

Nutze eine 3 × 3‑Matrix (Eintrittswahrscheinlichkeit vs. Auswirkung). Beispiel:

RisikoEintrittAuswirkungRisikostufeErstmaßnahme
Ransomware Finanz‑DBHochHochRotMehrstufiges Backup, Immutable Storage, MFA
Stromausfall RechenzentrumMittelHochRotUSV, Diesel‑Generator, Redundante Netzpfade
Defektes NotebookHochGeringGelbGeräte‑MDM, Ersatzpool, tägliche Cloud‑Sync

Interpretation: „Rot“ bedeutet sofortige Gegenmaßnahmen planen; „Gelb“ beobachten; „Grün“ akzeptieren oder minimal überwachen.

2.3 Praxis‑Fall – Warum lohnt sich das?

2024 traf ein LockBit‑Angriff einen mittelständischen Zulieferer (350 MA). Dank konsequenter Risikoanalyse waren immutables Backup und Offline‑Kopien vorhanden. Die Produktivsysteme liefen nach 6 h wieder. Ohne Vorbereitung hätten 5 Tage Produktionsstillstand und > 200 k € Schaden gedroht. Das zeigt: Analyse spart im Ernstfall massiv Geld.


Schritt 3: Business Impact Analysis (BIA) durchführen

Die BIA ermittelt, welche Geschäftsprozesse wie schnell wiederhergestellt werden müssen und welche Ressourcen dafür nötig sind.

3.1 Prozesskritikalität – Welche Prozesse sind essentiell?

ProzessEigentümerKritikalitätAkzept. AusfallzeitBegründung
Auftrag‑zu‑CashCFOHoch4 hUmsatzrelevant – Ohne Faktura kein Cash‑Flow, Mahngebühren möglich.
EinkaufCPOMittel8 hLieferkette stockt nach 1 Tag, kurzfristige Puffer vorhanden.
HR‑PayrollHR‑LeadNiedrig72 hGesetzliche Frist Ende Monat, kurze Verzögerung tolerierbar.

3.2 RTO & RPO plus Ressourcen – Was braucht es zur Wieder­herstellung?

ProzessRTORPOIT‑SystemePersonalExtern
ERP4 h15 minVM‑Cluster, SQL‑DB, Backup‑Appliance2 AdminsHosting‑SLA 4 h
CAD6 h30 minNAS‑Storage, Lizenz‑Server1 Engineer

Analyse: Prüfe, ob vorhandene Systeme (Backup‑Fenster, Bandbreite, Personalverfügbarkeit) diese Ziele realistisch erfüllen. Ansonsten anpassen oder Budget einfordern.


Schritt 4: Notfallorganisation & Maßnahmen planen

Nun folgt die konkrete Umsetzung: Kommunikation, Technik und Organisation.

4.1 Kommunikationsplan – Wer informiert wen?

  1. Alarmierung auslösen: Automatisierte Systeme (PagerDuty) oder manuelle Hotline starten bei Schwellenwert überschritten.
  2. Krisenstab einberufen: Incident Commander initiiert Konferenz (Vorwahl, Reserve‑Bridge, persönlich – falls Netzwerk weg).
  3. Erstmeldung verfassen: Sachlich, drei Sätze – Was passiert? Welche Systeme? Welche nächsten Schritte?; intern & extern angepasst.
  4. Update‑Takt setzen: z. B. alle 60 min, um Spekulation zu vermeiden. Abstände verlängern, sobald Stabilität eintritt.

4.2 Technische Maßnahmen – Wie sichern wir Systeme?

  • Backup‑Strategie 3‑2‑1‑0: Drei Kopien, zwei Medientypen, eine Off‑Site‑Kopie, Null Fehler nach Restore‑Verify.
  • Hochverfügbarkeit (HA): Cluster, Load Balancer, Failover‑Site. Entscheide zwischen Hot‑, Warm‑ und Cold‑Standby je nach RTO.
  • Immutable Storage & MFA: Schreibgeschützte Snapshots, Zeit‑Locking; Multi‑Factor‑Auth für Backup‑Admin‑Konten.
  • Netzsegmentierung: Kritische Systeme isolieren, um laterale Bewegung bei Malware zu verhindern.

4.3 Organisatorische Maßnahmen – Wie sichern wir Menschen & Prozesse?

MaßnahmeBeschreibungWarum notwendig?
VertretungsplanJe Rolle min. 1 Ersatz, Schulung nachweisbarKrankheit oder Urlaub darf die Reaktionsfähigkeit nicht einschränken.
Workaround‑ManualPapier‑ oder Offline‑Formulare für KernprozesseBei IT‑Totalausfall muss zumindest minimaler Betrieb weiterlaufen (Wareneingang, Lieferschein).
Lieferanten‑SLAGarantierte Vor‑Ort‑Reaktion binnen 4 hExterne Hardware‑Reparatur entscheidet mit über RTO‑Einhaltung.
KrisenraumPhysischer Raum mit Notfall‑Equipment (Strom, LTE, Whiteboard)Falls Videokonferenz scheitert, ermöglicht zentralen Austausch.

4.4 Dokumentation & Versions­management – Wie bleibt der Plan aktuell?

  • Notfallhandbuch: Digitale + gedruckte Version. Gedruckt in feuersicherem Schrank – Netz‑Totalausfall ist eingeplant.
  • Versionskontrolle: Änderungsdienst (Ticket‑System) mit Freigabe‑Workflow. Jede Änderung erhält Versionsnummer und Freigabedatum.
  • Lesebestätigung: Kritische Rollen bestätigen Kenntnisnahme per Klick oder Unterschrift – oft Audit‑Pflicht.

Schritt 5: Plan testen, schulen & aktualisieren

Ein Plan ist nur so gut wie sein letzter Test.

TestartZielUmfangTurnusDetailhinweis
Table‑TopAbläufe & Rollen trainierenSkript‑basiert, Whiteboard‑SimulationHalb­jährlichIdeal für neue Mitarbeitende oder geänderte Prozesse.
Live‑FailoverTechnik & RTO verifizierenUmschalten auf Replica‑SiteJährlichNur außerhalb Peak‑Zeiten; unbedingt Rückschaltplan vorhalten.
Backup‑RestoreDaten‑Integrität sichernZufalls‑Stichprobe + Komplett‑RestoreQuartalPrüfe Hash‑Werte, öffne Stichdateien – nicht nur „Restore OK“ melden.
Alarm‑DrillKommunikationswege testenSMS, Push, SireneQuartalDokumentiere Zustellquoten; aktualisiere falsche Kontakte sofort.

5.1 Lessons Learned – Wie verbessern wir uns?

  • Für jede Übung: Was lief gut? Was lief schlecht? – in maximal 24 h dokumentieren.
  • Kategorisiere Findings nach Kritikalität (RAG‑Logik) und weise Owners + Fälligkeitsdatum zu.
  • Prüfe Erledigung spätestens im nächsten Drill; offen / überfällige Tasks verschärfen Audit‑Risiko.

5.2 Regelmäßiges Review – Wann ist Update nötig?

  • Mindestens jährlich oder nach signifikanten Änderungen (neues ERP, Standort, Outsourcing).
  • Geschäftsführung bestätigt offiziell die Plan‑Version (Release‑Note), um Compliance nachzuweisen.

Bonus: Übungen, Audits & Lessons Learned

Kontinuierliche Verbesserung verankert Resilienz in der Unternehmenskultur.

  1. RAG‑Matrix: Führe eine Ampelliste aller Findings. Rot = sofortiger Handlungsbedarf, Gelb = terminiert, Grün = abgeschlossen.
  2. Audit‑Trail: Interne Revision oder Externe (z. B. ISO‑Auditor) prüfen Plan & Tests. Halte Dokumente revisionssicher vor.
  3. KVP‑Board: Offene Aufgaben in digitalem Board (z. B. Jira). Fortschritt sichtbar, Verantwortliche klar.
  4. Retrospektive: Nach jedem Ernstfall 30‑min Online‑Retro (Miro). Fokus: Ursachen, Lösungen, Sofort‑ und Langfrist‑Maßnahmen.

FAQ & Glossar

Häufig gestellte Fragen

Braucht jedes Unternehmen einen IT‑Notfallplan?
Ja – spätestens ab 50 Mitarbeitenden oder sobald digitale Prozesse geschäftskritisch sind. Versicherungen und Compliance‑Anforderungen verlangen Nachweise.

Gilt der BSI‑Standard 200‑4 nur für Behörden?
Nein. Er ist universell. KMU starten meist mit Level 1 (Grundschutz) und entwickeln sich bei Bedarf höher.

Wie hoch ist der typische Aufwand?
Rechne mit 40–60 Personentagen für Initialaufbau (inkl. Workshops & Tests) plus 5 % deines jährlichen IT‑Budgets für laufende Pflege.

Nach oben scrollen