Incident Management

Schnelle Wiederherstellung des Normalbetriebs nach Stoerungen.

Allgemeine Infos

Incident Management zielt darauf ab, die Auswirkung von Störungen schnellstmöglich zu minimieren und den normalen Servicebetrieb wiederherzustellen. Das Ziel ist ausdrücklich nicht die Ursachenbeseitigung, sondern die schnellste verfügbare Lösung: Ein Workaround, der den Dienst wiederherstellt, ist ein gültiger Incident-Abschluss. Die Ursachenanalyse ist Aufgabe des Problem Managements.

Der Incident-Prozess folgt einer definierten Abfolge:

  • Erkennung und Erfassung: Incident wird gemeldet (Benutzer, Monitoring, Helpdesk) und im ITSM-Tool als Ticket erfasst. Automatische Erkennung über Monitoring-Systeme (Zabbix, PRTG, Azure Monitor, Nagios) verkürzt die Zeit bis zur Erfassung erheblich.
  • Kategorisierung: Zuordnung zu Dienst, Komponente und Fehlertyp. Saubere Kategorisierung ist Voraussetzung für spätere Trendanalysen im Problem Management.
  • Priorisierung: Kombination aus Auswirkung (Impact: wie viele Nutzer/Systeme betroffen) und Dringlichkeit (Urgency: wie zeitkritisch ist die Wiederherstellung). Ergibt die Priorität und damit die SLA-Reaktionszeit.
  • Diagnose und Lösung: First Level versucht Lösung mit bekannten Workarounds aus der Knowledge Base. Eskalation an Second oder Third Level, wenn First Level keine Lösung findet. Lösungsschritte werden im Ticket dokumentiert.
  • Abschluss: Bestätigung durch den Melder oder automatischer Abschluss nach definierter Wartezeit. Abschlusskategorie und Lösungsbeschreibung werden für die Knowledge Base genutzt.

Major Incidents (P1/kritisch) folgen einem beschleunigten Parallelprozess: Sofortige Eskalation an einen Major-Incident-Manager, dedizierter Kommunikationskanal (Bridge Call, Teams-Kanal), regelmäßige Statuskommunikation an betroffene Stakeholder in festen Intervallen (z.B. alle 30 Minuten) und Post-Incident-Review nach Abschluss. Ohne diesen Paralleltrack verzögern Kommunikationslücken die Wiederherstellung mehr als die technische Diagnose.

Ein strukturelles Problem in der Praxis: Incidents und Problems werden vermischt. Ein wiederholt auftretender Incident (Drucker offline jeden Montag, VPN-Abbrüche bei bestimmten Clients) ist kein neuer Incident, sondern ein bekanntes Problem mit einem Known Error. Das Incident-Management sollte solche Muster aktiv an das Problem Management übergeben statt denselben Incident wöchentlich neu zu bearbeiten. Das setzt voraus, dass die Kategorisierung konsistent genug ist, um Muster überhaupt sichtbar zu machen.

Kurzbeschreibung

Schnelle Wiederherstellung des Normalbetriebs nach Störungen durch strukturierten Prozess von Erkennung bis Abschluss. Ursachenbeseitigung ist Aufgabe des Problem Managements, nicht des Incident Managements.

Weiterführende Links