Was ist Incident Management?
Gemäß ITIL (Information Technology Infrastructure Library) befasst sich das Incident Management mit jeder „ungeplanten Störung eines IT-Service oder der Minderung der Qualität eines IT-Service“. Ziel des Incident Managements ist es, den Normalbetrieb von IT-Services so schnell wie möglich wiederherzustellen, um finanzielle Einbußen und Serviceausfälle zu minimieren und damit die Kundenzufriedenheit sicherzustellen.
Incident Management bzw. IT-Störungsmanagement ist also ein Prozess innerhalb des IT Service Managements (ITSM), der sich auf die schnelle Identifizierung, Priorisierung, Untersuchung und Behebung von Vorfällen konzentriert, die den normalen IT-Betrieb beeinträchtigen. Das Tool hilft dabei, die betroffenen Systeme und Komponenten schnell zu identifizieren und den Umfang der Störung zu verstehen.
Störungen bzw. Incidents können dabei durch menschliches oder technisches Versagen, Sicherheitsverstöße oder verschiedene andere Ereignisse entstehen. Im Incident Management Prozess identifiziert der IT-Support Vorfälle und priorisiert sie entsprechend, um eine schnelle Lösung bereitzustellen.
Auf einer höheren Ebene ist das Incident Management eine wichtige Komponente des IT Service Managements und zielt darauf ab, das IT-Service-Niveau aufrechtzuerhalten und die IT-Service-Verfügbarkeit für das Unternehmen sicherzustellen. Es ist entscheidend für die Gewährleistung von Service-Level-Agreements (SLAs) und damit auch für die Zufriedenheit der Kunden und Benutzer.
Zusammenfassend ist das Incident Management ein wichtiger Prozess innerhalb des ITSM nach ITIL, der sich auf die schnelle Identifizierung und Behebung von Vorfällen konzentriert, um den normalen IT-Betrieb so schnell wie möglich wiederherzustellen und den Schaden für das Unternehmen zu minimieren.
Gut zu wissen: IT Incident Management kann im engeren Sinne also sowohl organisatorische als auch rechtliche und technische Detailfragen berücksichtigen.
Was ist ein IT-Incident? Definition nach ITIL
Doch was genau sind Incidents? Laut ITIL ist ein „Incident“ (im Deutschen in der Regel als „Vorfall“ bzw. „IT-Vorfall“ bezeichnet) „eine nicht geplante Unterbrechung eines Service oder eine Qualitätsminderung eines Service.“
Nach dieser Beschreibung kann man den Begriff „Incident“ sehr weit fassen – von einer Verschlechterung der Netzwerkqualität über mangelnden Speicherplatz bis hin zu einem Cyberangriff, der die gesamte IT-Sicherheit bedroht. Die Erkennung von solchen sicherheitsrelevanten Vorfällen und die Reaktion darauf wird als Security Incident Management bzw. Incident Response Management bezeichnet. Auf diesen speziellen Fall gehen wir weiter unten unter “Der Incident Response Lebenszyklus” noch genauer ein.
Incidents können viele negative Auswirkungen auf den alltäglichen Betrieb haben. Sie sorgen für längere Ausfallzeiten und können auch einen erheblichen Datenverlust mit sich ziehen. Es ist daher unerlässlich, sich um ein gutes Incident Management zu kümmern, denn Störungen und Ausfälle innerhalb der IT sind leider unvermeidbar. Wie man damit umgeht, ist jedoch planbar.
Arten von Incidents, die in Unternehmen auftreten können
Typische Incidents können eine Vielzahl von Fehlern umfassen, wie beispielsweise Probleme mit der Netzwerkverbindung, Hardware-Ausfälle, Anwendungsabweichungen, Ausfälle von Systemen, Software-Fehlern oder Sicherheitsverletzungen etc.
Unternehmen, die in regulierten Branchen wie dem Gesundheitswesen oder der Finanzdienstleistungsbranche tätig sind, müssen möglicherweise Compliance-Anforderungen (zum Beispiel NIS2) erfüllen, wenn sie mit Incident Management umgehen.
Im Service-Management-Bereich wiederum ist es wichtig, dass Incident Management Prozesse klar definiert und gut dokumentiert sind, um sicherzustellen, dass Service-Levels eingehalten werden und Kunden zufrieden sind.
Es gibt aber auch Vorfälle, die nicht auf IT-technische Geräte oder Software zurückzuführen sind. Zum Beispiel können Probleme mit Zugangssystemen oder Berechtigungen Vorfälle auslösen. Auch gestörte Prozessabläufe können zu Incidents führen, die nicht nur technische Geräte betreffen, sondern auch Probleme mit Zuständigkeiten oder organisatorischen Regeln beschreiben.
Dadurch wird die Definition von Incidents erweitert und bezieht Unternehmensabläufe mit ein. Dies steht im Zusammenhang mit Veränderungsprozessen im Unternehmen, die durch sogenannte Changes unterstützt werden.
Einige mögliche spezifische Themen, die im Zusammenhang mit Incident Management in verschiedenen Branchen oder Fachgebieten behandelt werden können, sind:
Je nach den Herausforderungen, die eine Organisation in ihrem spezifischen Bereich hat, können bestimmte Incident Management Aspekte wichtiger sein als andere, und es ist wichtig, sich auf die Themen zu konzentrieren, die für die eigenen Bedürfnisse relevant sind.
Was ist der Unterschied zwischen Problem und Incident Management?
Beim Problem Management handelt es sich um den Prozess der Identifizierung und Beseitigung von zugrunde liegenden Ursachen, um wiederkehrende Probleme zu vermeiden. Das Ziel des Incident Managements ist hingegen eine schnelle Wiederherstellung des normalen Betriebs. Ein Problem ist daher die Ursache für eine oder mehrere Störungen.
Die Bedeutung von Incident Management
Die Bedeutung von Incident Management für Unternehmen ist enorm. IT-Systemausfälle können langwierig sein und Unternehmen in vielen Hinsichten schaden – nicht nur finanziell. Neben dem möglichen Umsatzverlust und einer schlechteren Kundenbeziehung hat ein IT-Ausfall auch Auswirkungen auf die Produktivität, Arbeitseffizienz und die Zufriedenheit der Mitarbeitenden.
Kurz gesagt, bietet ein intelligentes Incident Management diese Vorteile:
Was macht Incident Management so effizient?
Incidents werden mit Hilfe von Tickets dokumentiert. Für die Entgegennahme und Überwachung der Tickets ist ein Service Desk zuständig. Die Aufgaben eines Service-Desk-Teams beinhalten demnach sowohl die schnelle und zielorientierte Entgegennahme von Serviceanfragen als auch die Qualifizierung von Anfragen, die Störungen, Probleme, Tickets und Incidents umfassen können.
Diese strukturierte Vorgehensweise erleichtert es dem IT-Personal, schnell auf auftretende Probleme zu reagieren und effizient Lösungen bereitzustellen, was wiederum zu einem reibungsloseren Betrieb und gesteigerter Kundenzufriedenheit führt. Durch die systematische Erfassung und Bearbeitung von Incidents sorgt das Incident Management somit für eine effiziente Problembehandlung im IT-Bereich.
Gute Incident Management Tools, wie jenes von REALTECH bieten dafür oft eine Reihe von Funktionen, um repetitive Aufgaben zu automatisieren und den Prozess so zu beschleunigen. Durch Automatisierung haben Sie auch die Möglichkeit, Ihre Prozesse zu standardisieren. Das ermöglicht, die Einhaltung von Richtlinien und Verfahren, was wiederum zur Erfüllung von Compliance-Anforderungen beitragen kann.
Unser Incident Management Tool können Sie auch zur Analyse von Trends und Mustern verwenden, um potenzielle Störungen frühzeitig zu erkennen und proaktiv zu behandeln. Durch die Analyse von Incident-Daten können Sie Muster erkennen, die auf wiederkehrende Probleme hinweisen, wodurch zukünftige Störungen vermieden bzw. minimiert werden können.
REALTECH Incident Management wird sogar von Endanwendern gerne genutzt. Das Tool bietet einfaches Ticketing in vertrauten Umgebungen wie MS Teams und SAP. Durch diese Integrationen können Nutzer Tickets schnell und einfach erstellen, ohne das eigentliche Service-Desk-Portal aufzurufen.
Die Rolle von KI im Incident Management
Die zunehmende Verbreitung künstlicher Intelligenz (KI) hat die Effizienz verschiedener Geschäftsprozesse revolutioniert, einschließlich des Incident Managements. KI-Technologien spielen eine entscheidende Rolle bei der Lösung von Incidents, indem sie automatisierte Lösungen für die effektive Bearbeitung von Tickets bereitstellen.
Künstliche Intelligenz automatisiert die Kategorisierung und Zuweisung von Tickets, indem sie Natural Language Processing (NLP) und Machine Learning (ML) nutzt, um eingehende Anfragen zu verstehen und zu handeln. Durch die Analyse von Inhalten identifiziert sie relevante Schlüsselwörter, Muster und Kontexte, um Tickets effektiv zu kategorisieren, zu priorisieren und sie den richtigen Supportern zuzuweisen.
KI-basierte Systeme unterstützen die Incident-Lösung weiterhin, indem sie kontextbezogene Informationen bereitstellen und automatisierte Lösungsvorschläge liefern. Sie greifen auf Wissensdatenbanken zu, um bewährte Lösungen zu finden, und bieten passende Knowledge-Artikel an. Das beschleunigt den Lösungsprozess und verbessert letztendlich die Servicequalität sowie Anwenderzufriedenheit.
Der Incident Response Lebenszyklus
Sicherheits-Incidents erfordern ein rasches Eingreifen, bei dem Bedrohungen oder Ereignisse in Echtzeit erkannt, analysiert und behoben werden. Hierbei setzen Unternehmen spezifische Methoden und Werkzeuge ein, die aus einer Kombination von IT-Automatisierung und menschlicher Expertise bestehen. Ziel ist es, Schäden so gering wie möglich zu halten und eventuelle Vorfälle zu verhindern.
Vor allem Betreiber von Kritischen Infrastrukturen (KRITIS) müssen nachweisen, dass die Maßnahmen zur Informationssicherheit den gesetzlichen Anforderungen an das Risikomanagement genügen:
- Alle Vorfälle müssen lückenlos dokumentiert werden.
- Lösungsszenarien für Sicherheitsvorfälle müssen vordefiniert und schnell abrufbar sein.
- Verantwortlichkeiten müssen geklärt und Abläufe (Workflows) müssen eingehalten werden.
Was ist ein Security Incident und wie wird er ausgelöst und behoben?
Bei der Security Incident Response handelt es sich um einen ähnlichen Prozess wie beim Incident Management, der jedoch speziell auf Security Incidents angewendet wird. Ein Security Incident oder Sicherheitsvorfall kann vielseitiger Natur sein – es kann sich z.B. um eine aktive Bedrohung oder um einen Verstoß gegen Datenschutzrichtlinien handeln. Diese Vorfälle können sowohl innerhalb als auch außerhalb eines Unternehmens stattfinden.
Die Incident Response ist in Folge der Prozess, bei dem auf IT-Bedrohungen wie Cyberangriffe, Sicherheitsverletzungen und Serverausfälle reagiert wird. Da diese die Sicherheit bedrohenden Incidents mit schweren Folgen einhergehen, die nicht unbedingt nur finanzieller Natur sein müssen, gilt es hierbei besonders wachsam zu sein. Deshalb hat sich auch ein detailliertes Framework für die Behebung solcher Incidents entwickelt: der Incident Response Lebenszyklus.
In der Theorie haben sich diverse Vorgehensweisen dafür etabliert und eine der bekanntesten ist der Incident Response Lebenszyklus gemäß National Institute of Standards and Technology (NIST). Dieser unterteilt die Incident Response in vier Hauptphasen:
- Vorbereitung
- Erkennung und Analyse
- Eindämmung, Beseitigung und Wiederherstellung
- Aktivitäten nach dem Ereignis
Phase 1: Vorbereitung
Die Vorbereitungsphase umfasst die Maßnahmen, die ein Unternehmen ergreift, um sich auf die Incident Response vorzubereiten. Das sind beispielsweise die Einrichtung der richtigen Tools und die Schulung des Teams. Diese Phase umfasst Tätigkeiten, mit denen Vorfälle verhindert werden sollen.
Phase 2: Erkennen und Analysieren
Die genaue Erkennung und Bewertung von Vorfällen ist laut NIST für viele Unternehmen häufig der schwierigste Aspekt der Incident Response. Ein Problem kann im Prinzip in jeder Projektphase auftauchen und interner Natur oder in Bezug auf Zulieferer oder Ihre Kunden sein. Das kann die Priorisierung der Störung beeinflussen, die Sie zu einem späteren Zeitpunkt im Prozess vornehmen. Erfassen Sie bei der Identifikation einer Störung immer die folgenden Informationen:
- Name oder ID-Nummer
- Beschreibung
- Datum
- Incident Manager
Diese Informationen werden Ihnen später als Referenz dienen, vor allem, wenn Sie mit einem Problem Management Plan arbeiten. Außerdem können Sie damit die grundlegende Ursache für die Störung herausfinden (Problem Management) und sicherstellen, dass sie nicht noch einmal eintritt.
Um entsprechend auf eine Störung reagieren zu können, braucht es eine Analyse zur Feststellung der Störung und eine Priorisierung im Workflow. Erst dann kann die Lösungsphase beginnen. Für die meisten Störungen gibt es einen vorgegebenen Lösungsweg.
Wenn dieser aber nicht direkt zur Verfügung steht, kann es notwendig sein, das Problem weiterzuleiten, um es mithilfe der entsprechenden Abteilungsleiter zu beheben. In solch einem Fall können ein kreativer Umgang mit dem Problem und provisorische Lösungen notwendig sein.
Phase 3: Eindämmung, Beseitigung und Wiederherstellung
Sobald Sie die Störung analysiert und die zugrundeliegende Ursache gefunden haben, ist es an der Zeit, die Aufgaben Ihres Reaktionsplans zu delegieren. Das machen Sie, indem Sie Ressourcen zuweisen. Am besten erledigen Sie das in einem Störungsprotokoll oder mithilfe einer Arbeitsmanagement-Software.
Ganz unabhängig davon, wofür Sie sich entscheiden: Alle involvierten und gegebenenfalls relevanten Personen sollten über den Aktionsplan informiert werden. Damit sorgen Sie für eine gute Übersicht, eine offene Kommunikation und damit für ein effizientes Incident Management.
Diese Phase konzentriert sich darauf, die Auswirkungen des Vorfalls so gering wie möglich zu halten und Serviceunterbrechungen abzuschwächen. In dieser Phase müssen Sie auch sicherstellen, dass alle Maßnahmen Ihres Reaktionsplans tatsächlich die gewünschten Ergebnisse zur Folge haben, bevor Sie offene Aufgaben abschließen.
Egal, ob Sie mit einem Ticketsystem, einem Service Desk oder mit Serviceanfragen arbeiten: Es ist beruhigend zu wissen, dass es keine ungelösten To-dos mehr gibt. Sobald alle Aufgaben erledigt sind, können Sie den Reaktionsplan also offiziell und guten Gewissens abschließen und in die Dokumentation des Incidents gehen.
Für Unternehmen, die der sogenannten KRITIS-Einstufung unterliegen, stellen Reaktionspläne, klare Zuständigkeiten und eine umfassende Dokumentation durch ein Ticketsystem wichtige und möglicherweise sogar unverzichtbare Hilfsmittel dar, um erfolgreich eine Auditierung zu durchlaufen.
Phase 4: Aktivitäten nach dem Incident
Einer der wichtigsten Bestandteile der Incident Response, der gern vergessen wird, ist der, dass man daraus lernt und sich verbessert. Die letzte Phase im Incident Management Prozess ist daher die abschließende Dokumentation der Ergebnisse Ihrer Reaktion auf das Problem. Sie sollten alle Informationen, die Sie in den bisherigen Schritten gesammelt haben, in einem gemeinsamen Arbeitsbereich speichern, um in Zukunft einfach darauf zugreifen zu können.
In dieser Phase werden der Vorfall selbst und die Bemühungen bei der Incident Response analysiert. Dabei sollen die Wahrscheinlichkeit für ein erneutes Auftreten des Vorfalls begrenzt und Möglichkeiten zur Verbesserung der zukünftigen Incident-Response-Aktivitäten identifiziert werden.
Insgesamt basiert das Konzept dieser vier Phasen auf einer fundierten Wissensbasis. Die Wirksamkeit von Phase drei hängt dabei stark vom Erfolg der Phasen eins und zwei ab. Wenn das Incident Management optimalen Schutz bieten soll und Sie die Wiederherstellung von IT-Services im Unternehmen gewährleisten wollen, müssen alle vier Phasen erfolgreich implementiert werden.
7 Tipps für effizientes Incident Management
Nachdem Sie wissen, wie Sie bei einem Incident vorgehen, können Sie damit beginnen, ein individuelles Störungsprotokoll zu erstellen, das zu den Anforderungen Ihres Unternehmens passt. Zu den wichtigsten Methoden im Incident Management gehören in jedem Fall eine gut organisierte und übersichtliche Protokollierung, Schulungen für das Team, eine effektive Kommunikation im Team und, wo immer möglich, die Automatisierung von Prozessen.
Der Anfang kann dabei durchaus herausfordernd sein, weshalb wir Ihnen hier 7 Tipps nennen, damit Sie Störungen richtig dokumentieren und entsprechend beheben können.
Fazit: Incident Management ist wichtiger denn je
Mit der wachsenden Komplexität von IT, deren Service-Angeboten, Service-Strukturen und der zunehmenden Zahl sowie Raffinesse von Bedrohungen sind Unternehmen mit einem noch nie dagewesenen Risiko konfrontiert. Mit einem effektiven Incident Management können Sie dieses Risiko mindern, indem Sie Incidents schneller erkennen und beheben.
Während Ausfälle und andere Vorfälle für jedes Unternehmen unvermeidlich sind, ist Incident Management der wirkungsvollste Weg, eine sofortige Reaktion einzuleiten und kostspielige Ausfallzeiten zu verhindern, die den Ruf und das Geschäftsergebnis Ihres Unternehmens gefährden können.