In den letzten Jahren hat sich die Geschäftswelt aufgrund wirtschaftlicher, politischer und sozialer Instabilität erheblich verändert. Krisen gehören nach wie vor zum Alltag, selbst wenn sich die Arbeitsbedingungen in den letzten Jahren zum Positiven verändert haben.
Die zunehmende Komplexität und die hohen Erwartungen der Verbraucher stellen auch die Incident-Management-Teams, die auf digitale Krisen reagieren müssen, vor Herausforderungen. Was können Incident-Management-Teams von der Vorgehensweise von Krisenmanagement-Teams lernen und wie lässt sich dies auf den Umgang mit alltäglichen IT-Störungen in Unternehmen übertragen?
Krisenmanagement: Wenn der Ernstfall eintritt
Krisenmanagement und IT-Incident-Management haben viele Begriffe und Konzepte gemeinsam. Doch obwohl beide Teams sich mit der Lösung geschäftlicher Probleme befassen, unterscheiden sie sich in Art und Umfang erheblich.
Incident-Management konzentriert sich in der Regel mehr auf den digitalen Bereich. Jeder einzelne Vorfall erfordert zwar eine Reaktion, eskaliert aber nicht immer zu einer Krise. Incident-Management ist handlungsorientiert und eine technische und taktische Übung. Beispielsweise konzentrieren sich die Praktiken des Site-Reliability-Engineering beim Incident-Management in der Regel auf die Wiederherstellung der Verfügbarkeit des Dienstes, die Kommunikation mit den Kunden, wenn der Vorfall Kunden betrifft, und auf die Diagnose der Ursache, wenn der Dienst wiederhergestellt ist.
Krisenmanagement hingegen fungiert als Erweiterung des Managements größerer Vorfälle, wenn wesentliche geschäftliche oder organisatorische Auswirkungen drohen. Die zugrunde liegende Ursache liegt jedoch häufig außerhalb der Kontrolle des Unternehmens – sei es eine Naturkatastrophe, eine Unterbrechung der Lieferkette oder die aktuelle Nachrichtenlage. Krisenmanagement muss daher auch die eher immateriellen Auswirkungen von Krisen berücksichtigen: Reputationsmanagement, Wiederherstellung des Vertrauens und Risikobewertung. Dieser kommunikationsorientierte, strategische Ansatz ist ein wesentlicher Bestandteil der Reaktion eines Unternehmens auf eine Krise und bietet drei wichtige Lehren für Incident-Management-Teams.
Bessere Entscheidungen mit automatisierten Workflows
Entscheidungen in Krisen sind enorm schwierig, vor allem wenn der Ruf eines Unternehmens gefährdet ist. Für Incident-Management-Teams, die schnelle Entscheidungen treffen müssen, um Eskalationen zu verhindern, gilt das umso mehr.
Automatisierte Prozesse und Abläufe in der Krise entlasten Krisenstäbe bei der Entscheidungsfindung in kritischen Momenten. Anstatt wertvolle Zeit damit zu verschwenden, festzulegen, wer einzubeziehen ist oder welche Schritte wann erfolgen müssen, kann sich das Team auf die wirklich wichtigen Entscheidungen konzentrieren.
Diese Automatisierung geht weit über Krisen- und Incident-Management hinaus. In vielen Branchen sorgen einheitliche, wiederholbare Abläufe für optimierte Entscheidungsfindungen. So können Teams dringende Aufgaben priorisieren, Handlungsblockaden vermeiden und zum reibungslosen Geschäftsbetrieb beitragen.
Die Eckpfeiler guter Kommunikation sind Klarheit, Tempo und Zielgerichtetheit
Erfolgreiche Krisenstäbe sind in der Lage, Prioritäten zu setzen und ihre Aktivitäten effizient zu steuern, um krisenbedingte Probleme schnellstmöglich einzudämmen. Mithilfe wirkungsvoller Kommunikationsstrategien reagieren sie auf kritische Herausforderungen, sobald diese entstehen, und verhindern so eine Eskalation der Krise.
In Krisensituationen ist eine transparente, zeitnahe und zielgerichtete Kommunikation von immenser Bedeutung. Die Krisenkommunikation umfasst sowohl die externe Kommunikation, die auf das Reputationsmanagement und die Informationsversorgung wichtiger Stakeholder wie Öffentlichkeit und Aktionäre fokussiert. Sie schließt aber auch die interne Kommunikation ein und spielt insbesondere bei krisenrelevanten Ereignissen für Mitarbeiter, wie Naturkatastrophen, Sicherheitsbedrohungen oder Infektionskrankheiten, eine entscheidende Rolle. Krisenmanagement-Teams erkennen die Bedeutung effektiver Kommunikation und setzen diese gezielt ein, um Ängste zu minimieren und größere Vorfälle zu bewältigen.
Ähnlich verhält es sich mit der Kommunikation beim Incident-Management. Diese ist intern ausgerichtet und zielt auf die Koordination der Reaktionen aller Beteiligten ab: Damit wird sichergestellt, dass alle über die notwendigen Informationen verfügen, um Gegenmaßnahmen zu ergreifen. Betrifft ein Incident auch Kunden, kommt zudem die Kundenkommunikation ins Spiel. Diese umfasst Echtzeitinformationen für Kundensupport-Teams, öffentliche Statusseiten oder private Statusseiten für wichtige Kunden und Partner in der Lieferkette.
Obwohl Incident-Management-Teams oft im Hintergrund agieren, ist die gewissenhafte Erstellung und Umsetzung von Kommunikationsplänen ebenso wichtig wie bei Krisenstäben, die mit der Öffentlichkeit kommunizieren. Dies gewährleistet eine effektive Aufgabenverteilung, eine schnelle Lösung von Incidents und weniger Unzufriedenheit bei den Kunden.
Mit Training und Teamwork widerstandsfähiger werden
So gut vorbereitet Pläne und Skizzen zur Krisenbewältigung auch sein mögen, können sie sich in einer echten Krise als wirkungslos erweisen, wenn sie nie geübt werden.
Krisenstäbe entwickeln ein umfassendes Programm, das die ersten Reaktionsabläufe für jede Krise festlegt. Dazu gehört auch die Ausarbeitung von Plänen mit funktionsübergreifenden Gruppen, in denen verschiedene Führungsebenen vertreten sind. Auf diese Weise wird sichergestellt, dass die Führungskräfte wissen, was sie erwartet und ermöglicht den Aufbau zwischenmenschlicher Beziehungen. Schulungen und Funktionsübungen– einschließlich Systemtests und Teamaktivierung – stellen ebenfalls sicher, dass die Teams mit dem Ablaufschema vertraut sind und im Krisenfall nicht überfordert werden.
Dieser "Planen und Üben"-Ansatz bietet ein Modell für Incident-Management-Teams, die ihre Prozesse absichern wollen. Es gibt mehrere Möglichkeiten, die diese Teams ergreifen können, um ihre betriebliche Widerstandsfähigkeit zu verbessern. Ein Beispiel sind Chaos Engineering Game Days, um sowohl die eigenen digitalen Systeme zu belasten als auch Rollen und Muster der Incident Response zu üben. Aber Game Days sind nur dann sinnvoll, wenn man bereit ist, aus ihnen – und aus realen Vorfällen – im Rahmen von Nachbesprechungen zu lernen.
Eine weitere Lösung kann darin bestehen, das Vorfallmanagement – von der Erkennung über die Reaktion bis hin zur Nachverfolgung – auf einer Plattform zu zentralisieren. Auf diese Weise können Teams auf alle benötigten Informationen zugreifen, problemlos mit anderen Teammitgliedern kommunizieren, um Vorfälle schnell zu beheben, und Lehren ziehen, die die Widerstandsfähigkeit des Systems und des Teams für die Zukunft verbessern können.
Fazit
Die wichtigste Erkenntnis für Incident-Management-Teams ist, dass Planung, Systeme und Übungen den Informationsfluss in der gesamten Organisation vor, während und nach einem Vorfall effektiv unterstützen. Dies ermöglicht es ihnen, präventive Workflows zu erstellen, intern und extern zu kommunizieren und aus praktischen Übungen und Erfahrungen zu lernen, so dass Vorfälle behoben werden können, bevor sie zu Krisen eskalieren.
Krisenstäbe sind dann effektiv, wenn sie die notwendigen Prozesse implementiert haben, um im Rahmen ihres Arbeitsalltags auf Krisen passend reagieren zu können. Wenn dieser Ansatz übernommen werden kann, sind sie in der Lage, von reaktiv auf pro-aktiv zu wechseln. Dies ist ein wichtiger Schritt, um die Anzahl größerer Vorfälle zu reduzieren.
Autorin
Mandi Walls ist DevOps-Advocate bei PagerDuty. Dort unterstützt sie Technologieunternehmen dabei, ihre Effizienz durch moderne IT-Praktiken bei ungeplanten IT-Vorfälle zu steigern. Sie spricht regelmäßig auf technischen Konferenzen und ist Autorin des Whitepapers "Building a DevOps Culture", das von O’Reilly veröffentlicht wurde. Ihr Interesse gilt der Entwicklung neuer Tools und Workflows, die den Betrieb großer und komplexer IT-Systeme vereinfachen.