CAFM: Incident/Problem/Change/Release Management

Facility Management: FM-Software » Strategie » Betrieb » Release Management

Release-Management im CAFM-System zur Planung, Steuerung und kontrollierten Einführung neuer Software-Versionen im Facility Management — CAFM: Incident/Problem/Change/Release Management

CAFM-Systeme verwalten wichtige Informationen zu Gebäuden, Anlagen und Prozessen und sind für den reibungslosen Gebäudebetrieb und die Instandhaltung essentiell. Um einen stabilen und sicheren Betrieb eines CAFM-Systems zu gewährleisten, kommen etablierte IT Service Management (ITSM)-Prozesse nach Frameworks wie ITIL zum Einsatz. Insbesondere die vier Prozesse Incident Management, Problem Management, Change Management und Release Management spielen im laufenden CAFM-Betrieb eine zentrale Rolle. Diese Fachausarbeitung beleuchtet die Definition und Abgrenzung dieser ITSM-Prozesse, deren Bedeutung für den Betrieb von CAFM-Systemen, die typischen Rollen und Abläufe sowie Aspekte der Integration, Tool-Unterstützung, SLAs, Kommunikation, KPIs und kontinuierlichen Verbesserung.

Prozesse des CAFM-Service-Managements

Definition und Abgrenzung der ITSM-Prozesse Incident, Problem, Change, Release
Bedeutung für einen stabilen und sicheren CAFM-Betrieb
Rollen und Zuständigkeiten
Typische Prozessabläufe, Workflows und Eskalationspfade
Incident-Management-Prozess
Problem-Management-Prozess
Change-Management-Prozess
Release- und Deployment-Management-Prozess
Integration in bestehende ITSM-Systeme (nach ITIL)
Tools zur Prozessunterstützung, Ticketing, Dokumentation und Automatisierung
Anforderungen an SLAs und OLAs im Incident- und Change-Management
Kommunikation mit Stakeholdern und Dokumentationsanforderungen
Kommunikation mit Stakeholdern
Dokumentationsanforderungen
KPIs und Messgrößen zur Prozessüberwachung
Lessons Learned und kontinuierliche Verbesserung (CSI)

Definition und Abgrenzung der ITSM-Prozesse Incident, Problem, Change, Release

Incident Management befasst sich mit der Bewältigung von Incidents, also ungeplanten Serviceunterbrechungen oder Qualitätsminderungen eines IT-Services. Ziel ist es, die negative Auswirkung von Incidents zu minimieren, indem der normale Servicebetrieb schnellstmöglich wiederhergestellt wird. Ein Incident wird gemäß ITIL definiert als „eine nicht geplante Unterbrechung eines Service oder eine Qualitätsminderung eines Service“. Incident Management ist rein reaktiv: Es behandelt akut auftretende Störungen und versucht diese so rasch wie möglich zu beheben – notfalls mittels temporärer Umgehungslösungen (Workarounds). Wichtig ist die Abgrenzung zu Service Requests: Routine-Anfragen der Anwender (z.B. Passwort zurücksetzen) gelten nicht als Incident, sondern werden separat als Request Fulfilment gehandhabt.

Change Management ist der ITIL-Prozess, der alle Änderungen an der IT-Umgebung steuert, mit dem vorrangigen Ziel, nützliche Changes zu ermöglichen und negative Auswirkungen auf Services zu vermeiden. Ein Change in ITIL ist „das Hinzufügen, Entfernen oder Modifizieren von allem, was sich auf die IT-Services auswirken könnte“ – z. B. Änderungen an Infrastruktur, Anwendungen, Prozessen oder auch Dokumentation. Change Management stellt sicher, dass Änderungen standardisiert, kontrolliert und mit minimalem Risiko für den laufenden Betrieb durchgeführt werden. Dazu werden Änderungen als Request for Change (RFC) erfasst, bewertet, genehmigt und koordiniert. ITIL unterscheidet drei Change-Typen: Standard-Changes (vordefiniert, geringes Risiko, vorab genehmigt), Notfall-Changes (Emergency Changes, sofortige Umsetzung bei z.B. Major Incidents) und normale Changes (alle übrigen Änderungen, die je nach Risiko weiter in Minor, Significant, Major unterteilt werden). Für hochriskante oder weitreichende Changes kommt ein Change Advisory Board (CAB) zum Einsatz, das bei Bewertung und Genehmigung unterstützt. Change Management sorgt also dafür, dass Änderungen nur mit angemessener Autorisierung, Planung und Bewertung erfolgen, um unkontrollierte Eingriffe – und daraus resultierende Störungen – zu verhindern.

Release Management (oft gemeinsam mit Deployment Management betrachtet) kümmert sich um die geplante Freigabe und Inbetriebnahme von Änderungen in der Produktivumgebung. Der Prozess umfasst die Planung, Bündelung, Prüfung und das Ausrollen von Releases (Sammlungen von Changes) in Test- und Live-Umgebungen. Primäres Ziel ist es, die Integrität der Live-Umgebung zu schützen, indem nur ausreichend getestete und freigegebene Komponenten in den Betrieb gelangen. Release Management definiert, wie ein Release aufgebaut wird, welche Changes es beinhaltet, wie es getestet wird und schließlich ausgerollt wird. Dabei werden einzelne Änderungen in Release Packages zusammengefasst, um koordiniert bereitgestellt zu werden. Wichtige Aspekte sind auch die Bereitstellung einer Definitive Media Library (DML) für freigegebene Software-Komponenten und die Durchführung von Early Life Support direkt nach dem Rollout, um etwaige Anfangsprobleme schnell aufzufangen. Release Management stellt somit den letzten Schritt dar, in dem genehmigte Changes kontrolliert in die Betriebsumgebung überführt werden.

In der Praxis sind diese vier Prozesse eng miteinander verzahnt. Beispielsweise können Incidents über das Incident Management identifiziert werden, deren Ursachen anschließend im Problem Management analysiert werden. Erkennt das Problem Management eine strukturelle Ursache, wird zur dauerhaften Behebung ein Change angestoßen, der vom Change Management geprüft und genehmigt werden muss. Die Umsetzung erfolgt schließlich im Rahmen eines Releases durch das Release Management. Umgekehrt liefert das Problem Management Known Errors und Workarounds zurück an das Incident Management, damit wiederkehrende Incidents schneller gelöst werden können. Diese klare Aufgabenteilung – Incident Management „löscht das Feuer“, Problem Management „findet und beseitigt die Brandursache“, Change Management „kontrolliert die Änderung“ und Release Management „rollt die Lösung aus“ – ist wesentlich, um Stabilität und kontinuierliche Verbesserung im IT-Betrieb eines CAFM-Systems zu erreichen.

Bedeutung für einen stabilen und sicheren CAFM-Betrieb

Ein CAFM-System unterstützt kritische Abläufe im Gebäudemanagement – von der Wartungsplanung über Flächenmanagement bis zur Ressourcenverwaltung. Stabilität und Sicherheit dieses Systems sind daher geschäftskritisch. Die vier genannten ITSM-Prozesse bilden das Rückgrat des operativen Betriebs und stellen sicher, dass das CAFM-System zuverlässig verfügbar ist, Änderungen kontrolliert erfolgen und Störungen professionell gehandhabt werden.

Schnelle Störungsbehebung: Durch Incident Management wird im Falle einer Störung (z. B. Ausfall einer CAFM-Funktion oder Schnittstelle) der Normalbetrieb so rasch wie möglich wiederhergestellt. Dies minimiert Ausfallzeiten, die z. B. Wartungseinsätze oder Buchungen im Gebäude beeinträchtigen könnten. Insbesondere bei Major Incidents (z. B. Ausfall des gesamten CAFM-Systems) sorgt ein geregelter Incident-Prozess mit definierten Eskalationen dafür, dass sofortiges Handeln erfolgt (Bildung eines Major Incident Teams etc.). Damit werden Betriebsunterbrechungen und die Auswirkungen auf die Gebäudenutzer gering gehalten.
Vorbeugung und Ursachenermittlung: Problem Management trägt zur betrieblichen Sicherheit bei, indem es wiederholte oder gravierende Störungen analysiert und deren Ursachen beseitigt, bevor sie sich zu größeren Problemen auswachsen. Für ein CAFM-System bedeutet dies z. B., dass häufig auftretende Softwarefehler identifiziert und dauerhaft behoben werden, anstatt dass immer wieder Workarounds zum Einsatz kommen. So wird die Systemqualität kontinuierlich verbessert und das Risiko von Zwischenfällen verringert. Zudem dokumentiert das Problem Management bekannte Fehler in einer Knowledge Base (z.B. Known Error Database), was hilft, zukünftige Incidents schneller zu lösen und das Know-how im Team zu sichern.
Kontrollierte Änderungen: Änderungen an einem CAFM-System (etwa Updates der Software, Konfigurationsanpassungen, Integration neuer Module oder Schnittstellen) bergen Risiken für die Systemstabilität. Das Change Management stellt sicher, dass solche Changes geplant, bewertet und genehmigt ablaufen. Dadurch werden ungeplante Eingriffe vermieden – z. B. ein unkoordinierter Patch, der das System lahmlegt. Stattdessen werden Änderungen zunächst in ihrer Auswirkung analysiert (ggf. im CAB), Risiken abgewogen und erst nach Freigabe implementiert. Für einen sicheren Betrieb von CAFM-Systemen – die oft viele Abhängigkeiten zu Gebäudetechnik, IoT-Sensorik, Drittanwendungen etc. haben – ist diese Change-Kontrolle unverzichtbar, um Regressionen und Kompatibilitätsprobleme zu verhindern.
Geprüfte Releases: Release Management sorgt dafür, dass neue Softwarestände oder Konfigurationen schrittweise und getestet in den Produktivbetrieb übergehen. Durch klare Release-Zyklen (z. B. quartalsweise Updates in definierten Wartungsfenstern) behält das CAFM-Betriebsteam die Kontrolle und gewährleistet, dass nur freigeprüfte Versionen live gehen. Dies schützt die Live-Umgebung vor instabilen Änderungen. Zudem beinhaltet ein gutes Release Management immer Roll-back-Pläne: Sollte eine neue CAFM-Version Probleme verursachen, kann durch vordefinierte Maßnahmen zur vorherigen Version zurückgekehrt werden, ohne lange Unterbrechung. Insgesamt erhöht ein diszipliniertes Release Management die Zuverlässigkeit des CAFM-Systems, da Updates vor der produktiven Nutzung ausreichend validiert werden.
Compliance und Sicherheit: In vielen Unternehmen unterliegen IT-Systeme (und damit auch CAFM-Lösungen) bestimmten Compliance-Vorgaben oder Sicherheitsstandards. Dokumentierte ITSM-Prozesse tragen dazu bei, diese Anforderungen zu erfüllen. Z. B. verlangt ISO 27001 (ISMS) eine Kontrolle von Änderungen an Informationssystemen – das wird durch Change und Release Management umgesetzt. Incident- und Problem-Management stellen sicher, dass Sicherheitsvorfälle (z. B. Cyberangriffe auf das CAFM-System oder Datenbankstörungen) systematisch erfasst, gemeldet und aufgearbeitet werden. Somit unterstützen die Prozesse einen sicheren Betrieb im Sinne von Vertraulichkeit, Integrität und Verfügbarkeit der CAFM-Daten.

Zusammenfassend bilden Incident, Problem, Change und Release Management ein integriertes Schutz- und Stabilisierungssystem für den CAFM-Betrieb. Sie gewährleisten, dass Störungen behoben, Ursachen eliminiert, Änderungen kontrolliert und Releases qualitätsgesichert erfolgen. Für CAFM-Betriebsverantwortliche ist die Etablierung dieser Prozesse daher zentral, um den kontinuierlichen, störungsarmen Betrieb der Facility-Management-Plattform zu garantieren und Vertrauen bei den Stakeholdern (Gebäudenutzer, Facility Manager, IT-Leitung) zu schaffen.

Rollen und Zuständigkeiten

Für die wirksame Umsetzung der genannten Prozesse sind klar definierte Rollen und Verantwortlichkeiten erforderlich. In Anlehnung an ITIL existieren spezifische Rollen, die jeweils einen Prozess steuern oder unterstützen. In kleineren Organisationen mag eine Person mehrere Rollen innehaben; in größeren gibt es oft dedizierte Stellen.

Im Folgenden eine Übersicht wichtiger Rollen und Gremien im Incident/Problem/Change/Release Management sowie ihre Zuständigkeiten:

Incident Manager: Verantwortlich für die effektive Durchführung des Incident-Management-Prozesses und das zugehörige Reporting. Der Incident Manager überwacht alle Incidents und stellt sicher, dass Priorisierungen eingehalten werden. Er ist zudem die erste Eskalationsinstanz, falls Incidents nicht innerhalb der vereinbarten Servicezeiten gelöst werden können. Im CAFM-Kontext koordiniert der Incident Manager z. B. die schnelle Bearbeitung von Störungsmeldungen aus dem Facility-Betrieb und informiert bei größeren Ausfällen umgehend das Management.
Problem Manager: Verantwortlich für das Management aller Problems über ihren Lebenszyklus. Der Problem Manager hat das Ziel, Incidents proaktiv vorzubeugen und unvermeidbare Störungen so minimal wie möglich zu halten. Dazu gehört insbesondere, bekannte Fehlerursachen (Known Errors) und Workarounds in einer Wissensdatenbank zu pflegen. Im CAFM-Umfeld analysiert der Problem Manager z. B., ob wiederkehrende Softwareprobleme (etwa fehlerhafte Raumbuchungen) auf einen tieferliegenden Bug zurückzuführen sind, und initiiert dessen Behebung über Change Management.
Change Manager: Autorisiert und dokumentiert sämtliche Änderungen an der IT-Infrastruktur und ihren Komponenten, um störende Auswirkungen auf den laufenden Betrieb so gering wie möglich zu halten. Der Change Manager steuert den gesamten Change-Prozess: vom Eingang eines Change Requests (RFC) über die Bewertung (Risiko-, Impact-Analyse) bis zur Entscheidung über Genehmigung oder Ablehnung. Er stellt sicher, dass Änderungen die nötigen Freigaben erhalten und koordiniert ggf. die CAB-Meetings. Ohne Freigabe des Change Managers findet kein Change statt. In Bezug auf CAFM-Systeme überwacht der Change Manager z. B. die Einführung neuer Module oder Updates und sorgt dafür, dass diese mit den Geschäftsanforderungen abgestimmt und technisch verträglich sind.
Change Advisory Board (CAB): Ein beratendes Gremium aus Fachexperten und Stakeholdern, das den Change Manager bei wichtigen Änderungen unterstützt. Das CAB bewertet Change Requests mit Blick auf Risiken, Auswirkungen und Nutzen und gibt eine Empfehlung, ob ein Change genehmigt werden soll. Sein vorrangiges Ziel ist es, reibungslose Übergänge zu ermöglichen und Störungen durch Changes zu minimieren. Ein CAB setzt sich interdisziplinär zusammen – typischerweise aus dem Change Manager (als Vorsitz), Vertretern des IT-Betriebs, des Service Desks, der Anwendungsentwicklung, der Informationssicherheit sowie ggf. aus Fachabteilungen (Business-Seite). Für CAFM-Changes könnten z. B. der CAFM-Administrator, ein Vertreter der Gebäudeverwaltung, ein Datenbank-Experte und ein Informationssicherheits-Beauftragter im CAB mitwirken, um die Änderung umfassend zu beurteilen. Das CAB tritt regelmäßig (z. B. wöchentlich oder ad-hoc bei dringenden Fällen) zusammen. Notfall-Changes werden vom Emergency CAB (ECAB) geprüft, einer Untergruppe des CAB, die kurzfristig einberufen werden kann.
Release Manager: Zuständig für die Planung und Überwachung der Überführung von Releases in Test- und Produktivumgebungen. Er legt gemeinsam mit dem Change Manager fest, welche Changes in einem Release-Paket gebündelt werden und erstellt den Release-Fahrplan (Zeitplan für Build, Test, Deployment). Der Release Manager koordiniert zudem die Durchführung der Deployment-Schritte und stellt sicher, dass erforderliche Ressourcen (z. B. Testumgebungen, Installationspakete) bereitstehen. In seinen Verantwortungsbereich fallen auch Schulung und Kommunikation rund um Releases – etwa Endanwender über neue Funktionen informieren oder das Betriebsteam auf geänderte Abläufe vorbereiten. Im CAFM-Rahmen kümmert sich der Release Manager z. B. darum, dass ein Update der CAFM-Software zuerst in einer Testinstanz geprüft, dann während eines geplanten Wartungsfensters in der produktiven Umgebung ausgerollt und danach eine Phase des Early Life Support eingerichtet wird.
1st Level Support / Service Desk: Das Service Desk Team (First Level) ist meist die erste Anlaufstelle für eingehende Störungsmeldungen. Es registriert und kategorisiert Incidents und versucht, mit sofortigen Maßnahmen den definierten Servicezustand wiederherzustellen. Gelingen schnelle Lösungen (First Call Resolution), entlastet dies die nachgelagerten Einheiten. Ist der Vorfall komplexer, leitet der 1st Level ihn an den 2nd Level Support weiter. Im CAFM-Kontext nimmt der Service Desk etwa Tickets von Facility-Managern entgegen, die ein Problem mit dem System melden, und löst einfache Fälle (Passwort zurücksetzen, Bedienfragen) sofort. Schwerwiegendere Incidents (z. B. Datenbankfehler) werden an Spezialisten im 2nd Level (Datenbank-Admin, Applikationsbetreuer) eskaliert.
Major Incident Team: Bei einem kritischen Incident mit massiver Auswirkung (z. B. das CAFM-System ist für alle Standorte nicht verfügbar) wird oft ad-hoc ein Major Incident Team gebildet. Dieses besteht aus erfahrenen IT-Managern und technischen Experten, typischerweise unter Leitung des Incident Managers. Das Team bündelt Wissen aus verschiedenen Bereichen, um schnell gemeinsam eine Lösung für den Major Incident zu erarbeiten. Im Falle eines CAFM-Ausfalls könnten hier z. B. der CAFM-Experte, ein Datenbank-Admin, ein Infrastruktur-Experte und ein Service Manager zusammenkommen, um umgehend Gegenmaßnahmen (wie Backup-Restore, Server-Failover etc.) einzuleiten.

Diese Rollen arbeiten eng verzahnt und meist entlang einer RACI-Matrix abgestimmt (Responsible, Accountable, Consulted, Informed). Wichtig ist, dass Zuständigkeiten klar dokumentiert sind: Jeder Incident, Change etc. hat einen verantwortlichen Bearbeiter bzw. Entscheider. Insbesondere bei einem ausgelagerten Betrieb (Managed Service) ist zu regeln, welche Parteien welche Rolle wahrnehmen – etwa ob der Hersteller der CAFM-Software in 3rd Level Support und Problem Management eingebunden ist. Durch definierte Rollen wie Incident Manager oder Change Manager wird sichergestellt, dass die Prozesse konsistent angewendet werden und es im Ernstfall keine Unklarheit darüber gibt, wer das Heft in der Hand hat.

Typische Prozessabläufe, Workflows und Eskalationspfade

In diesem Kapitel werden die typischen Abläufe der vier ITSM-Prozesse skizziert – von der Entstehung eines Tickets bzw. Anliegens bis zum Abschluss – inklusive wichtiger Workflow-Schritte und Eskalationsmechanismen. Jeder Prozess besitzt definierte Phasen und Decision Points, die eingehalten werden sollten, um Effizienz und Effektivität sicherzustellen. Wir betrachten die Prozesse einzeln, weisen jedoch auch auf Schnittstellen untereinander hin (z. B. Übergabe vom Incident an Problem Management).

Incident-Management-Prozess

Ein Incident (Störung) kann auf verschiedenen Wegen ins Incident Management gelangen: Benutzer oder Kunden melden eine Störung via Service Desk, IT-Monitoring-Systeme generieren automatisch Alarm-Incidents bei kritischen Events, oder Mitarbeiter im IT-Betrieb stellen einen Ausfall fest. Unmittelbar nach Eingang wird der Incident in einem Ticket-System erfasst (Incident Record) und mit den wichtigsten Details protokolliert (Zeit, Melder, Symptombeschreibung, betroffener Service etc.).

Kategorisierung und Priorisierung:

In der Ticketaufnahme erfolgt eine erste Kategorisierung (z. B. Hardware, Applikation, Netzwerk) und Prioritätseinstufung des Incidents. Die Priorität richtet sich meist nach der Auswirkung und Dringlichkeit: z. B. Priorität 1 (hochkritisch: gesamtes CAFM-System ausgefallen, viele Nutzer betroffen), Priorität 2 (kritisch: wesentliche Funktion gestört, einige Nutzer betroffen) usw. Diese Einstufung bestimmt, wie viel Zeit für die Lösung verfügbar ist bzw. welche Reaktionszeiten gelten. Oft existiert eine Prioritätsmatrix oder Checkliste als Leitfaden. Die korrekte Priorisierung ist entscheidend, denn sie löst ggf. SLA-Uhren aus (siehe SLAs unten) und steuert die Eskalationswege.

Sofortmaßnahmen (First Level):

Der Incident wird zunächst an den First Level Support (Service Desk) geleitet. Dort versuchen die Support-Mitarbeiter, mit Standardlösungen oder bekannten Workarounds das Problem umgehend zu beheben. Hilfsmittel sind Wissensdatenbanken, FAQ-Dokumente oder bekannte Incident-Modelle (vordefinierte Lösungsverfahren für häufige Störungen). Beispiel: Ein Benutzer meldet, er könne sich nicht am CAFM-System anmelden. Der Service Desk prüft bekannte Ursachen (z. B. Passwort abgelaufen) und löst den Incident ggf. direkt durch Passwortreset oder weist den Nutzer auf die richtige Login-Methode hin. Gelingt die Erstlösung beim ersten Kontakt (First Call Resolution), wird der Incident dokumentiert und geschlossen.

Eskalation an Second/Third Level:

Kann der 1st Level den Incident nicht lösen (etwa weil tiefere technische Analyse nötig ist oder der vorgegebene Zeitrahmen überschritten wird), erfolgt eine funktionale Eskalation an den 2nd Level Support. Die Spezialisten im 2nd Level (z. B. Applikationssupport, Datenbank- oder Server-Team) übernehmen das Ticket und führen eine gründlichere Diagnose durch. Sie haben oft tiefergehende Systemkenntnisse und mehr Berechtigungen, um z. B. Logfiles auszuwerten oder Konfigurationen zu überprüfen. Falls nötig, kann der 2nd Level seinerseits externe Lieferanten oder den Hersteller hinzuziehen – dies entspricht dem 3rd Level Support (z. B. der Softwarehersteller des CAFM-Systems). Diese mehrstufige fachliche Eskalation stellt sicher, dass Incidents an die Stelle gelangen, wo die nötige Expertise zur Lösung vorhanden ist.

Zeitliche Eskalation:

Parallel zur funktionalen Eskalation gibt es die hierarchische (zeitliche) Eskalation. Das Incident Management überwacht kontinuierlich den Bearbeitungsstatus offener Incidents, um bei drohenden SLA-Verletzungen einzuschreiten. Wenn ein Incident eine definierte Schwellenzeit ohne Lösung erreicht (z. B. 1 Stunde vor SLA-Ablauf noch ungelöst), wird er an eine höhere Management-Ebene eskaliert – etwa an den Incident Manager oder den zuständigen Service Manager. Diese Eskalation soll sicherstellen, dass der Incident erhöhte Aufmerksamkeit bekommt (z. B. zusätzliche Ressourcen zugewiesen, Priorität angehoben) bevor die vereinbarte Lösungszeit überschritten wird. Ein Incident Manager fungiert hierbei als überwachende Instanz, die notfalls interveniert (z. B. durch Umverteilung an ein anderes Team).

Bearbeitung und Workarounds:

Der Incident wird vom zuständigen Support-Level analysiert. Je nach Art der Störung können Workarounds zum Einsatz kommen – temporäre Lösungen, die die Auswirkungen der Störung mindern oder den Service erstmal notdürftig wiederherstellen. Beispiel: Die CAFM-Datenbank ist ausgefallen, und als Workaround wird auf ein aktuelles Backup-Standby-System umgeschaltet, bis die primäre DB repariert ist. Workarounds sind wichtig, um Zeit zu gewinnen und den operativen Betrieb aufrecht zu erhalten, bis die eigentliche Ursache behoben ist. Alle durchgeführten Schritte (Analysen, Teil-Lösungen, Kommunikation mit Anwender) werden im Incident Record dokumentiert.

Schnittstellen:

Der Incident-Management-Prozess hat Verbindungen zu anderen Prozessen: Störungsmeldungen können durch Event Management (Monitoring) automatisch ausgelöst werden. Wenn zur Lösung eines Incidents ein Change erforderlich ist (z. B. ein Hotfix in der Anwendung), wird das Change Management eingeschaltet und ein RFC erstellt. Und wie beschrieben, ungelöste Ursachen gehen als Problem ins Problem Management. All diese Übergaben sind im Prozess definiert, sodass ein Incident nahtlos in die anderen Prozesse übergeleitet wird, falls nötig.

Zusammengefasst stellt Incident Management einen strukturierten Workflow bereit, um jede ungeplante Störung schnell einzugrenzen, zu behandeln und die Serviceverfügbarkeit wiederherzustellen. Durch definierte Eskalationsketten (sowohl fachlich als auch zeitlich) wird sichergestellt, dass kein Incident „liegenbleibt“ und dass schwerwiegende Vorfälle sofort die nötige Aufmerksamkeit erhalten.

Behebung oder Überführung in Problem:

Idealerweise wird die Störungsursache identifiziert und der Incident vollständig behoben – z. B. Neustart eines Dienstes, Korrektur einer fehlerhaften Einstellung, Bugfix-Einspielen usw. Kann die Grundursache nicht kurzfristig beseitigt werden (z. B. komplexer Softwarefehler ohne schnellen Fix), so wird der Incident zunächst per Workaround entschärft und dann in den Problem Management Prozess überführt. Das heißt, es wird ein Problem Record erstellt, um die tiefergehende Ursachenanalyse separat durchzuführen. Der Incident selbst kann ggf. nach Bereitstellung des Workarounds geschlossen werden, sofern der Service für den Nutzer wieder verfügbar ist, auch wenn die endgültige Lösung noch aussteht – diese läuft dann als Problem im Hintergrund weiter.

Major Incidents:

Bei einem sogenannten Major Incident (Notfall) – z. B. großflächiger Systemausfall, sicherheitsrelevanter Vorfall – gibt es oft einen abgekürzten Prozess. Major Incidents erfordern sofortiges Handeln und bekommen höchste Priorität. Es wird ein Major Incident Team einberufen (siehe Rollen), das sich ausschließlich um diese eine Störung kümmert. Normalerweise informiert der Service Desk umgehend den Incident Manager und evtl. das Management. Kommunikationswege werden abgekürzt (Telefonkonferenzen, Chatkanäle), regelmäßige Status-Updates werden sehr eng getaktet (z. B. stündlich). Ziel ist, durch geballte Expertise den Incident so schnell wie möglich zu lösen oder zumindest den Geschäftsbetrieb in alternativer Form wiederherzustellen. Nach Behebung wird ein Major Incident Review durchgeführt (siehe CSI), um Lehren zu ziehen.

Abschluss und Dokumentation:

Sobald die Serviceunterbrechung behoben ist und der betroffene Service wieder normal läuft, wird der Incident vom Service Desk (1st Level) formal geschlossen. Vor dem endgültigen Schließen prüft man, ob der Anwender die Wiederherstellung bestätigt (Zufriedenheit) und ob alle relevanten Infos zur Lösung dokumentiert sind. In vielen Tools erhält der Melder eine Abschlussbenachrichtigung und kann bestätigen, dass das Problem behoben ist. Wichtig ist auch eine Nachdokumentation: Wurden während der Bearbeitung neue Erkenntnisse gewonnen – z. B. eine bisher unbekannte Fehlerursache oder ein neuer Workaround – müssen diese an das Problem Management oder die Wissensdatenbank weitergegeben werden. Jeder Incident liefert somit Daten, die zur Verbesserung beitragen können (Trends erkennen, Knowledge Base erweitern).

Problem-Management-Prozess

Der Problem-Management-Prozess startet entweder reaktiv – z. B. ausgelöst durch einen oder mehrere Incidents, bei denen die Ursache unklar ist – oder proaktiv – initiiert durch Trendanalysen, Monitoring oder Hinweise auf mögliche Schwachstellen, noch bevor ein Incident passiert.

Problemidentifizierung:

Zunächst wird ein Problem Record angelegt, sobald ein Verdacht auf ein zugrundeliegendes Problem vorliegt, das eine weitergehende Untersuchung rechtfertigt. Reaktive Beispiele: Der Incident Manager stellt fest, dass in den letzten Wochen die CAFM-Schnittstelle zum IoT-Sensoriksystem mehrfach ausfiel – er lässt ein Problem daraus aufmachen, um das Muster zu analysieren. Proaktiv: Ein DB-Admin erkennt in Logs Warnungen, die auf inkonsistente Daten hindeuten – noch gibt es keinen Incident, aber er meldet ein Problem, um präventiv tätig zu werden. Alle Problems werden in der Regel ähnlich wie Incidents kategorisiert und priorisiert, damit sie in der Bearbeitung eingeordnet werden können (z. B. nach Service oder Auswirkungsgrad).

Problemanalyse und Diagnose:

Das Problem Management nutzt systematisch Methoden zur Ursachenanalyse. Häufig kommt die Fehler-Ursachen-Analyse (Root Cause Analysis) zum Einsatz – z. B. Techniken wie 5-Why, Ishikawa-Diagramme, Debugging, Log-Analysen, Simulationstests usw. Das Ziel ist, die Grundursache (Root Cause) des Problems zu finden, welche die verbundenen Incidents ausgelöst hat. Dieser Prozess kann aufwändig sein und involviert oft Experten verschiedener Domänen. Im CAFM-Beispiel könnte die Ursachenanalyse ergeben, dass die Ausfälle der IoT-Schnittstelle durch einen Speicherleck-Bug in der Middleware verursacht werden.

Während der Analysephase kann das Problem Management auf Informationen aus dem Incident Management zurückgreifen:

Symptome, Zeitpunkt, Umgebung der Incidents liefern wichtige Hinweise. Ebenso wird geschaut, ob ähnliche Probleme bereits bekannt sind (Query der Known Error Database) oder ob es Workarounds gibt, die schon bei Incidents geholfen haben. Falls eine vorläufige Umgehungslösung möglich ist, wird diese dem Incident Team zur Verfügung gestellt, um bis zur endgültigen Lösung die Auswirkungen zu minimieren.

Known Error und Workaround:

Sobald die Ursache identifiziert ist, wird das Problem in einen Known Error überführt – d.h. man kennt jetzt die Fehlerursache und kann sie benennen. Zu jedem Known Error gehört idealerweise ein Workaround: eine temporäre Lösung oder Umgehungsmaßnahme, mit der auftretende Incidents aufgrund dieses Fehlers vorübergehend behoben werden können. Beispiel: Known Error = „Speicherleck im Modul X ab Version Y führt zu Dienstabsturz nach 48h Laufzeit“; Workaround = „Neustart des Moduls alle 24h als Übergangslösung“. Known Errors und Workarounds werden in der Known Error Database (KEDB) dokumentiert und stehen dem Incident Management zur Verfügung. Damit können künftige Incidents, die auf denselben Fehler zurückzuführen sind, schneller erkannt und mit dem Workaround überbrückt werden, bis die dauerhafte Korrektur erfolgt.

Lösungsfindung und Change:

Das Problem Management arbeitet dann an einer permanenten Lösung des Problems. Dies kann z. B. die Entwicklung eines Bugfixes, einer Designänderung oder das Austauschen eines fehlerhaften Hardware-Komponents sein – je nachdem, wo die Ursache liegt. Oft fällt die Umsetzung der Lösung jedoch nicht direkt in den Problem-Management-Prozess, sondern erfordert einen formalen Change: Das Problem Management erstellt einen Change Request (RFC), der an das Change Management übergeben wird, wenn ein Change notwendig ist, um das Problem zu beheben. Beispielsweise würde man den oben genannten Speicherleck-Bug als RFC an die Entwicklungsabteilung bzw. Change Manager weiterleiten, damit im nächsten Update ein Patch eingespielt wird.

In der Zwischenzeit überwacht das Problem Management das Problem weiter (Status z. B. „Known Error - Fix in Progress“). Gelegentlich kann es vorkommen, dass keine sinnvolle Lösung existiert (z. B. Problem wird durch ein Legacy-System verursacht, das in 3 Monaten ohnehin außer Betrieb geht). Dann verbleibt es als Known Error mit Workaround in der KEDB, und die Entscheidung kann sein, keine aufwändige Behebung mehr durchzuführen.

Problem Closure (Abschluss):

Ist eine dauerhafte Lösung implementiert (z. B. der Patch wurde erfolgreich eingespielt über Change Management), so wird das Problem formal geschlossen. Vor dem Schließen vergewissert sich der Problem Manager, dass die Lösung tatsächlich wirksam war – d.h. es treten keine einschlägigen Incidents mehr auf – und dass alle Dokumentationen aktualisiert wurden. Der Problem Record enthält dann die komplette Historie vom Auftreten bis zur Lösung. Insbesondere wird vermerkt, welche Known Error-Einträge ggf. obsolet sind, welche Workarounds zurückgezogen werden können und welche Changes implementiert wurden. Im Beispiel würde man notieren, dass ab CAFM-Version X.Y.Z der Bug behoben ist und der Workaround (Neustart) nicht mehr angewendet werden muss.

Proaktive Aktivitäten:

Parallel zum reaktiven Ablauf führt Problem Management ständig proaktive Analysen durch. Dazu gehören Trend Reports aus dem Incident Management (z. B. zunehmende Anzahl Incidents in einem bestimmten Modul), Auswertung von Monitoring-Daten oder Security-Scans, und „Health Checks“ der Infrastruktur. Identifizierte potenzielle Probleme (z. B. Engpässe in der Serverkapazität, abgekündigte Softwarebibliotheken mit Sicherheitslücken) werden als Problems aufgenommen, bevor ein Incident daraus wird. Damit fungiert Problem Management als Frühwarnsystem und verbessert die Stabilität langfristig, da proaktiv Verbesserungen eingeleitet werden.

Eskalation im Problem Management:

Klassischerweise hat Problem Management keine zeitkritischen SLAs wie Incident Management, da es um Hintergrundanalysen geht. Allerdings werden offene Problems priorisiert (z. B. „High Priority Problem“ bei sicherheitskritischer Ursache) und regelmäßig in Problem-Review-Meetings besprochen. Falls eine Problem-Lösung zu lange dauert und das Risiko steigt (z. B. Workaround bricht weg oder Incidents häufen sich), kann der Problem Manager das eskalieren – etwa zusätzliche Ressourcen einfordern oder das Management auf die Notwendigkeit eines schnelleren Changes hinweisen.

Schnittstellen:

Problem Management ist eng verzahnt mit Incident Management – es erhält aus Incidents die Daten und liefert an diese Workarounds/Know Errors zurück. Mit Change Management besteht die Schnittstelle, dass Problems Changes auslösen. Auch mit dem Configuration Management arbeitet Problem Management: die Ursachenanalyse erfordert oft Infos aus der CMDB (betroffene CIs, Versionen etc.), und gelöste Probleme können Aktualisierungen in der Konfigurations-Dokumentation nach sich ziehen.

Insgesamt stellt Problem Management sicher, dass tieferliegende Störungsursachen gefunden und beseitigt werden, wodurch sich die Qualität und Zuverlässigkeit des CAFM-Systems fortlaufend verbessert. Gerade in komplexen Umgebungen verhindert es das „Feuerlöschen“ im Dauerzustand – indem es die Brandursachen adressiert.

Change-Management-Prozess

Der Change-Management-Prozess beginnt, sobald ein Bedarf für eine Änderung identifiziert wurde. Dies kann aus ganz verschiedenen Quellen kommen: Strategische Initiativen (neue Anforderungen aus dem Business), verbesserungsmaßnahmen (z. B. aus Continual Service Improvement), Problemlösungen (RFCs aus Problem Management) oder Incident-Bewältigung (Incident erfordert dauerhaften Fix). Jeder vorgeschlagene Change wird in Form eines Request for Change (RFC) formalisiert und im Change-Management-System erfasst.

Erfassung und Voranalyse:

Ein eingereichter RFC enthält in der Regel eine Beschreibung der geplanten Änderung, den Grund/Business Case, betroffene Systeme (CIs), Dringlichkeit, vorgeschlagenes Zeitfenster, Risikoabschätzung soweit bekannt und beteiligte Parteien. Der Change Manager oder ein Change-Koordinator prüft den RFC zunächst auf Vollständigkeit und Kategorisierung. Wie zuvor erwähnt, unterscheidet man Standard Changes, Emergency Changes und normale Changes. Standardänderungen, die bereits freigegeben sind (z. B. ein Routine-Skript ausführen, neue Benutzer anlegen), können oft sofort nach definierten Prozeduren durchgeführt werden und erfordern keine weiteren Genehmigungsinstanzen – Change Management sorgt nur dafür, dass sie dokumentiert werden. Notfall-Changes (Emergency) überspringen teilweise übliche Gremien: Hier tritt das ECAB zusammen, um sehr kurzfristig zu entscheiden. Normale Changes werden nach Aufwand/Risiko weiter unterteilt (Minor, Significant, Major).

Bewertung (Assessment):

Für jeden nicht-trivialen Change wird eine Impact- und Risikoanalyse durchgeführt. Der Change Manager kann hierzu Experten aus den betreffenden Fachbereichen hinzuziehen oder das CAB einberufen. Folgende Fragen stehen im Zentrum: Welche Services und Nutzer sind von der Änderung betroffen? Was sind die Risiken (z. B. Ausfallrisiko, Dateninkonsistenzen)? Welche Ressourcen werden benötigt? Gibt es Abhängigkeiten zu anderen Systemen? Zusätzlich wird der Return/ Nutzen betrachtet: Warum ist die Änderung wünschenswert? Verbesserte Funktionalität, Fehlerbehebung, Kostenersparnis? Oft wird hierzu auf Informationen aus der CMDB zurückgegriffen, um betroffene Komponenten und Beziehungen klar zu sehen. Das CAB als Gremium wägt diese Aspekte ab: Es priorisiert den Change (wenn mehrere Changes anstehen) und gibt eine Empfehlung zur Genehmigung oder Ablehnung. Bei CAFM-bezogenen Changes würde man z. B. prüfen, ob ein Update mit der aktuellen Gebäudeleittechnik-Integration harmoniert, welche Downtime nötig wäre und ob ein Fallback existiert.

Genehmigungsentscheidung:

Basierend auf der Bewertung trifft der autoritative Entscheider die Freigabe. Für hochriskante Changes ist dies oft das CAB gemeinsam, ggf. mit Management-Beteiligung. Für mittlere Changes kann der Change Manager alleine oder mit kleinerem Gremium entscheiden. Geringfügige Changes (Minor) genehmigt er in der Regel eigenständig oder sie sind vorautorisiert. Die Entscheidung (Approve/Reject/Postpone) wird im RFC dokumentiert, inklusive eventueller Auflagen (z. B. „testen in Staging-Umgebung erforderlich“, „nur außerhalb der Geschäftszeiten durchführen“). Eine Kennzahl hier ist die Akzeptanzrate – Verhältnis genehmigter zu abgelehnten RFCs. Ablehnungen erfolgen, wenn Risiken überwiegen oder unzureichende Infos vorlagen – dann kann der RFC überarbeitet und neu eingereicht werden.

Planung und Vorbereitung:

Ein genehmigter Change durchläuft nun die Planungsphase. Der Change Manager koordiniert die Erstellung eines Change-Plans mit allen erforderlichen Schritten. Dazu gehört: Terminplanung (Wann genau durchführen? Gibt es ein Change Window?), Ressourcenzuteilung (Wer implementiert? Wer testet? Braucht es externen Support?), Kommunikationsplan (Wer muss informiert werden – z. B. Nutzer, Facility Manager – und wann?), Back-Out-Plan (Rollback-Plan) und Testplan. Für umfangreiche Changes wird oft ein separates Change Evaluation durchgeführt und in einem Evaluierungsbericht festgehalten, ob der Change die gewünschten Kriterien erfüllt (insbesondere nach Build/Test-Phase). Beispielsweise: Ein Datenbank-Upgrade für das CAFM-System wird erst in Testumgebung erprobt; der Evaluierungsbericht empfiehlt die Durchführung, weil Tests erfolgreich und Performance verbessert sind. Ein wichtiger Aspekt: alle Changes sollen mit ausreichendem Vorlauf geplant werden – hektische Ad-hoc-Änderungen sind zu vermeiden, da sie typischerweise Fehler verursachen.

Durchführung (Implementierung):

Am festgelegten Termin wird der Change implementiert. Je nach Art geschieht dies nach einem Implementierungs-Runbook: eine Schritt-für-Schritt-Anleitung, was zu tun ist (z. B. „Service stoppen, Backup ziehen, Update einspielen, Datenbank migrieren, Service starten, Smoke-Test durchführen“). Der Change Manager/Koordinator überwacht den Ablauf und hält ggf. Kontakt mit beteiligten Teams. Überwachung während der Durchführung ist wichtig – treten Probleme auf, kann man gemäß Back-Out-Plan rechtzeitig abbrechen. Im Erfolgsfall wird der Change vollständig umgesetzt. Nach Implementation wird oft ein Review gemacht: War die Durchführung nach Plan? Haben alle Beteiligten Rückmeldung gegeben? Gibt es Abweichungen zu dokumentieren?

Validierung und Abschluss:

Nach dem Implementieren muss der Change validiert werden – d.h. man verifiziert, dass die Änderung den gewünschten Effekt hatte und keine unerwarteten Nebenwirkungen entstanden sind. Oft übernimmt dies das Release Management bzw. Test-Team im Rahmen des Deployments (siehe nächster Abschnitt). Ggf. wird eine Abnahme durch den Serviceverantwortlichen oder Anwender durchgeführt. Ist alles in Ordnung, wird der Change im System als geschlossen markiert, inklusive Dokumentation der Ergebnisse (z. B. „Upgrade erfolgreich, neue Version X.Y läuft stabil“). Falls der Change fehlschlägt oder negative Auswirkungen hat, greift der Back-Out-Plan: die Änderung wird revertiert (z. B. altes Backup zurückgespielt). Solche failed changes werden als Incidents erfasst und nachverfolgt – ein wichtiges Erfolgskriterium ist, wie viele Changes ohne Rollback auskamen. Jeder fehlgeschlagene Change wird einer Ursachenanalyse unterzogen (Was lief schief? Unzureichend getestet? Falsche Annahmen?) und dem CAB berichtet, um daraus zu lernen.

Dokumentation:

Sämtliche Änderungen werden im Change-Register protokolliert. Dazu gehört, die CMDB zu aktualisieren (neue Versionsnummern, neue CIs etc.), sowie Change-Historie in Verträgen/SLA-Anhängen nachzuführen. Das CAB kann Berichte über durchgeführte Changes erhalten (Change Management Reports) zur Transparenz. Für auditiert Betrieb (z. B. ISO 20000 oder regulatorische Anforderungen) ist die lückenlose Dokumentation von wem-wann-warum-gewollt-und-genehmigt- geändert-wurde essenziell.

Kommunikation:

Kommunikation ist ein Schlüssel im Change Management. Alle Stakeholder müssen angemessen informiert sein – vor dem Change (Ankündigungen geplanter Downtimes, Release Notes), währenddessen (Status-Updates bei längeren Arbeiten) und nachher (Erfolgsmeldung oder Problemhinweis). ITIL betont, dass zu wenig Kommunikation eine häufige Ursache für fehlgeschlagene Changes ist. Deshalb etabliert man oft einen Kommunikationsplan: z. B. „Mail an alle Nutzer 5 Tage vorher mit Hinweis auf Systemwartung; Erinnerung 1 Tag vorher; Info nach Abschluss ob erfolgreich oder zurückgerollt.“ Das CAB fungiert hier als Kommunikations- und Abstimmungsplattform zwischen IT und Business für Changes.

Schnittstellen:

Change Management empfängt Changes aus nahezu allen Bereichen: Incident/Problem (zur Fehlerbehebung), Service Requests (z. B. Kapazitätserweiterungen), Projekte (neue Module) etc.. Es gibt Überschneidungen mit Release Management, da umfangreiche Changes oft in Releases gebündelt werden – hier ist Abstimmung nötig, welche Changes gemeinsam ausgerollt werden. Zudem liefert Change Management Input ans Configuration Management, weil jede genehmigte Änderung an CIs dort nachvollzogen werden muss (auch das Configuration Management System sorgt umgekehrt dafür, dass keine Changes an CIs ohne Change-Prozess erfolgen). Mit Service Level Management besteht indirekt die Verbindung, dass bestimmte Changes vertraglich geregelt sein können (Wartungsfenster in SLA, siehe weiter unten).

In Summe garantiert ein diszipliniertes Change Management, dass Veränderungen am CAFM-System kontrolliert, geplant und mit minimalen Risiken einhergehen. Dadurch bleiben Services stabil, trotz notwendiger Weiterentwicklung. Insbesondere für CAFM, das oft integraler Bestandteil der technischen Gebäudeausrüstung ist, verhindert Change Management, dass z. B. ein unkoordiniertes Update plötzlich die Kommunikation mit Klimaanlagen oder Zutrittssystemen stört – indem es alle relevanten Parteien einbindet und technische sowie geschäftliche Auswirkungen vorab durchdenkt.

Release- und Deployment-Management-Prozess

Das Release Management schließt an das Change Management an und realisiert die Bereitstellung genehmigter Changes in gebündelter Form. In vielen Organisationen gilt: erst wenn mehrere Changes akkumuliert sind, wird ein Release geschnürt, um effizient auszuspielen. Ein Release kann dabei mehrere einzelne Changes umfassen, die zusammen deployt werden.

Der Prozess lässt sich in mehrere Phasen unterteilen:

Release-Planung: Der Release Manager sichtet die anstehenden Changes (aus Change Management) und entscheidet, welche in einem Release-Paket zusammen ausgeliefert werden. Dabei wird der Umfang und Inhalt des Releases definiert – z. B. „Release 2023-Q4 beinhaltet: Update der CAFM-Core-Software auf Version 3.5, neue Schnittstelle zum ERP, 5 Bugfixes, DB-Schema-Änderungen“. Anhand dessen wird ein Release-Zeitplan erstellt: Wann werden die Komponenten entwickelt oder beschafft? Wann findet der Test statt? Wann ist das geplante Rollout-Datum? Hier fließen Inputs vom Change Management (Dringlichkeit einzelner Changes) und vom Business (präferierte Zeitfenster) ein. Die Release-Planung wird idealerweise als Forward Schedule of Release dokumentiert und an Stakeholder kommuniziert, um Erwartungen zu managen.
Release Build & Test (Entwicklungsvorbereitung): In dieser Phase werden alle benötigten Release-Komponenten beschafft oder erstellt. Dazu gehören z. B. das Software-Paket der neuen Version, Migrationsskripte, Hardware-Komponenten, Konfigurationsdateien usw. Interne und externe Entwicklungsaufträge werden initiiert. Am Ende der Build-Phase liegt ein vollständiges Release-Paket in einer Testumgebung vor, bereit für den Integrationstest. Parallel sollte eine Testplanung laufen: Testfälle definieren, Testdaten vorbereiten, Testteam schulen. In großen Organisationen übernimmt ein Test Manager die Koordination. Für unser CAFM-Beispiel würde das bedeuten: Einrichtung einer Testinstanz des CAFM-Systems in aktueller Version, Einspielen aller geplanten Änderungen, sowie Erstellen eines Testszenarios (z. B. Benutzerlogin, Flächenreporting, Schnittstellendaten prüfen) um sicherzustellen, dass die Änderungen zusammen funktionieren.
Release-Test / Service Validation: Nun durchläuft das Release eine Testphase (oft Service Validation and Testing genannt). Hier wird überprüft, ob das Release qualitativ ausreichend ist und die Services wie erwartet funktionieren. Unterschiedliche Teststufen können zum Einsatz kommen: Komponententest, Integrationstest, Systemtest, Abnahmetest. Man testet nicht nur die neuen Funktionen, sondern auch, ob bestehende Funktionen weiterhin intakt sind (Regressionstest), um sicherzustellen, dass das Release keine Nebeneffekte bringt. Treten Probleme auf, geht das Release zurück in Entwicklung (Fehler beheben, erneut testen). Falls das Release die Kriterien nicht erfüllt, kann entschieden werden, es zu verschieben oder aufzuteilen (z. B. problematische Change herausnehmen). Bei erfolgreichem Test wird ein Go-Live-Empfehlung ausgesprochen. In vielen ITIL-Prozessen ist hier ein Quality Gate eingebaut – z. B. ein CAB könnte das Testergebnis sichten und final grünes Licht geben für die Live-Einführung, insbesondere bei risikoreichen Releases.
Deployment (Ausrollen in Produktion): Das eigentliche Deployment des Releases erfolgt gemäß dem geplanten Termin. Zunächst werden alle Beteiligten informiert (z. B. „Release beginnt heute 20:00 Uhr, erwartete Dauer 2h, Services in dieser Zeit eingeschränkt“). Dann werden die vorab erprobten Deployment-Schritte in der Live-Umgebung durchgeführt: z. B. Umschalten auf Wartungsmodus, Datensicherung, Installation der neuen Version, Datenmigration, Neustart der Dienste, erster Funktionstest. Das Release Management stellt sicher, dass auch Betriebsdokumentation und Benutzerinformationen aktualisiert bzw. verteilt werden – etwa Release Notes an die Anwender versenden, neue Benutzerhandbücher bereitstellen, Betriebshandbücher anpassen. Ein oft übersehener Punkt ist die Schulung: Der Release-Prozess schließt ein, dass End-User und Support-Mitarbeiter bezüglich neuer oder geänderter Funktionen geschult werden (oder zumindest informiert), um einen reibungslosen Übergang zu gewährleisten. Im CAFM-Kontext könnte das heißen: Die CAFM-Anwender erhalten eine kurze Einweisung in eine neue Modul-Oberfläche, oder der Helpdesk bekommt ein Infoblatt über geänderte Menüpunkte, damit sie Nutzeranfragen beantworten können.
Early Life Support: Nach dem Deployment beginnt die Phase des Early Life Support (ELS). Das bedeutet, das Projekt-/Release-Team (oder verstärktes Operations-Team) steht in den ersten Tagen/Wochen nach Go-Live in erhöhter Alarmbereitschaft, um auftretende Startschwierigkeiten sofort zu beheben. In dieser Anlaufphase werden häufige kleine Probleme direkt adressiert, Feinjustierungen vorgenommen und die Systemstabilität eng überwacht. Der ELS dient dazu, den Übergang in den normalen Betrieb zu erleichtern – der Support-Level ist zeitweilig erhöht, bis das neue Release als stabil angesehen werden kann. Beispielsweise könnten nach dem CAFM-Update vermehrt Anfragen zum geänderten UI kommen, oder es zeigt sich im Echtbetrieb ein Performance-Engpass – das Release-Team reagiert dann kurzfristig (z. B. indem es einen Patch nachschiebt oder Einstellungen optimiert).
Release-Abschluss: Sobald das Release erfolgreich etabliert und der Betrieb normalisiert ist, wird das Release formal abgeschlossen. Der Release Manager prüft, ob alle Aktivitäts-Logs vollständig sind und insbesondere, ob die Configuration Management Database (CMDB) bzw. das Configuration Management System aktualisiert wurde (neue Versionen, neue CIs etc.). Dann erfolgt die Freigabe des Release in den „Alltag“. Zum Abschluss erstellt der Release Manager häufig einen Release Report, der den Verlauf, aufgetretene Probleme und ggf. Abweichungen dokumentiert. Hier wird auch evaluiert, ob der Release-Prozess eingehalten wurde oder ob Verbesserungspotential besteht (z. B. „Testdauer zu knapp bemessen, nächstes Mal länger einplanen“ – schon ein Übergang ins CSI). Minor Changes, die keine Release-Begleitung brauchen, werden ebenfalls als abgeschlossen markiert. Die Release-Nummer wird an alle relevanten Stellen kommuniziert (z. B. „Wir befinden uns nun auf CAFM-Version 3.5 – alle nachfolgenden Changes beziehen sich darauf“).

Parallelen und Unterschiede:

In klassischen Umgebungen war Release Management oft auf Software-Releases fokussiert. In einem CAFM-Projekt können Releases aber auch andere Änderungen beinhalten (Konfigurations-Releases, infrastrukturelle Änderungen). Moderne Ansätze (DevOps, CI/CD) versuchen, Releases häufiger und automatisierter auszuliefern – aber auch dort gilt es, die Kernprinzipien (Test, stufenweise Deployment, Automation) im Sinne von Release Management beizubehalten.

Schnittstellen:

Release Management erhält die genehmigten Changes vom Change Management. Es hat enge Verbindung mit Projektmanagement (wenn Releases groß sind, können sie als Projekte gesteuert werden – ITIL 2011 führte z. B. Transition Planning and Support als Prozess ein, der dem Release mgmt. vorgelagert ist). Außerdem interagiert es mit Configuration Management, um alle Änderungen an CIs sauber zu erfassen. Release Management gibt an Problem Management Informationen zurück – z. B. kann ein Release neue Known Errors mitliefern (hoffentlich nicht!), oder Problem-Lösungen werden erst mit einem Release wirksam, das muss kommuniziert sein.

Letztlich sorgt Release & Deployment Management dafür, dass Änderungen in geordneten Bahnen in den produktiven Betrieb gelangen, ohne die Betriebssicherheit zu kompromittieren. Für CAFM-Systeme, bei denen Ausfallzeiten die Arbeit ganzer Facility-Teams beeinträchtigen könnten, ist es essenziell, dass Releases gut geplant (meist in Wartungsfenstern, z. B. nachts oder am Wochenende), umfangreich getestet und zuverlässig ausgerollt werden. Der Prozess schafft Vertrauen, dass Updates nicht zum Glücksspiel werden, sondern kontrolliert und professionell erfolgen.

Integration in bestehende ITSM-Systeme (nach ITIL)

Die Einführung von Incident/Problem/Change/Release Management im Rahmen eines CAFM-Projekts sollte nicht isoliert erfolgen, sondern sich in die bestehende ITSM-Landschaft der Organisation nahtlos einfügen. In vielen Unternehmen gibt es bereits etablierte ITIL-Prozesse und oft auch ein zentrales ITSM-Tool (Ticket-System), über das alle IT-Services gemanagt werden. Eine Integration bedeutet hier zweierlei: prozessuale Eingliederung in das ITIL-Rahmenwerk und technische/werkzeugseitige Anbindung an vorhandene Systeme.

Prozessuale Integration:

Das CAFM-System ist letztlich ein weiterer IT-Service, der im Service Portfolio und Servicekatalog der IT auftaucht. Demnach sollten Incidents und Changes rund um das CAFM nicht separat in einer „Facility-Support-Welt“ behandelt werden, sondern nach den gleichen ITSM-Vorgaben wie andere IT-Services (z. B. ERP, Netzwerk) gesteuert werden. Konkret heißt das: Incidents zu CAFM laufen über den zentralen Service Desk – Benutzer melden Störungen des CAFM-Systems an die übliche IT-Hotline oder das Self-Service-Portal, nicht über einen Sonderweg. Der Service Desk ist geschult, CAFM-Meldungen einzuordnen und gegebenenfalls an das spezialisierte CAFM-Support-Team (2nd Level) weiterzuleiten. Das stellt sicher, dass alle Störungen einheitlich erfasst werden und z. B. ein Benutzer nicht verschiedene Anlaufstellen für verschiedene Systeme hat.

Einbindung in Incident-/Problem-Queue:

Auf Prozessebene bedeutet dies, dass das CAFM-Team Teil der normalen Eskalationskette ist. Beispielsweise taucht in den Prozessdokumenten auf, dass 2nd Level Incidents für den Service „CAFM“ an das „Facility IT-Team“ gehen und dass bei Bedarf 3rd Level an den Softwarehersteller eskaliert wird – letzteres ggf. über ein Underpinning Contract geregeltes Verfahren. Problems, die das CAFM-System betreffen, werden im allgemeinen Problem-Management-Meeting der IT erörtert, sodass Transparenz besteht und Synergien genutzt werden können (vielleicht betrifft ein Problem ja mehrere Services).

Change-Advisory Board Einbindung:

Bei Changes im CAFM-Kontext sollte das bestehende CAB oder ein passendes Gremium diese mit beurteilen. Idealerweise sind Facility-Management-Vertreter im CAB vertreten, wenn CAFM-Änderungen diskutiert werden (z. B. ein größerer Release, der Arbeitsprozesse im Gebäudemanagement verändert, sollte mit der Fachseite abgestimmt sein). Umgekehrt sollten Änderungen, die auf IT-Infrastruktur-Ebene passieren und das CAFM tangieren (z. B. Datenbank-Version-Upgrade global) dem CAFM-Team transparent gemacht werden. Hier hilft die CMDB: Das CAFM-System und seine Komponenten (Server, Services, Schnittstellen) sind als Configuration Items erfasst, inklusive ihrer Beziehungen. So sieht man bei einem geplanten Change z. B. „Patchen des Oracle-Datenbankservers“, dass auch der CI „CAFM-DB“ betroffen ist – der Change Manager kann die CAFM-Verantwortlichen informieren und ihre Zustimmung einholen.

Nutzung zentraler Tools:

Integrieren heißt auch, kein Inseldasein zu führen: Das CAFM-Team sollte das gleiche Ticketing- und Change-Tool benutzen wie der Rest der IT. Moderne ITSM-Suites (ServiceNow, BMC, OTRS etc.) erlauben es, unterschiedliche Services und Supportgruppen abzubilden – das CAFM kann dort als eigener Service mit dedizierter Supportgruppe konfiguriert werden. Damit fließen alle relevanten Daten in gemeinsame Dashboards und Berichte ein: z. B. ein CIO sieht in seinem Monatsreport die Incidents nach Service aufgeschlüsselt, inklusive CAFM. Das fördert die Durchgängigkeit: ein Incident, der zunächst als „Netzwerkproblem“ diagnostiziert war, aber sich als CAFM-Anwendungsfehler entpuppt, kann im selben System umgehängt werden, ohne Informationsverluste.

ITIL-Konformität sicherstellen:

Oft existieren in einem Unternehmen standardisierte Prozessvorlagen für Incident, Problem etc. – diese sollten für das CAFM übernommen und ggf. leicht angepasst werden, statt komplett eigene Prozesse zu erfinden. Beispielsweise gibt es vielleicht bereits eine Incident-Kategorisierungsmatrix, SLAs und Eskalationsregeln – diese können auf den Service CAFM angewandt werden (ggf. muss man spezifische Kategorien für Gebäude-spezifische Themen hinzufügen). Ebenso sollte das CAFM-Änderungsmanagement die generellen Change Policies der IT einhalten (z. B. „Major Changes benötigen CAB-Freigabe mit einer Vorlaufzeit von 2 Wochen“). Die Integration nach ITIL heißt hier: Die CAFM-Prozesse erfüllen die gleichen Qualitätskriterien und Kontrollmechanismen wie überall, und sie passen nahtlos ins Gesamtbild.

Schnittstellen zu anderen ITIL-Prozessen:

Ein vorhandenes Service Level Management wird beispielsweise für den CAFM-Service eigene SLA-Ziele definieren (siehe nächster Abschnitt). Das Event Management (Überwachung der Infrastruktur) sollte auch CAFM-Komponenten einschließen – z. B. einen Sensor, der die Verfügbarkeit des CAFM-Webportals prüft, welcher Incidents triggert. Das Availability Management der IT sollte auch die Verfügbarkeitsanforderungen des CAFM-Systems mitbetrachten, etc. Integration bedeutet also auch, dass CAFM im IT Service Continuity Plan auftaucht (Notfallplanung, Backup/Recovery), in Kapazitätsplanungen (wenn Nutzerzahlen steigen, auch CAFM-Server aufstocken) und so weiter. Die IT-Governance schließt diesen Service voll mit ein.

Zusammenarbeit mit Facility-Management-Prozessen:

Eine Besonderheit: CAFM bewegt sich an der Schnittstelle von klassischer IT und Facility-Fachabteilung. Daher ist eine Integration auch in die FM-Prozesse wichtig. Beispielsweise haben Facility Manager evtl. ein eigenes Ticketsystem für Gebäudereparaturen – sinnvoll ist es, das ITIL-Incident Management mit diesen Prozessen zu koppeln (z. B. ein Incident „CAFM-Ausfall“ könnte parallel im FM-System als Betriebsstörung vermerkt sein). Wo möglich, sollten Schnittstellen geschaffen werden, damit Informationen fließen und keine Doppelarbeit entsteht. Denkbar ist, dass ein Work Order aus dem CAFM (z. B. Wartungsauftrag scheitert wegen Systemfehler) automatisch ein IT-Incident generiert.

Verminderung von Medienbrüchen:

Insgesamt soll die Integration vermeiden, dass Informationen in Silos stecken. Wenn z. B. der CAFM-Hersteller ein eigenes Supportportal hat, über das 3rd Level Incidents laufen, sollte das IT-Team dafür sorgen, dass Updates von dort ins eigene System übernommen werden (manche ITSM-Tools bieten Integrationen/API hierfür). Ein zentraler Lagebericht über alle Incidents, Changes etc. ist nur möglich, wenn das CAFM miteinbezogen wird. Dadurch profitieren auch die Facility-Abteilung und IT voneinander: Das IT Service Management erhält Einblick in gebäudetechnische Zusammenhänge, die FM-Abteilung sieht ihr System im Kontext aller IT-Services.

Kurz gesagt:

Die CAFM-spezifischen Prozesse dürfen kein Fremdkörper sein, sondern sollten in den Standard-ITSM-Prozess-Flow eingebettet sein. Dies gewährleistet konsistente Handhabung, bessere Kommunikation zwischen Teams und eine einheitliche Servicekultur. Außerdem spart es Aufwände – man nutzt vorhandene Tools, Trainings, Erfahrungen und muss das Rad nicht neu erfinden.

Tools zur Prozessunterstützung, Ticketing, Dokumentation und Automatisierung

Die effektive Umsetzung von Incident/Problem/Change/Release Management hängt maßgeblich von geeigneten Werkzeugen ab. In modernen ITSM-Umgebungen kommen integrierte Softwarelösungen zum Einsatz, die die Prozesse digital abbilden und unterstützen. Für CAFM-Betriebsverantwortliche und IT-Service-Manager ist es wichtig, die richtigen Tools auszuwählen bzw. vorhandene Tools richtig zu nutzen, um die Prozesse effizient, transparent und nachvollziehbar zu gestalten.

Im Folgenden werden die wesentlichen Toolkategorien und -funktionen skizziert:

Ticketing-/Service-Management-System: Zentrales Element ist ein ITSM-Ticketsystem (Incident Management Tool), in dem alle Incidents, Service Requests, Problems und Changes erfasst und verfolgt werden. Typische Vertreter sind z. B. ServiceNow, BMC Helix/Remedy, Jira Service Management, Ivanti, OTRS, Freshservice u.v.m. (Produktneutralität sei hier gewahrt – entscheidend sind die Funktionen). Das Ticketing-Tool ermöglicht Workflow-Automatisierung: Tickets lassen sich zuweisen, priorisieren, eskalieren und mit Notizen versehen. Für Incident Management bedeutet das: automatische Benachrichtigungen bei Eskalation, SLA-Timer, standardisierte Formularfelder (Kategorie, Auswirkung etc.). Ein gutes Tool bietet ein Self-Service-Portal für Anwender, über das diese Störungen melden können, und eine Mobile App für Techniker im Feld (gerade bei CAFM wichtig, da viele Techniker mobil arbeiten). Integriert sind oft Wissensdatenbanken (Knowledge Base), wo bekannte Lösungen oder Workarounds hinterlegt sind und vom Ticket aus recherchiert werden können. Für Problem Management erlaubt das System, Incidents zu verknüpfen (Clustering) und Problem Records mit Known Error Einträgen zu führen. Für Change Management verfügt es über Module zum Genehmigungs-Workflow (Genehmiger klicken im Tool auf Freigabe/Ablehnung, es gibt E-Mail-Approvals usw.), zum Hinterlegen von Impact-Analysen, zum Planen von Umsetzungsschritten und – ganz wichtig – zur CAB-Planung: man kann CAB-Meetings terminieren, Agenda mit Changes füllen und Protokoll führen. Das Release Management kann mit dem Change-Modul verzahnt sein oder via dedizierten Deployment-Tools (siehe unten) erfolgen. Insgesamt stellt so ein System sicher, dass Tickets lückenlos dokumentiert sind und jederzeit einsehbar ist, wer was wann gemacht hat.
Monitoring- und Event-Management-Tools: Um Incidents automatisiert auszulösen, werden Überwachungssysteme eingesetzt (z. B. Nagios, Zabbix, PRTG, Splunk oder Cloud-Monitoring-Dienste). Diese Tools beobachten die Systemparameter (Server-Performance, Speicher, Antwortzeiten) und können Events generieren, die bei Schwellwertüberschreitung an das Incident Management gemeldet werden. Ein integratives Setup sendet solche Alerts direkt ins Ticket-System (Event-Management koppelt an Incident-Management). Beispiel: Die CPU-Auslastung des CAFM-Datenbankservers überschreitet 95% – das Monitoring erzeugt automatisch einen Incident „Warnung: Hohe CPU auf DB-Server“, welcher dem entsprechenden Support-Team zugewiesen wird, noch bevor ein Benutzer etwas bemerkt. Diese Automatisierung verkürzt Reaktionszeiten drastisch. Außerdem können Monitoring-Tools Trends liefern, die für proaktives Problem Management genutzt werden (z. B. Berichte über sich häufende Fehlermeldungen im Log). Einige Tools nutzen KI/ML (AIOps), um Anomalien zu erkennen und Incidents zu korrelieren (z. B. zig Sensoralarme zu einem Knoten zusammenfassen).
Wissensmanagement und Dokumentationstools: Ein integraler Bestandteil insbesondere von Problem und Incident Management ist das Wissensmanagement. Tools wie Confluence, SharePoint, Wikis oder die in ITSM-Suiten eingebetteten Knowledge Bases erlauben das Ablegen und Auffinden von Lösungsartikeln, Known Error Beschreibungen, FAQs etc. Für den CAFM-Betrieb sollte eine Wissensdatenbank aufgebaut werden: z. B. Artikel „Fehlermeldung X beim Raum-Import – Ursache und Lösung“, oder „Wie startet man den CAFM-Service neu“. Das Ticket-System kann oft direkt auf diese KB zugreifen und vorschlagen („Bei diesem Incident-Schlüsselwort gibt es einen KB-Artikel.“). Ebenso dienen diese Tools zum Festhalten von Workarounds und Lessons Learned. Dokumentationstools werden auch gebraucht, um Changes und Releases zu dokumentieren: Beispielsweise hinterlegt man im Wiki die Release Notes jeder Version, Migrationsanleitungen, oder man pflegt ein Betriebshandbuch für das CAFM-System. Wichtig ist eine Versionierung und zentrale Ablage solcher Dokus, damit das gesamte Team darauf Zugriff hat.
Konfigurationsmanagement-Datenbank (CMDB): Ein spezielles Tool/Modul ist die CMDB, in der alle CIs des CAFM-Systems (Server, VMs, Applikationskomponenten, Datenbanken, Schnittstellen, Standorte, Clients etc.) samt ihren Beziehungen modelliert sind. Diese Datenbank – häufig Teil der ITSM-Suite – ist für Change und Incident Management Gold wert, weil sie zeigt, was hängt an was. Zum Beispiel ermöglicht die CMDB eine Auswirkungsanalyse: „Wenn wir diesen Server neu starten (Change) – welche Services (CI „CAFM-Webservice“) hängen dran?“ Oder: „Dieser Incident betrifft CI X – was wurde an diesem CI zuletzt geändert? (Change-Historie)“. In der CMDB können auch Verträge (UCs) mit Lieferanten hinterlegt werden, was im Incident-Fall hilft (z. B. Wartungsvertrag mit CAFM-Hersteller, Reaktionszeit 4h, also 3rd Level nach 2h alarmieren). Die Pflege der CMDB muss tool-unterstützt sein: idealerweise gibt es automatisierte Discovery-Mechanismen, die Änderungen an der Umgebung erkennen (neue VM, geänderte Softwareversion) und einpflegen. So bleibt die CMDB aktuell und das Change Management kann bei jedem RFC prüfen, ob alle betroffenen CIs erfasst sind.
Change-/Release-Automatisierungstools: Für die Umsetzung von Changes und Releases werden zunehmend DevOps-Tools genutzt. Build-Server und Pipeline-Tools (Jenkins, GitLab CI, Azure DevOps etc.) können Softwareänderungen automatisch paketieren, Tests anstoßen und bis in Staging/Prod deployen – natürlich nur nach Freigabe. Solche Tools unterstützen Continuous Integration/Continuous Deployment (CI/CD). In Verbindung mit Change Management kann man standardisierte Pipelines definieren, z. B.: Code-Änderung im CAFM-Customizing wird eingecheckt, Build-Server erstellt Test-Build, Test wird gefahren, bei Erfolg wird ein Change Request generiert, nach Genehmigung wird via Pipeline in Produktion deployt. Auch Infrastructure as Code (Terraform, Ansible) kann Changes an Infrastruktur definieren und kontrolliert ausrollen. Für Release Management spezifisch gibt es Release-Orchestration-Tools, aber oft werden Releases einfach im Change-Modul als „Change Bundles“ behandelt.
Ticket-Automatisierung und Bots: Routineaufgaben im Incident und Service Request Management lassen sich mit Automation entlasten. Beispielsweise können Chatbots oder virtuelle Agenten einfache Anfragen beantworten oder Tickets erstellen („CAFM-Bot: Ich sehe du hast das Wort ‚Passwort vergessen‘ geschrieben, soll ich ein Reset durchführen?“). Manche Systeme bieten automatisches Routing – basierend auf Ticket-Kategorie wird automatisch an die richtige Supportgruppe zugewiesen, ohne manuellen Dispatcher. Oder SLA-gesteuerte Eskalationen: Das Tool kann selbständig nach x Minuten ohne Bearbeitung eskalieren (Benachrichtigung an Manager). In Problem Management könnte ein System mittels Pattern Recognition erkennen, dass 5 Incidents in letzten 2 Tagen sehr ähnlich sind, und vorschlagen, ein Problem daraus zu machen. Automatisierung verbessert die Geschwindigkeit und Konsistenz in den Prozessen, muss aber gut konfiguriert sein, damit sie den richtigen Effekt hat.
Reporting- und Dashboard-Tools: Zur Überwachung der Prozesse werden Tools für Auswertung und Visualisierung benötigt. Meist bringen ITSM-Suites eingebaute Berichte mit (Anzahl Incidents pro Monat, MTTR, Change-Erfolgsquote etc.) und Dashboard-Funktionen, in denen Echtzeitdaten zu sehen sind (z. B. wie viele P1 Incidents sind gerade offen? Welche Changes stehen diese Woche an?). Solche Tools helfen Service Managern, jederzeit den Überblick zu bewahren und Engpässe zu erkennen. In anspruchsvolleren Fällen werden BI-Tools angeschlossen, um historische Analysen oder KPI-Trends über längere Zeit darzustellen.
Collaboration-Tools: Neben den dedizierten ITSM-Tools nutzen Teams oft allgemeine Kollaborationswerkzeuge (Slack/Teams, E-Mail-Integrationen, Ticket<->Chat-Kopplungen), um im Prozess schnell Infos auszutauschen. Ein Beispiel: Das Incident-Team hat einen Slack-Kanal #cafm_incidents, wo das Ticket-System bei bestimmten Incidents automatisch eine Nachricht postet („Incident #123 kritisch, CAFM down“) – so sind alle im Team sofort alarmiert. Oder bei Changes wird ein Calendar-Entry im gemeinsamen Kalender angelegt, damit jeder die Termine sieht.

Für den CAFM-Betrieb ist es wichtig, ein stimmiges Tool-Set zu haben:

Alle relevanten Beteiligten müssen Zugriff haben und es muss für Facility-bezogenes Personal einfach nutzbar sein (ggf. etwas Schulung, falls diese mit ITSM-Tools nicht vertraut sind). Durch Tools lassen sich viele manuelle Schritte vermeiden und Prozess-Compliance erhöhen – das System erzwingt quasi, dass jeder Incident ein Feld „Lösung“ ausgefüllt hat, bevor er geschlossen werden kann, oder dass kein Change ohne Genehmigung in Status „Implementieren“ geht. Letztlich unterstützen Tools auch die Nachweispflicht: Bei Audits kann man aus dem System ziehen, wann welche Änderung von wem freigegeben wurde, oder wie viele Incidents in SLA waren.

Kurz gefasst:

Die richtigen Tools sind Enabler, um Incident/Problem/Change/Release Management lebendig und effizient werden zu lassen. Sie bieten Transparenz, Automation und Wissensspeicherung, was im Tagesgeschäft enorm hilft. Gerade im CAFM-Umfeld, das interdisziplinär zwischen IT und Gebäudemanagement angesiedelt ist, bauen Tools die Brücke für gemeinsame Sicht auf Störungen und Änderungen.

Anforderungen an SLAs und OLAs im Incident- und Change-Management

Service Level Agreements (SLAs) und Operational Level Agreements (OLAs) definieren die Leistungs- und Reaktionsziele sowohl gegenüber dem Kunden (Fachabteilung, Nutzer) als auch zwischen internen Supporteinheiten. Im Kontext von Incident- und Change-Management für ein CAFM-System sind klare SLAs/OLAs entscheidend, um Erwartungen zu steuern und die Servicequalität messbar festzulegen.

Ein SLA ist eine Vereinbarung zwischen dem Service Provider (z. B. interne IT oder externer Dienstleister) und dem Kunden über die zu erbringende Serviceleistung.

Für das Incident Management eines CAFM-Services würde ein SLA typischerweise Reaktions- und Wiederherstellungszeiten für unterschiedliche Incident-Prioritäten festlegen. Beispielsweise:

Priorität 1 (geschäftskritischer Incident, z. B. gesamtes CAFM nicht verfügbar): Reaktionszeit 15 Minuten, Lösungszeit 4 Stunden. Eventuell inklusive Eskalationspfade, z. B. nach 1 Stunde ohne Lösung an höhere Instanz eskalieren.
Priorität 2 (hohe Auswirkung, z. B. wesentliches Modul ausgefallen): Reaktionszeit 1 Stunde, Lösung innerhalb 8 Stunden.
Priorität 3 (mittlere Auswirkung, z. B. einzelne Funktionen gestört): Reaktion am gleichen Arbeitstag, Lösung innerhalb 3 Werktagen.
Priorität 4 (geringe Auswirkung oder Anfragen): Reaktion innerhalb 2 Tage, Lösung nach Vereinbarung oder im nächsten Release.

Diese Werte sind nur beispielhaft – konkrete SLA-Ziele hängen von den Business-Anforderungen ab (24x7-Betrieb oder nur Bürozeiten? Tolerierbare Ausfallzeiten?). Wichtig ist, dass im SLA auch Servicezeiten definiert sind (z. B. Support 8-18 Uhr werktags) und Kommunikationswege bei Incidents (z. B. im P1-Fall muss telefonisch gemeldet werden). Das SLA erweitert quasi die Servicebeschreibung um genaue Zielvorgaben und Verantwortlichkeiten.

Für das Change Management sind SLA-ähnliche Parameter seltener anzutreffen, da Changes meist geplant sind. Dennoch können im SLA indirekte Anforderungen stehen, etwa Maximale geplante Downtime pro Wartungsfenster (z. B. „geplante Changes dürfen pro Monat max. 4 Stunden Serviceunterbrechung verursachen“) – dies schützt den Kunden davor, dass zu viele oder zu lange Wartungen stattfinden. Ebenso könnte vereinbart sein, wann Changes durchgeführt werden (z. B. nur außerhalb der Geschäftszeiten, am Wochenende etc.). SLA-Vorgaben könnten auch Ankündigungsfristen für größere Changes enthalten („mind. 5 Tage vorher ankündigen bei Nutzern“) – dies ist mehr im Abschnitt Kommunikation relevant, aber kann Teil der Servicequalität sein.

Operational Level Agreements (OLAs) sind interne Vereinbarungen zwischen verschiedenen Einheiten des Service Providers (z. B. zwischen Service Desk und 2nd Level Team). Sie stellen sicher, dass die internen Prozesse die SLAs einhalten. Für Incident Management bedeutet das: Wenn der SLA z. B. 4h Lösungszeit für P1 vorsieht, muss intern geregelt sein, wie schnell die Level weitergeben. Eine OLA könnte z. B. festlegen: Der 1st Level Support analysiert und löst, sofern möglich, P1-Incidents innerhalb von 30 Minuten; wenn nicht gelöst, Übergabe an 2nd Level innerhalb dieser 30 Minuten. Der 2nd Level verpflichtet sich per OLA, innerhalb 1 Stunde mit der Bearbeitung zu beginnen und ggf. den 3rd Level (Hersteller) zu involvieren. Der 3rd Level hat vielleicht einen Underpinning Contract (UC) mit ebenfalls geregelten Zeiten (z. B. Hersteller-Support reagiert innerhalb 2h auf P1-Anfrage) – das UC spiegelt dann extern die OLA wider. Summiert ergeben OLA + UC die Erfüllung des SLA.

Im Change-Management-Kontext sind OLAs seltener formal, aber es gibt intern oft Lead Time Vereinbarungen:

z. B. Anträge für normale Changes müssen bis Mittwoch 12:00 eingereicht sein, um im CAB der gleichen Woche zu kommen. Das ist quasi eine interne Regel, um effizient zu arbeiten. Oder OLA zwischen Change Manager und Umsetzungsteams: Nach CAB-Freigabe implementiert das Operations-Team den Change innerhalb 5 Arbeitstage. So etwas könnte in Betriebshandbüchern festgehalten sein. Ziel ist, dass interne Teams abgestimmt arbeiten und der Endkunde nicht merkt, wer was tut, sondern nur, dass die SLA zugesagt eingehalten wird.

SLA-Parameter für CAFM-Service (Incident): Häufig werden auch Verfügbarkeits-SLAs definiert:

z. B. „CAFM-Service muss zu 99,5% in den zugesagten Servicezeiten verfügbar sein“. Das Change Management muss dies beachten – d.h. Summe der geplanten Downtimes sollte so sein, dass 99,5% erreicht werden (ca. 1,8h Ausfall pro Monat maximal). Incident SLAs und Mean Downtime fließen in solche Verfügbarkeitskennzahlen ein. Ein weiterer SLA-Aspekt: Servicequalität bei Changes – manche Verträge definieren z. B. Maximale Anzahl fehlgeschlagener Changes pro Jahr, oder Backout muss in <30 Min möglich sein. Dies ist seltener, aber in kritischen Umfeldern (Banken, Flughäfen etc.) kann es vorkommen.

Überwachung der SLA/OLA-Einhaltung:

Es ist notwendig, regelmäßig zu prüfen, ob SLAs erfüllt werden. Im Incident Management wird z. B. der Prozentsatz der innerhalb der SLA-Zeit gelösten Incidents gemessen. Falls dieser z. B. unter 95% fällt, muss nachgesteuert werden (mehr Personal, Prozess verbessern etc.). OLAs ebenso: Wenn etwa der 2nd Level oft nicht innerhalb seiner OLA reagiert, gefährdet das den SLA – das muss adressiert werden (vielleicht hat das Team zu wenig Leute oder wird zu spät eingebunden).

SLA in Underpinning Contracts:

Wenn externe Dienstleister involviert sind (z. B. Hoster der CAFM-Cloud, Softwarelieferant), sollten deren Verträge kompatible SLAs enthalten. Beispiel: SLA zum Kunden besagt 99% Verfügbarkeit, dann muss der Cloud-Betreiber mindestens 99,5% zusichern, damit Puffer bleibt. Oder: Hersteller-Support muss innerhalb 2h reagieren, damit die IT ihren 4h Incident lösen kann. Das Service Level Management verhandelt diese Punkte und stellt in der internen Service Level Matrix sicher, dass alle Puzzleteile passen.

Beispielhafte Anforderungen in einem CAFM-SLA:

Reaktionszeit: Service Desk nimmt Störungsmeldungen für CAFM 24/7 an, P1 innerh. 15 Min, P2 innerh. 1h etc.
Lösungszeit: P1: 4h bis Wiederherstellung, P2: 8h, etc. Evtl. mit Definition, wann ein Workaround als „Wiederherstellung“ zählt (z. B. Benutzer können weiterarbeiten, auch wenn endgültige Fehlerbehebung noch aussteht).
Kommunikation: Bei P1-Incidents sofortige Benachrichtigung des Kunden-Verantwortlichen, bei längerer Störung Updates alle 30 Min (das kann man ins SLA schreiben unter „Kommunikation/Eskalation“).
Verfügbarkeit: z. B. 99% Monatsverfügbarkeit, gemessen in Servicezeit Mo–Fr 8–18h.
Wartungsfenster: z. B. maximal 1 geplantes Wartungsfenster pro Monat, Dauer nicht über 2h, außerhalb Produktionszeit (z. B. Sa. früh).
Datenwiederherstellung: falls Ausfall, definieren SLAs oft RTO/RPO (Recovery Time/Point Objective) – z. B. im Disaster Fall CAFM innerhalb 1 Werktag aus Backup wiederherstellen mit max. 4h Datenverlust.

All dies muss natürlich mit dem Kunden (Facility Mgmt Abteilung, ggf. Endbenutzer-Organisation) abgestimmt sein. Es macht keinen Sinn, zu aggressive SLAs zu versprechen, die intern nicht gehalten werden können (Underpromise/overdeliver ist besser). Andererseits braucht der Kunde eine Garantie, dass die IT angemessen reagiert.

OLA-Beispiel intern:

Zwischen Service Desk und CAFM-Support-Team: „Service Desk löst 60% der eingehenden CAFM-Anfragen selbst, restliche gehen innerhalb 15 min an CAFM-Team. CAFM-Team nimmt Tickets in 30 min an und informiert Service Desk, falls länger dauern wird.“ – So was könnte man informell oder formal festhalten.

Letztlich gewährleisten solide SLAs und OLAs, dass alle Parteien – vom Endnutzer bis zum internen Supporter – klare Erwartungen haben. Der Nutzer weiß, mit welcher Reaktionszeit zu rechnen ist; das IT-Team hat verbindliche Ziele, an denen es seine Performance ausrichten kann. SLAs fungieren auch als Motivator und Kontrollinstanz: Wird ein SLA verletzt (z. B. Incident dauerte länger als 4h), wird dies sichtbar und man kann Gegenmaßnahmen ergreifen (Postmortem-Analyse, Personalaufstockung, Schulung etc.). Sie bilden somit einen wichtigen Rahmen für die Qualitätssicherung im Incident und Change Management.

Kommunikation mit Stakeholdern und Dokumentationsanforderungen

Kommunikation und Dokumentation sind Querschnittsaufgaben, die in allen vier Prozessen eine tragende Rolle spielen. Die besten technischen Lösungen nützen wenig, wenn die betroffenen Stakeholder nicht informiert sind oder wenn Erkenntnisse nicht schriftlich festgehalten werden. Hier werden die wesentlichen Aspekte geordnet nach Prozessphase beleuchtet.

Kommunikation mit Stakeholdern

Während Incidents: Bei Störungen im CAFM-System müssen betroffene Anwender und Verantwortliche frühzeitig informiert werden. Beispielsweise: Ein Incident P1 (Systemausfall) tritt auf – binnen weniger Minuten sollte eine Störungsmeldung an alle Nutzer rausgehen („Wir haben derzeit eine Störung im CAFM-System, arbeiten an der Behebung. Nächste Info in 30 Min.“). Dies kann per E-Mail, Intranet, SMS oder einem IT-Status-Board geschehen. Transparenz verhindert Frustration und Mehrfachmeldungen („Weiß die IT überhaupt Bescheid?“). Für Major Incidents etabliert man oft einen Kommunikationskanal zum Management und eventuell zu Endanwendern in höheren Intervallen. Nach Lösung des Incidents ist eine Abschlussmeldung ratsam („Störung behoben um 11:30, Ursache war XY, Sie können das System wieder uneingeschränkt nutzen. Bei Problemen bitte Service Desk kontaktieren.“). Intern kommuniziert das Incident-Team in festgelegten Abständen (z. B. alle 15 Min in der Krise) den Fortschritt, oft in einer Telefonkonferenz oder Chatgruppe. So sind alle Techniker auf Stand und können koordiniert agieren. Eine strukturierte Kommunikation reduziert auch das Gerüchteaufkommen – alle kriegen die gleiche Info.
Bei Problem Management: Problem Management richtet sich eher an interne Stakeholder (IT-Teams, ggf. Lieferanten). Hier ist Kommunikation wichtig, um Workarounds und bekannte Fehler zu teilen. Z. B. der Problem Manager identifiziert einen Known Error – er muss sicherstellen, dass der Service Desk diese Info erhält, damit sie bei neuen Incidents genutzt wird („Wenn Fehler X auftritt, wendet Workaround Y an – siehe Knowledge Base“). Ebenso sollten RCA-Ergebnisse (Root Cause Analysis) dem Management mitgeteilt werden, vor allem wenn es um ernsthafte Vorfälle geht. Etwa ein Post-Mortem-Bericht nach einem größeren Problem: Darin erklärt der Problem Manager, was die Ursache war und welche Maßnahmen ergriffen wurden, um Wiederholung zu vermeiden. Dies schafft Vertrauen. Auch proaktiv sollte das Problem Team Kommunikation nutzen: Findet man Anzeichen für ein kommendes Problem (z. B. drohender Speicherplatzmangel), sollte man die betroffenen Service Owner warnen und gemeinsam Gegenmaßnahmen planen, bevor es knallt.
Im Change Management: Hier ist vorwärtsgerichtete Kommunikation zentral. Jeder Change, insbesondere jene mit Auswirkung auf Nutzer, muss rechtzeitig angekündigt werden. Das umfasst: Ankündigung geplanter Downtimes (z. B. "Nächsten Samstag 10-12 Uhr: CAFM wegen Update nicht verfügbar"), Hinweise auf neue Funktionen (z. B. Release Notes oder eine kurze „Was ist neu“-Mail), und Erinnerungen kurz vor dem Change („In 1 Stunde beginnt die Wartung.“). In der Durchführung selbst kann es nötig sein, ungeplante Verlängerungen zu kommunizieren („Update dauert länger, vsl. bis 13 Uhr“) – proaktive Infos verringern Unmut. Nach dem Change ist es sinnvoll, den Erfolg zu verkünden („Update erfolgreich abgeschlossen um 12:30, System steht wieder bereit“). Neben Endanwendern sind auch interne Stakeholder wichtig: z. B. der Helpdesk muss vorab Bescheid wissen („Heute Release, mögliche Anrufe wegen neuen Features – hier Info-Blatt“) – so können sie kompetent reagieren. CAB-Meetings sind ebenfalls Kommunikationsplattformen: Hier sitzen Vertreter aller Bereiche, die dann zurück in ihre Abteilungen tragen, was geplant ist. Ein gut geführtes CAB sorgt dafür, dass Business und IT synchron laufen bei Changes.
Im Release Management: Kommunikation im Release-Kontext überschneidet sich mit Change, ist aber noch etwas breiter: Ein Release kann ja mehrere Changes umfassen und vielleicht neue Services oder Module liefern. Daher sind oftmals Schulungen oder Trainings Teil der Kommunikation – z. B. vor dem Go-Live eines großen CAFM-Release bietet man Webinare oder Handbücher an, damit die Nutzer sich vorbereiten können. Außerdem erstellt das Release-Team Release Notes – dokumentiert Neuerungen, behobene Bugs, ggf. bekannte Einschränkungen – und verteilt diese an alle Stakeholder (Nutzer, Admins, Support). Nach dem Release kann eine Feedback-Schleife eingebaut werden: die Stakeholder (insbesondere Key User) werden nach ein paar Tagen gefragt, ob alles wie erwartet funktioniert, um ggf. schnell nachsteuern zu können. Intern im Betrieb ist nach einem Release ein Review-Meeting sinnvoll, in dem beteiligte Teams kommunizieren, was gut lief und was nicht (das geht Richtung Lessons Learned).

Es soll die Kommunikation offen, zeitnah und zielgruppengerecht erfolgen. Ein Leitsatz: „No news is bad news“ – Stakeholder lieber früh und regelmäßig informieren, auch wenn man noch keine Lösung hat, anstatt sie im Ungewissen zu lassen. Dokumentierte Kommunikationspläne (wer informiert wen wann, via welchen Kanal) sind Teil des Prozess-Designs.

Die Dokumentation in ITSM-Prozessen dient mehreren Zwecken:

Nachvollziehbarkeit (audit trail), Wissenssicherung, rechtliche Absicherung, und als Basis für Verbesserungen.

Einige Schlüsselpunkte pro Prozess:

Incident-Dokumentation: Jedes Incident-Ticket soll einen vollständigen Verlaufsvermerk enthalten. Dazu gehören: Beschreibung des Symptoms, betroffene Nutzer/Standorte, Zeitstempel der Meldung, alle durchgeführten Schritte (Analysen, Workarounds, Kommunikationen), Lösung oder Übergabe an anderes Team, Abschlusskommentar mit Ursachenzusammenfassung. Wichtig ist, auch Ursache und Lösungstyp zu klassifizieren (z. B. „Ursache: Datenbank-Service abgestürzt, gelöst durch Neustart“). Das Ticket-System erzwingt meist bestimmte Felder auszufüllen beim Abschluss (z. B. Lösungskategorie). Bei Major Incidents wird häufig ein separater Bericht angefertigt, der tiefer geht – dieser fällt unter Dokumentation des Problem Reviews, aber Incident Manager kann dabei mitwirken. Dokumentation schließt auch Benutzerkommunikation mit ein: alle E-Mails oder Meldungen, die rausgingen, werden am Ticket angehängt, damit später ersichtlich ist, was kommuniziert wurde.
Problem-Dokumentation: Für Problems gibt es definierte Problem Records mit bestimmten Feldern. Darin müssen stehen: Symptome/Impact (welche Incidents/Trends führten zu dem Problem), Ursachenanalyse (Schritte und Ergebnisse der RCA), Known Error Beschreibung (wenn identifiziert: konkrete Fehlerursache und betroffene Komponenten), Workaround (falls vorhanden, detaillierte Anleitung), Lösungsvorschlag (ggf. der RFC-Verweis, der das Problem lösen soll), Verlauf (wann erkannt, wer zugewiesen, welche Maßnahmen ergriffen, wann gelöst). Nach Abschluss wird vermerkt, wie das Problem behoben wurde und ob damit alle zugehörigen Incidents tatsächlich ausblieben. Zudem pflegt Problem Management die Known Error Database (KEDB): dort sind alle Known Errors mit Workarounds gespeichert. Diese Einträge sind Teil der Dokumentation und müssen klar versioniert und auffindbar sein (z. B. nach Keywords). Dokumentationsanforderung hier ist auch, Verknüpfungen herzustellen: Problem <-> zugehörige Incidents, Problem <-> auslösende Changes. Das hilft später bei Auswertungen („Wie viele Incidents konnten durch Problem X beseitigt werden?“).
Change-Dokumentation: Ein Change Record ist sehr umfassend. Er beinhaltet: Beschreibung des Changes, Begründung, betroffene CIs, Kategorisierung (Standard/Normal/Emergency), Risiko- und Impactanalyse-Ergebnisse, Genehmigungsnachweise (wer hat wann zugestimmt – z. B. Protokollauszug des CAB), Implementierungsplan (ggf. als Anhang), Testprotokolle (Hinweis, dass getestet und für gut befunden), Kommunikationsplan (Angabe, wie/wann informiert wurde), Durchführungsdatum und Verantwortliche, Statusverlauf (z. B. von "Bewertung" -> "Genehmigt" -> "In Umsetzung" -> "Geschlossen"), Ergebnis (erfolgreich? Probleme?). Besonders wichtig: Falls der Change fehlschlug und zurückgerollt wurde, muss eine ausführliche Notiz dazu ins Protokoll („Backout am 12.10. um 23:00 durchgeführt wegen Fehler ABC – System zurück in Ursprungszustand“). Außerdem sollte das Ticket mit dem Incident verknüpft sein, der ggf. durch den fehlgeschlagenen Change ausgelöst wurde. CAB-Meetings erzeugen oft Protokolle – dort wird dokumentiert: welche Changes besprochen, Entscheidung, Auflagen, Teilnehmer etc. Diese Protokolle sollten ebenfalls abgelegt sein (im Change Tool oder als separates Dokument), da sie z. B. bei Audits beweisen, dass Changes kontrolliert freigegeben wurden. Des Weiteren gibt es meist eine Change-Kalender-Dokumentation (Forward Schedule of Changes) – diese wird aktualisiert, sobald neue Changes terminiert sind. Aus Dokumentationssicht ist auch wichtig: Versionsdokumentation – nach einem Change, der Versionen ändert, muss die Dokumentation (z. B. Betriebsdoku, Benutzerhandbuch) aktualisiert werden. Das wird oft in Checklisten verlangt („Dokumentation aktualisiert? [Ja] – Link:“).
Release-Dokumentation: Hier überschneidet es sich teilweise mit Change. Für jedes Release wird häufig ein Release Document oder Release Notes erstellt. Darin stehen: alle enthaltenden Changes (mit Referenzen), neue Features, behobene Bugs, ggf. bekannte noch bestehende Fehler. Diese Release-Dokumentation richtet sich an Endanwender oder Key User, um nachzuvollziehen, was sich geändert hat. Intern sollte ein Deployment Report geschrieben werden: „Release XY wurde am [Datum] ausgerollt. Beteiligte: … Dauer: … Eventuelle Abweichungen: …“. Darin kann man auch festhalten, ob der Release innerhalb des geplanten Zeitfensters blieb, ob das Backout nicht benötigt wurde, etc. Der Release Manager aktualisiert zudem die Release Policy und Release Calendar, wo relevante Infos zu finden sind (z. B. Releasedatum, nächstes geplantes Release). Konfigurationsdokumentation: Nach Release-Einführung muss die CMDB aktualisiert sein (Version aller betroffenen CIs). Das Überprüfen der CMDB-Aktualität gehört, wie erwähnt, zu den Abschlussaufgaben des Release-Prozesses.
SLA/Dokumentation: Auch Service Level Agreements und OLAs selbst sind Dokumente, die gepflegt werden müssen. Diese sollten in einem zentralen Ablageort liegen und versioniert sein, damit man weiß, welche Verpflichtungen aktuell gelten. Ebenso muss dokumentiert werden, wenn es SLA-Breeches gab (SLA Verletzungen) und wie darauf reagiert wurde (SLA-Report an Kunden).
Gesetzliche/Norm-Anforderungen: In manchen Branchen sind detaillierte Dokumentationen Pflicht. Etwa in der Pharmaindustrie (GxP) muss jeder Change an einem validierten System streng dokumentiert, validiert und nachvollziehbar sein. Das CAFM-System könnte unter solche Regularien fallen, z. B. wenn es Teil der Sicherheitssysteme eines Flughafens ist, daher muss die Doku so geführt werden, dass ein externer Prüfer den Verlauf versteht. Das schließt oft Screenshots, Unterschriften (elektronisch) und Audit-Trail-Logs ein.
Verknüpfte Dokumentation: Wichtig ist, dass Verbindungen dokumentiert sind: Ein Incident, aus dem ein Problem wird, sollte im Problem-Record referenzieren, welche Incidents zugehören. Ein Problem, das zu einem Change führte, soll im Change-Record stehen („RFC aufgrund Problem #123“). Ein Release sollte referenzieren, welche Changes drin waren. Solche Querverweise ermöglichen bei Nachfragen oder Analysen die Nachvollziehbarkeit von Ursache->Maßnahme->Ergebnis.
RACI und Prozessdokumente: Neben den operativen Tickets müssen auch die Prozessdefinitionen an sich dokumentiert sein. Typischerweise gibt es ITIL-Prozessbeschreibungen, Handbücher, Organigramme mit Rollen, Eskalationspfade. Diese sollten allen Beteiligten zugänglich sein (z. B. im Intranet ein ITSM-Prozessportal). Dadurch wissen Mitarbeiter, wo sie nachschlagen können: „Was tun bei Major Incident nachts um 2? Ach, da gibt es einen Leitfaden…“ Auch Checklisten (für Incident-Schließen, Problem-Diagnose etc.) sind Teil der Dokumentation.
Dokumentationskultur: Es sollte im Team verankert sein, dass „Doku so wichtig wie Durchführen“ ist. Gerade wenn personelle Wechsel stattfinden oder externe eingebunden sind, ist eine gute Dokumentation Gold wert. Ein CAFM-Betriebsverantwortlicher sollte regelmäßige Qualitätschecks der Doku machen: z. B. stichprobenartig Tickets lesen – sind die ausreichend ausgefüllt? Stehen in Change-Protokollen nachvollziehbare Risikoanalysen? Wird Knowledge Base gepflegt?

In Summe verlangen Incident/Problem/Change/Release Management, dass eine Menge an Informationen strukturiert festgehalten wird. Das ist keine lästige Bürokratie, sondern essentiell für Lernprozesse und Rechenschaft. Denn nur was dokumentiert ist, kann analysiert und verbessert werden – und im Fehlerfall hat man Belege, was geschehen ist. Zudem schützt eine gute Dokumentation die Organisation: Wenn mal Personen ausfallen, kann ein Vertreter anhand der Aufzeichnungen den Faden aufnehmen. Und der Kunde spürt die Professionalität, wenn z. B. nach einem Vorfall ein sauberer Incident Report bereitgestellt wird. Moderne Tools helfen dabei, aber die Einstellung der Mitarbeiter zur Dokumentation ist der Schlüssel.

KPIs und Messgrößen zur Prozessüberwachung

Die Einführung der beschriebenen Prozesse bringt nur dann dauerhaft Mehrwert, wenn deren Performance überwacht und gesteuert wird. Dafür werden Key Performance Indicators (KPIs) definiert – messbare Kennzahlen, die Aufschluss über Effizienz und Effektivität der Abläufe geben. Für Incident, Problem, Change und Release Management gibt es etablierte KPIs.

Einige wichtige Messgrößen im CAFM-ITSM-Kontext sind - Incident Management KPIs:

Anzahl Incidents (Volumen): Gesamtzahl der Incidents in einer Periode, oft weiter aufgeschlüsselt nach Kategorien oder Prioritäten. Dies zeigt das Arbeitsaufkommen und kann Trends erkennen lassen (z. B. Peak nach neuem Release). Ein hohes Volumen in einer bestimmten Kategorie (z. B. „CAFM-Reportstörung“) kann auf zugrundeliegende Probleme hinweisen.
Incident Rate pro Benutzer/Standort: Anzahl Incidents relativiert, etwa „Incidents pro 100 User pro Monat“. Dies erlaubt Vergleich zwischen verschiedenen Services oder Standorten.
Durchschnittliche Reaktionszeit: Zeit zwischen Incident-Meldung und erster Bearbeitung/Rückmeldung. Dieser Wert zeigt, wie schnell das Team reagiert. Ein Ziel könnte sein, 90% der Incidents innerhalb 30 Minuten zu reagieren (bei kritischen vlt. 5 Min). Ist die Reaktionszeit zu hoch, stimmt vlt. die Alarmierung oder Personalbesetzung nicht.
Durchschnittliche Lösungszeit (MTTR): Mean Time to Repair/Resolve – mittlere Dauer von Incident-Eröffnung bis zur Wiederherstellung des Service. Oft nach Priorität ausgewertet (z. B. P1 MTTR = 3h, P2 = 6h etc.). Dieser Wert spiegelt die Effizienz der Entstörung wieder. Ein sinkender MTTR ist ein positives Zeichen (Probleme werden schneller behoben). Im CAFM-Umfeld, wo Ausfälle die Arbeit stören, ist ein geringer MTTR essenziell. MTTR wird manchmal auch aufgeteilt in Mean Time to Respond und Resolve, um zu unterscheiden, wie lange bis Start der Bearbeitung vs. bis Abschluss.
Erstlösungsrate (First Contact Resolution Rate): Prozentualer Anteil der Incidents, die bereits im 1st Level (Service Desk) beim ersten Kontakt gelöst werden konnten. Eine hohe Erstlösungsquote (z. B. >60%) deutet auf gutes Know-how im 1st Level und eine funktionierende Knowledge Base hin, was die Effizienz steigert und Nutzerzufriedenheit erhöht.
Anteil innerhalb SLA gelöster Incidents: Prozentsatz der Incidents, die innerhalb der im SLA vereinbarten Zeit gelöst wurden. Sollte idealerweise nahe 100% liegen. Abweichungen weisen auf Kapazitätsprobleme oder falsche Priorisierung hin. Häufig wird dies je Priorität gemessen (z. B. 95% der P1 innerhalb 4h geschafft?).
Eskalationsrate: Wie viele Incidents mussten an 2nd Level (oder höher) eskaliert werden. Eine moderate Eskalationsrate ist normal, aber wenn sehr viele L1 nicht lösen können, braucht es evtl. mehr Schulung oder bessere KB für L1.
Wiederaufmachungsrate (Reopen Rate): Anteil der Incidents, die nach Schließen wieder geöffnet werden (weil Problem doch nicht gelöst oder erneut aufgetreten). Eine niedrige Reopen-Rate (<5%) ist wünschenswert – hohe Werte deuten auf unzureichende Lösungsqualität oder vorschnelles Schließen hin.
Kundenzufriedenheit (CSAT): Oft per kurzen Umfragen nach Ticketabschluss gemessen. Wie zufrieden sind die Meldenden mit der Incident-Bearbeitung (Sternebewertung oder Score). Dies ist subjektiv, aber wichtiges Feedback.
Incident Backlog: Anzahl offener Incidents zu einem Stichtag, evtl. nach Alter. Große Backlogs oder viele „überfällige“ Tickets signalisieren Engpässe.
Anzahl Major Incidents: Wie oft im Zeitraum gab es kritische Incidents. Sollte niedrig sein; wenn steigend, muss Infrastruktur oder Software auf Zuverlässigkeit geprüft werden.
Kosten pro Incident: (Optional) Wie viel Aufwand/Kosten verursacht im Schnitt ein Incident. Dies kann helfen, ROI von Problem Management zu zeigen (z. B. Investition in Prävention vs. Kosten ständiger Incidents).

Problem Management KPIs:

Anzahl erkannter Problems: Wie viele Problems wurden im Zeitraum neu registriert. Ggf. aufgeteilt in reaktiv vs proaktiv. Eine steigende Zahl kann positiv sein (man schaut genauer hin, proaktiv), aber kann auch heißen, es treten viele neue Arten von Problemen auf (Qualitätsproblem).
Anzahl gelöster Problems: In der Periode geschlossene Problem Records. Wichtig im Verhältnis zur neuen Problems (Closing Rate). Ein ausgewogenes Verhältnis zeigt, dass man Schritt hält. Bleiben viel mehr Probleme offen als gelöst, baut sich ein Problem Backlog auf.
Durchschnittliche Problem-Lösungszeit: Zeit von Problem-Eröffnung bis -Abschluss (dauerhafte Lösung). Dieser KPI kann lang sein (oft in Tagen/Wochen gemessen). Verkürzt er sich, spricht das für effektives Problemmanagement oder dafür, dass man eher einfachere Probleme adressiert.
Anzahl ungelöster Problems (Backlog): Wie viele Problem Tickets sind momentan offen, besonders wie viele davon sind Known Errors ohne finalen Fix. Ein wachsender Backlog ist kritisch – das bedeutet latente Risiken. Priorisierung hilft: z. B. X Problems ohne identifizierte Ursache, Y Known Errors noch auf Fix wartend.
Incidents per Known Problem: Mittlere Anzahl Incidents, die auf dasselbe (bereits bekannte) Problem zurückgehen. Ist diese Zahl nach Identifikation eines Problems immer noch hoch, könnte Workaround oder Kommunikation nicht ausreichend sein. Ziel ist, nach Known Error Identifizierung sollten Incidents dazu sinken (via Workaround).
Zeit bis Problem-Identifizierung: Wie lange dauert es im Schnitt vom ersten Incident bis zur Erkennung des zugrundeliegenden Problems. Kürzere Zeiten bedeuten, dass Patterns schnell erkannt werden – evtl. dank Monitoring oder intelligenter Analysen. Lange Zeit deutet darauf hin, dass man Symptome zu lange isoliert behandelt.
Proaktive Problem-Erkennung: Anzahl der proaktiv erkannten Probleme (bevor Incidents passieren). Diese Zahl kann als Erfolgsmetrik gesehen werden – je mehr proaktiv erkannt, desto besser der Service in Zukunft.
Anzahl Workarounds bereitgestellt: Indikator für den Nutzen im Incident Management.
Problem Resolution Rate: Anteil der behobenen Problems gemessen an Gesamtheit.
Impact-Reduktion: Schwierig direkt zu messen, aber man kann vergleichen: Anzahl Incidents pro Problem vor/nach Lösung. Oder Ausfallstunden vermieden durch präventive Problemlösung (wenn abschätzbar).

Change Management KPIs:

Anzahl Changes insgesamt: nach Zeitraum, evtl. unterteilt in Standard/Normal/Emergency. Gibt Aufschluss über Änderungstempo. Z. B. viele Emergency Changes (hoher Anteil) ist schlechtes Zeichen, da dies ungeplante Eingriffe bedeutet.
Anzahl Emergency Changes: wie viele Notfall-Changes mussten durchgeführt werden. Idealerweise sehr wenige, das zeigt Stabilität. Wenn viele, muss man schauen, ob das Change Management zu starr ist (Leute umgehen es bis zum Notfall) oder ob es wirklich so viele echte Notfälle gab (dann evtl. Problemmanagement verbessern).
CAB-Einberufungen: Anzahl CAB-Meetings in einer Periode. Indirekt ein Indikator, aber wichtiger ist:
Anzahl Changes, die CAB passieren mussten (Major Changes): zeigt Aufkommen wirklich großer Änderungen. Wenn diese steigt, vielleicht mehr Governance nötig.
Durchschnittliche Zeit bis Change-Entscheidung: Zeit von RFC-Einreichung bis Genehmigung/Ablehnung. Dies spiegelt Effizienz des Prozesses wider. Lange Zeiten könnten auf Meetings warten, Bürokratie oder Ressourcenknappheit in Bewertung hindeuten. Ein Ziel könnte sein, 80% der RFCs binnen 5 Arbeitstagen zu entscheiden.
Change Acceptance Rate: Verhältnis genehmigter vs. abgelehnter RFCs. Viele Ablehnungen könnten bedeuten, dass unzureichend vorbereitete oder unnötige RFCs gestellt werden – möglicherweise Schulungsbedarf bei Antragstellern. Oder es zeigt, dass das CAB streng ist (nicht unbedingt schlecht). Eine sehr hohe Rate (~100%) könnte auch bedeuten, dass man nur "sichere" Changes einbringt und potentielle Innovation wegfiltert.
Anteil erfolgreicher Changes (Change Success Rate): Hierunter fällt das Kriterium aus der Frage „Changes ohne Rollback“. Man kann messen: Prozentsatz der Changes, die wie geplant umgesetzt wurden, ohne dass ein Backout durchgeführt oder ein folgender Incident ausgelöst werden musste. Ein anderer Indikator: Anzahl fehlgeschlagener Changes (die zu Incidents führten oder zurückgerollt wurden). Diese Zahl sollte gegen Null gehen. Z. B. KPI: <5% der Changes verursachen P1-Incidents oder benötigen Rollback. Wenn doch, liegt ein Problem in Test oder Planung vor. Eine hohe Change Success Rate spricht für ein reifes Change Management und gute Release-Verfahren.
Durchschnittliche Dauer der Change-Implementierung: Wie lang dauert es von Genehmigung bis Umsetzung. Kann auf Prozessgeschwindigkeit oder organisatorische Hürden deuten.
Changes pro Kategorie/Zeitfenster: Um Auslastung zu sehen – z. B. wie viele Changes pro Monat, stoßen wir an Kapazitätsgrenzen? Und wie verteilen sich Changes: viel Infrastruktur vs. Applikation, etc.
Change Backlog: Gibt es viele genehmigte, aber nicht umgesetzte Changes? (Manche Tools zeigen Pending Changes). Das könnte einen Engpass im Deployment oder in Ressourcen signalisieren.
Audit-Findings: Falls es externe/Interne Audits zu Changes gibt, die Mängel aufdecken (z. B. undokumentierte Changes entdeckt), kann man das ebenfalls tracken.

Release Management KPIs:

Release-Frequenz: Wie oft werden Releases ausgerollt (z. B. quartalsweise, monatlich). Steigende Frequenz könnte auf kleinere, agile Releases hindeuten – oder auf viele Patches (nicht unbedingt gut).
Release-Pünktlichkeit: Anteil der Releases, die termingerecht erfolgten. Oft wird geplant „Release am Datum X“ – klappte das? Wenn Releases häufig verschoben werden, liegt Planungsproblem vor.
Durchschnittliche Release-Dauer: Von Start Planung bis Abschluss ELS – zeigt Effizienz des Release-Prozesses.
Post-Release Incident Rate: Wichtiger KPI: Anzahl Incidents innerhalb z. B. 7 Tagen nach einem Release, verursacht durch dieses Release. Wenn ein Release sauber ist, sollte diese Zahl sehr niedrig sein. Steigen nach Releases die Incidents sprunghaft, war das Release qualitativ mangelhaft. Kann z. B. gemessen als „Anzahl Changes mit nachfolgendem Incident“ oder „Incidents per Release“. Auch Anzahl Rollbacks von Releases (gab es Fälle, wo man das ganze Release zurücknehmen musste?) – sollte gegen 0 gehen.
Release Success Rate: Prozent der Releases, die ohne größere Probleme live gingen. Ähnlich Change Success, aber auf Paket-Ebene.
Deployment KPI: Falls gemessen: z. B. Durchschnittliche Deploy-Zeit pro Release (um zu sehen, ob automatisiert und schnell) oder Anzahl Deployments pro Jahr.
Nutzerakzeptanz: Eher qualitativ – evtl. Befragung nach großen Releases, ob Nutzer zufrieden mit neuen Features/Änderungen. Oder Trainingsbedarf nach Release (wenn hoch, war Kommunikation vorher ggf. unzureichend).

Übergreifende KPIs und CSI:

Trend-Analysen: Betrachtung, wie sich Kennzahlen entwickeln. Etwa: sinkt die Incident-Anzahl, nachdem ein Problem gelöst wurde? Oder: hat das Investieren in Problem Management die Gesamtstörungsanzahl verringert über 6 Monate?
MTBF (Mean Time Between Failures): Bei Services – wie lange im Schnitt zwischen zwei Incidents (speziell relevant, wenn man Gesamtzuverlässigkeit messen will). Wenn MTBF steigt, gut – heißt seltener Störungen.
Availability KPI: aus SLA gemessen – z. B. „Service uptime %“ – wird oft vom Availability Management geliefert.
Kosten-KPIs: z. B. Kosten pro Change Release, Kosten pro Incident, um Effizienz auch finanziell darzustellen.

Es ist essenziell, diese KPIs in Reports und Dashboards regelmäßig aufzubereiten und mit Zielen/Schwellenwerten zu versehen. Ein IT-Service-Manager wird z. B. monatlich schauen:

MTTR war diesen Monat 5h – Ziel war <4h, warum Abweichung? oder Change Success Rate 92% – Ziel 98%, welche Changes schlugen fehl? Dann können gezielte Maßnahmen abgeleitet werden (Schulung, Prozessanpassung, mehr Tests etc.).

Gerade Kennzahlen wie MTTR zeigen unmittelbar den Effekt auf den Betrieb:

Wenn dank Problem Management MTTR sinkt, spüren Nutzer weniger Ausfallzeit. Die „Anzahl Changes ohne Rollback“ ist praktisch der Qualitäts-Index des Change/Release Managements – wenn alle Changes reibungslos klappen, ist das Vertrauen hoch. Jeder rollback-pflichtige Change nimmt Kapazität und stört Betrieb, daher will man diese Zahl minimieren.

Visualisierung:

Oft werden Ampeln verwendet: z. B. SLA-Einhaltung in % (grün >= 99%, gelb 95-99, rot <95). Oder Trendpfeile – Incident Volume gegenüber Vormonat.

CSI (Continual Service Improvement) Verbindung:

KPIs sind die Grundlage für CSI (siehe nächster Abschnitt). Kontinuierliche Verbesserung funktioniert nur, wenn man misst. Daher sollten diese Kennzahlen nicht nur erhoben, sondern auch in regelmäßigen Review-Meetings diskutiert werden (z. B. monatliches Service Review mit Stakeholdern, wo man Reports teilt). Gemeinsam definiert man Verbesserungsmaßnahmen, z. B. „First Level löst nur 40% selbst, Ziel 60% – daher Training ansetzen und Wissensdatenbank erweitern“ oder „drei Changes hintereinander mit Problemen – möglicher Handlungsbedarf in Testverfahren“.

Abschließend:

Gute KPIs sind SMART (Specific, Measurable, Achievable, Relevant, Time-bound) und fokussieren auf Kundennutzen und Prozesseffizienz. Sie helfen, die Performance der ITSM-Prozesse transparent zu machen und dienen als Frühwarnindikatoren für Prozessprobleme. Die genannten KPIs sollten daher laufend überwacht und bei Zielabweichungen sollte aktiv nachgesteuert werden.

Lessons Learned und kontinuierliche Verbesserung (CSI)

Kein Prozess ist jemals „fertig“ – eine grundlegende ITIL-Prinzip ist die kontinuierliche Serviceverbesserung (Continual Service Improvement, CSI). Das bedeutet, aus Erfahrungen zu lernen, Prozesse adaptiv zu verbessern und Best Practices weiterzuentwickeln. Im Kontext von Incident/Problem/Change/Release Management ergeben sich zahlreiche Lessons Learned-Möglichkeiten, die in einen Verbesserungszyklus einfließen sollten.

Nachbereitung von Incidents (Post-Incident Review):

Besonders bei Major Incidents oder solchen mit ungewöhnlichem Verlauf ist es sinnvoll, nach der Bewältigung ein Review-Meeting abzuhalten. Hier versammelt der Incident Manager das beteiligte Team (und evtl. Vertreter der betroffenen Fachbereiche) und analysiert: Was ist passiert? Was lief gut, was schlecht in der Reaktion? Es wird festgestellt, ob SLAs eingehalten wurden, ob Eskalationen rechtzeitig und effektiv waren, ob Kommunikation angemessen war. Aus solchen Reviews entstehen Verbesserungsmaßnahmen: z. B. „Wir hatten Verzögerung, weil die Dokumentation des Failover-Verfahrens veraltet war – Maßnahme: Doku aktualisieren und Team schulen.“ Oder „Der Monitoring-Alarm ging unter – Maßnahme: Alarmierungskonzept überarbeiten.“ Diese Erkenntnisse dokumentiert man (z. B. in einem Post-Incident Report) und trackt ihre Umsetzung. Einige Organisationen führen für Major Incidents eine Ursachenanalyse ähnlich Problem Management durch, aber fokussiert auf Prozess/Handling statt auf technische Root Cause – im Englischen spricht man von „Blameless Post-Mortem“, in dem man sachlich herausarbeitet, wie man die Reaktionsprozesse verbessern kann, ohne Schuldzuweisungen.

Problem Management als Verbesserungsmotor:

Problem Management per se trägt zur Verbesserung bei, da es root causes eliminiert. Aber auch hier: nach Abschluss eines größeren Problems kann ein Major Problem Review stattfinden. ITIL sieht das vor, um zu prüfen, ob die Lösung wirklich erfolgreich war und um Erkenntnisse für die Zukunft zu sammeln. Das Problem Team sollte regelmäßig seine Statistiken auswerten: Gibt es wiederkehrende Muster, die noch nicht gelöst sind? Wurde ein Known Error zu lange toleriert? Falls ja, priorisieren wir den nun höher. Außerdem: Proaktives Problem Management ankurbeln – man kann z. B. Ziele setzen, dass pro Quartal X proaktive Verbesserungen identifiziert werden sollen. Kontinuierliche Verbesserung bedeutet auch, besser in der Vorbeugung zu werden. Hier kann man z. B. Lean Six Sigma Methoden anwenden, um Problemursachen nachhaltig aus dem Prozess zu nehmen.

Change Management Feedback-Schleifen:

Nach jedem bedeutenden Change (vor allem wenn mit Problemen) sollte eine Post Implementation Review (PIR) erfolgen. In vielen Unternehmen ist es Pflicht: 1-2 Wochen nach dem Change kommt der Change Manager mit den Beteiligten zusammen und bespricht: Wurde der Change-Ziel erreicht? Gab es Abweichungen? Waren Risikoabschätzung und Tests ausreichend? Lief die Kommunikation? Falls der Change erfolgreich war, kann man Good Practices ableiten („Einsatzzener Probeschritt war sehr hilfreich, das machen wir künftig immer“). Falls nicht, dringend Lessons Learned: Warum war das Risiko unterschätzt? Hätte CAB anders entscheiden sollen? Musste Notfallplan ziehen – war der Plan adäquat? So ein PIR-Protokoll kann dem CAB präsentiert werden, um bei zukünftigen Freigaben diese Erkenntnisse zu berücksichtigen. Beispielsweise: „Beim letzten Update hat uns ein fehlender DB-Index massive Performanceprobleme bereitet – künftig fordern wir vor jedem Release einen DB-Performance-Test ein.“ Diese Entscheidung fließt dann in die Change Policy ein.

Release Management und Continual Improvement:

Nach einem großen Release ist es lohnend, einen Release Retrospective-Workshop zu machen (ähnlich wie in Agile Sprints). Hier beleuchtet man den gesamten Release-Prozess: Wurden Zeitpläne eingehalten? Hatte das Team Stress? Waren Ressourcen knapp? Gab es ungeplante Nebeneffekte? Wie war das Feedback der Nutzer? Daraus zieht man Verbesserungen für den nächsten Release-Zyklus – z. B. mehr Pufferzeit in Testphase, bessere Koordination mit externer Lieferung. Im DevOps-Ansatz ist kontinuierliches Verbessern von Pipeline und Deployment ein Muss – Metriken wie „Durchlaufzeit“ und „Deployment-Frequenz“ werden dort ständig optimiert.

Einbindung ins CSI-Register:

ITIL empfiehlt ein Continual Improvement Register (CIR), in dem man alle identifizierten Verbesserungsinitiativen sammelt, priorisiert und nachverfolgt. Dort können Einträge stehen wie „Implementierung automatisierter Smoke-Tests im Release-Prozess (Benefit: weniger Incidents nach Deployment)“, oder „Überarbeitung der Kategoriekataloge im Service Desk (Benefit: präzisere Zuordnung)“. Jeder Eintrag bekommt einen Verantwortlichen und Zieltermin. So wird CSI selbst zum geplanten Prozess.

Kultur der Fehleranalyse:

Für echte Verbesserung muss eine Kultur des Lernens etabliert sein. Fehler dürfen nicht vertuscht werden, sondern man muss offen analysieren können, ohne Schuldzuweisungen. Das „blameless“ Konzept: Leute sollen Probleme melden, nicht verstecken. Wenn z. B. ein Techniker merkt, er hat einen Fehler gemacht, der zum Incident führte, sollte er das Vertrauen haben, dass es darum geht, den Prozess so zu verbessern, dass der Fehler künftig vermieden wird (z. B. Checkliste einführen), statt um Bestrafung.

Wissensmanagement als Teil von CSI:

Ein greifbares Ergebnis der ständigen Verbesserung ist eine wachsende Knowledge Base. Aus jedem gelösten Problem, jedem besonderen Incident sollten Wissenselemente extrahiert werden: FAQ-Artikel, Troubleshooting-Guides, Updated Documentation. Wissen ist kumulativ – so wird das Team immer schlagkräftiger. CSI kann messen, wie gut das Wissen genutzt wird (z. B. wenn mehr Incidents vom 1st Level gelöst werden, weil KB-Artikel da sind – eine klare Verbesserung).

KPIs für CSI:

Indirekt sind es die genannten Kennzahlen und deren Trends. Man könnte aber auch einen CSI-spezifischen KPI definieren: Anzahl umgesetzter Verbesserungsmaßnahmen pro Quartal oder % der CSI-Ideen umgesetzt vs vorgeschlagen. Das hält die Organisation bei der Stange, dass man nicht nur Ideen sammelt, sondern realisiert.

Beispiel einer kontinuierlichen Verbesserung:

Angenommen, im CAFM-Betrieb merkt man, dass oft Incidents entstehen nach Änderungen, weil das Testen in Produktivumgebung nicht 1:1 möglich war. Verbesserungsidee: Einrichtung einer Staging-Umgebung, die Prod sehr ähnlich ist, um vor Deployment bessere Tests zu machen. Das wird als Initiative geplant (Kostennutzen abgewogen, genehmigt), umgesetzt. Ergebnis: In den nächsten Releases sinken die Post-Release-Incidents erheblich – KPI „Post Release Incidents“ verbessert. Das wiederum erfasst man und bestätigt damit den Erfolg der Maßnahme.

Plan-Do-Check-Act (PDCA):

Ein klassisches Modell, das auch hier greift: Man plant eine Verbesserung (z. B. neue Incident-Kategorisierung), führt sie ein (Do), überprüft die Wirkung (Check: KPI-Vergleich vorher-nachher, Feedback der Nutzer) und justiert nach (Act: falls noch nicht zufriedenstellend, iterieren). So drehen sich die Verbesserungs-Schleifen kontinuierlich.

CSI und Unternehmensziele:

Kontinuierliche Verbesserung sollte ausgerichtet sein an größeren Zielen (z. B. „Service-Exzellenz“, „Kundenzufriedenheit 5% steigern“, „Kosten senken“). Die einzelnen Veränderungen an Prozessen müssen letztlich dem Business nutzen: z. B. schnellere Incident-Lösung -> weniger Arbeitsausfall in Fachabteilung -> effizienteres Kerngeschäft; oder selteneres Patchen -> mehr Stabilität für FM-Team im Gebäude.

Es lässt sich festhalten:

Lessons Learned sind der „Treibstoff“ für CSI. Jede Störung, jedes Projekt liefert Lernchancen. Durch systematisches Aufgreifen dieser Learnings und Umsetzen von Verbesserungen werden die ITSM-Prozesse reifer. Für den CAFM-Betrieb heißt das, das System wird über die Zeit zuverlässiger, der Support wird proaktiver, Änderungen werden glatter ablaufen und die Zufriedenheit aller Beteiligten steigt. Diese kontinuierliche Optimierung ist ein nie endender, aber lohnender Prozess – ganz im Sinne von „gerade im Facility Management, wo kontinuierliche Verbesserung der Abläufe Wettbewerbsvorteile bringen kann, sollte man die ITSM-Prozesse stetig weiterentwickeln.“

CAFM: Incident/Problem/Change/Release Management