Blog

So verbessern Sie das Incident Management mit einer DDM-gestützten CMDB

Geschrieben von am Februar 09, 2021

Die Reduzierung der Anzahl schwerwiegender Vorfälle, die Verbesserung der mittleren Wiederherstellungszeit (MTTR), die Ermittlung der Problemursachen und die systematische Verbesserung der Mitarbeitererfahrungen haben für die IT-Betriebsleiter oberste Priorität.

Der Versuch, Vorfälle ohne Schaltpläne zu beheben, die Geschäftsdienste, Anwendungen und Infrastruktur verbinden, ist wie der Versuch, ohne Karte oder Kompass aus einem Wald herauszukommen. Für den IT-Betrieb sollte dieses Schema eine genaue und aktuelle CMDB enthalten, die kritische Systeme, Anwendungszuordnungen und Dienstdefinitionen zeigt.

CMDBs sind notorisch ungenau, verfügen jedoch über eine DDM-Funktion (Auto-Discovery and Dependency Mapping) CMDB ist eine wichtige Informationsquelle und Tool für den IT-Betrieb. Es kann IT-Mitarbeitern helfen, die Anzahl der Vorfälle zu reduzieren, sie schneller zu beheben, Grundursachen zu finden und Service-Level-Metriken zu erfassen, um die Priorisierung von Investitionen zu rechtfertigen.

Die Verbesserung des Incident Managements war nie einfach

CIOs und IT-Verantwortliche diskutieren dies kaum Verbesserung der operativen KPIs und Metriken stehen auf dem Spiel, um verantwortungsbewusste und glaubwürdige IT-Organisationen zu führen. Dies ist heute von entscheidender Bedeutung, da Unternehmen für geschäftskritische Workflows, Analysen und Kundenerfahrungen auf IT-Systeme angewiesen sind.

Über die vielen Faktoren, die außerhalb der Kontrolle der IT liegen, wird die Zuverlässigkeit und Leistung von Anwendungen und Systemen kaum diskutiert. Aber wie schnell, effizient und genau die IT Vorfälle und Adressen löst Problem Ursachen wird als kritische Verantwortung kompetenter IT-Verantwortlicher angesehen.

Während diese Verantwortlichkeiten für Unternehmen, die in die digitale Transformation investieren, von entscheidender Bedeutung sind, werden Incident Manager, Leiter des IT-Betriebs und CIOs darauf vertrauen, dass die Verbesserung von Incident Management-Prozessen und KPIs nicht einfach ist.

Zum einen sind System- und Anwendungsarchitekturen heute komplexer als je zuvor. Modernisierte Anwendungen sind mit Microservices verbunden, lassen sich in mehrere SaaS-Plattformen von Drittanbietern integrieren und verarbeiten Daten von vielen Datendiensten. Sie laufen auf öffentlichen Clouds, privaten Clouds und Edge-Computing-Infrastrukturen. Wenn ein Vorfall auftritt, dauert es einige Zeit, um festzustellen, auf welchem ​​System ein Problem auftritt, und die Verfolgung zu vieler falsch positiver Ergebnisse kann zu längeren Wiederherstellungsbemühungen führen.

Legacy-Systeme, monolithische Anwendungen und gesprächige Dienste haben ihre eigenen Herausforderungen, zumal sie häufig von den primären Geschäftsprozessen abhängig sind.

Die schnelle und effiziente Lösung von Vorfällen erfordert eine schnelle Diagnose und vorgeschriebene Maßnahmen, da ein Problem zu einer Kaskade von Problemen führen kann, die behoben werden müssen. Wenn eine Datenbank beispielsweise ein fehlerhaftes Dateisystem hat, kann dies Datenbankindizes beschädigen und Anwendungen verlangsamen. IT-Operationen befinden sich häufig in einer Situation, in der die Wiederherstellung von Geschäftsdiensten die Behebung mehrerer Probleme erfordert.

Die Herausforderung besteht darin, dass die schnellere und genauere Lösung von Vorfällen eine bessere Dokumentation und Zusammenarbeit mit Fachexperten erfordert, darunter Anwendungsentwickler, Systemingenieure und Architekten. Wenn es jetzt zu einem größeren Vorfall kommt, erhalten Vorfallmanager häufig die Unterstützung, die zur Behebung von Problemen und zur Wiederherstellung des Dienstes erforderlich ist.

Im Allgemeinen ist es für Incident Manager jedoch schwierig, eine kontinuierliche Zusammenarbeit mit anderen IT-Teams zu erhalten, um sich wiederholende Probleme zu lösen oder Prozesse zu überprüfen, um die Lösung von Incidents zu verbessern. Die Behebung der Hauptursachen erfordert Investitionen in die Modernisierung von Anwendungen und Architekturen. Es ist jedoch schwierig, das Geschäftsmodell so zu gestalten, dass betriebliche Verbesserungen priorisiert werden.

DDM automatisiert die Erfassung des aktuellen Status der Cloud-Infrastruktur

Eine von DDM unterstützte CMDB ist ein Game-Changer für Incident-Management-Teams, da dadurch die Wissenslücke zwischen Support-Teams und Fachexperten geschlossen wird und aktuelle Informationen zu Unternehmensdiensten bereitgestellt werden.

Hier ist wie DDM funktioniert. Ein agentenloses DDM wird nach einem Zeitplan ausgeführt und durchsucht das Netzwerk nach Konfigurationsinformationen zu Systemen, Speicher, Netzwerken, Anwendungen, Diensten und Datenbanken, die in privaten und öffentlichen Clouds ausgeführt werden. Anschließend wird die CMDB mit der aktuellen und genauen Aktualisierung aktualisiert, einschließlich Änderungen, die durch die elastischen Rechenfunktionen einer Cloud oder durch DevOps-Automatisierungen wie CI / CD und IaC verursacht werden. IT-Mitarbeiter können dann mithilfe von Tools Geschäftsdienste definieren und die zugrunde liegenden Systemabhängigkeiten identifizieren.

Das DDM ist nicht nur ein automatisierter Datenkollektor für Anwendungs- und Systemkonfigurationen. Der DDM erkennt die Beziehungen zwischen Webservern, Anwendungsdiensten, mehreren API-Diensten und Datenbanktransaktionen. Topologiekarten veranschaulichen die Beziehungen zwischen verschiedenen Systemkomponenten und sind Diagnosetools, mit denen IT-Mitarbeiter die Hauptursache von Vorfällen verstehen können.

Wenn also ein oder mehrere Systeme das nächste Mal Warnungen generieren, haben die Incident Manager viel mehr Informationen zur Hand.

Eine von DDM unterstützte CMDB hilft Incident Managern, Grundursachen zu finden

Betrachten wir ein einfaches Beispiel für mehrere Warnungen einer dreistufigen Webanwendung, die mit Apache-Webservern, Tomcat-Webservern und einer Postgres-Datenbank in AWS ausgeführt wird. Der Incident Manager sieht Warnungen von Tomcat und den Postgres-Datenbanken, und mehrere Mitarbeiter haben Tickets geöffnet, was zu einer langsamen Leistung und Fehlern in der Anwendung führt.

Eine ruckelige Reaktion auf dieses Problem könnte darin bestehen, Tomcat neu zu starten und Datenbankverbindungen zu löschen. Dies ist jedoch möglicherweise nicht die richtige Vorgehensweise. Mit einer DDM-fähigen CMDB müssen der Incident Manager und die IT-Mitarbeiter jetzt mehrere neue Tools überprüfen.

  • Eine topologische DDM-Ansicht, die die Systeme zeigt, die Warnungen senden
  • Die Ansicht einer CMDB zeigt die betroffenen Geschäftsdienste
  • Die ITSM-Änderungsprotokolle helfen zu ermitteln, ob eine Änderung den Vorfall verursacht hat
  • Während die IT versucht, das Problem zu beheben, kann der Incident Manager die Leistung und den Ablauf der Anwendung überprüfen

In diesem Fall verwendet IT Ops die komplexen Topologiezuordnungen des DDM, um festzustellen, ob in der Postgres-Datenbank ein Client vorhanden ist, der einen lang laufenden Datenbankadministrationsjob verursacht. Ein Neustart von Tomcat oder das Herunterfahren von Diensten hätte das Problem nicht behoben. Die richtige Aktion besteht stattdessen darin, den Datenbankadministrationsjob anzuhalten und ihn außerhalb der Öffnungszeiten fortzusetzen.

Der Schlüssel hierbei ist, dass der Incident Manager die richtige Aktion geleitet und das Problem mithilfe der Flusskarten des DDM schnell abgeleitet hat. Wenn IT Ops einem vorgeschriebenen Playbook gefolgt sind und den Server neu gestartet haben, haben sie möglicherweise wichtige Geschäftsdienste unterbrochen.

DDM + CMDB + ITSM -> Daten und Analysen, um betriebliche Änderungen voranzutreiben

Die schnellere und genauere Lösung von Vorfällen ist ein betrieblicher Vorteil. Aber selbst am wichtigsten ist, dass die IT jetzt über ein Aufzeichnungssystem verfügt, das Vorfälle mit den zugrunde liegenden Systemen verknüpft. IT-Verantwortliche können dann die Analysen präsentieren, anhand derer Unternehmensdienste und -anwendungen die meisten Vorfälle oder die Vorfälle mit den längsten Ausfällen generieren.

Dieser Bericht ist ein wichtiger Bestandteil der Handlungsaufforderung von IT-Mitarbeitern, die häufig versuchen, Prioritäten und Investitionen in die Modernisierung von Anwendungen und die Aktualisierung der Infrastruktur zu beeinflussen.

Der Schlüssel ist, dass IT-Mitarbeiter über aktuelle und genaue Informationen in der CMDB verfügen und die Automatisierung eines DDM verwenden, um Abhängigkeiten zu erfassen. Insbesondere die Verbindung von ITIL-Prozessen Vorfallmanagementermöglicht es IT-Mitarbeitern, betriebliche KPIs und Mitarbeitererfahrungen zu verbessern. Der zusätzliche Kontext in Bezug auf Vorfälle mit Unternehmensdiensten kann dazu beitragen, längerfristige Verbesserungen und Investitionen voranzutreiben.

Für Unternehmen, die die Mitarbeitererfahrung verbessern möchten, bietet die Integration einer DDD-gestützten CMDB IT Ops-Kontextdaten und ein vielseitiges Tool zur schnelleren und genaueren Lösung von Vorfällen.

Isaac Sacolick, Präsident von StarCIOführt Unternehmen durch intelligentere, schnellere, innovativere und sicherere digitale Transformationsprogramme, die Geschäftsergebnisse liefern. Er ist der Autor des Amazon-Bestsellers, Driving Digital: Der Leitfaden für Unternehmen zur Transformation von Unternehmen durch TechnologieIndustrie Lautsprecherund Blogger bei Sozial, agil und Transformation.

Erfahren Sie mehr über unsere Updates zu den Cherwell Knowledge-Artikeln