09.03.2023

Performance in allen Instanzen

Observability-Lösung für die eAkte in einer Landesjustizbehörde

Performance in allen Instanzen

Observability-Lösung für die eAkte in einer Landesjustizbehörde

Die Einführung der elektronischen Akte (eAkte) soll die Digitalisierung in der Justiz vorantreiben © Song_about_summer – stock.adobe.com
Die Einführung der elektronischen Akte (eAkte) soll die Digitalisierung in der Justiz vorantreiben © Song_about_summer – stock.adobe.com

Gerichtsprozesse sind eine komplexe Angelegenheit. Fakten müssen ermittelt, Spuren nachverfolgt, Zeugen und Beteiligte verhört werden, bevor ein Urteil gefällt werden kann. Das erfolgt meist noch auf Basis von umfangreichen Papierakten. Die gesetzlich verankerte Einführung der elektronischen Akte (eAkte) bis zum Jahr 2026 soll die Digitalisierung in der Justiz vorantreiben und Richter, Staats- und Rechtsanwälte entlasten. Doch was, wenn die eAkte einfach nicht funktionieren will und im Gerichtsalltag abstürzt? Das geschah einer Landesjustizbehörde.

Wie bei vielen (IT-)Projekten hatten sich alle Beteiligten im Vorfeld viel versprochen: Schnellere Prozessabläufe durch übersichtlichere, schnell durchsuchbare digitale Prozessakten statt des Blätterns in dicken Papierstapeln. Das Landesjustizministerium rief ein Projekt ins Leben, um die eAkte zu entwickeln und einzuführen. IBM war einer der eingebundenen IT-Dienstleister und übernahm die Entwicklungs- und Wartungsaufgaben.

Doch nach zweieinhalb Jahren im Betrieb funktionierte die eAkte nicht mehr ganz so reibungslos wie geplant. Es kam zu Systemausfällen und wiederkehrenden Performanceproblemen. Einzelne Richter forderten gar, die Papierakte zurückzuerhalten, um die Qualität der Rechtsprechung nicht zu gefährden. Das in das Projekt eingebundene Team von IBM stand gemeinsam mit dem Kunden vor einem Problem. Nicht nur, dass die eAkte nicht mehr funktionierte. Sowohl das Kunden- als auch das IBM-Team wussten einfach nicht, wo die Performanceprobleme ihren Ursprung hatten.


Immer komplexere IT-Landschaften

Die eingesetzte IT-Umgebung ist sehr komplex, teilweise Cloud-basiert und besteht aus vielen Servern, zusätzlichen virtuellen Servern, Hypervisoren und verschiedenen Containern. Und diese wiederum gibt es für die vielen unterschiedlichen Bereiche der Justiz, z.B. für die ordentliche Gerichtsbarkeit, die Fachgerichte oder für die Staatsanwaltschaften. Für all diese Bereiche ist die eAkte jedoch organisationskritisch und ihr Funktionieren daher ein Muss. Eine schnelle Stabilisierung des Systems war essenziell.

Die IT-Landschaft des eJustice-Systems der eAkte im Überblick | © IBM

Die Fehleranalyse über die vielen Instanzen und Architekturschichten hinweg erwies sich in dieser komplexen Systemlandschaft als zeitaufwändig. Die eingesetzten Analysewerkzeuge und Monitoring-Tools beleuchteten nur Teilaspekte, da sie meist für die Analyse einzelner (Hintergrund-)Systeme optimiert sind. Die Probleme entstanden jedoch auf der Anwendungsebene und konnten potenziell von jedem der zahlreichen im Backend laufenden Systeme ausgelöst werden. Genau das verursacht in modernen IT-Umgebungen zunehmend Probleme: Sie sind einfach zu unübersichtlich geworden, um sie mit traditionellen Methoden überwachen oder gar steuern zu können. Die schleichende Umstellung auf Multi-Cloud-Umgebungen, Microservices, Container, Kubernetes und das fast unermessliche Wachstum der Datenmengen erzeugen eine Komplexität, der die Systemadministratoren in IT-Abteilungen immer seltener gewachsen sind.

Das war auch hier der Fall. Unterschiedliche Spezialisten aus den verschiedenen Bereichen waren nötig, um die von den Analyse-Tools zusammengetragenen Daten zu verstehen und zu interpretieren. Sie mussten zudem in der Lage sein, die Daten zu korrelieren, um den Ursprung eines Problems zu identifizieren – und das in der oben beschriebenen, hochkomplexen eJustice-Umgebung. Hinzu kam, dass die erkannten, notwendigen Änderungen dann nur mit langen Vorlaufzeiten umgesetzt werden konnten. Das Projekt steckte in der Krise, der Druck der Richterschaft auf die Landesjustizverwaltung stieg.

Alte Zöpfe abschneiden

Um die eAkte zum Laufen zu bringen, mussten zwei Dinge geändert werden. Erstens wurde die Zusammenarbeit neu organisiert. Alle Beteiligten mussten über bisherige Organisations- und Verantwortlichkeitsgrenzen in den Behörden hinweg zusammenarbeiten. Zweitens wurde eine IT-Lösung benötigt, die über die isolierten Möglichkeiten der bisher genutzten Analysewerkzeuge deutlich hinausging und ein Gesamtbild der laufenden IT-Prozesse und ihrer Performance über das gesamte IT-System der eAkte hinweg liefern konnte.

Um die Kooperation zu optimieren, wurde eine Taskforce gegründet, die das Performance-Problem gezielt angehen sollte. In ihr arbeiteten Ministeriumsangestellte, das Justizteam des zentralen IT-Dienstleisters des Bundeslandes, externe Expert_innen sowie das Team von IBM direkt zusammen. Das verkürzte die Reaktionszeiten beim Auftauchen von Problemen deutlich. Was die zweite Herausforderung betraf, so hatte IBM hatte sich durch langjährige Zusammenarbeit und erfolgreiche Projekte im eJustice-Umfeld als Trusted Advisor für die Landesjustizbehörden etabliert. Das Team brachte die eine Observability-Software ins Spiel, eine umfassende Lösung für das Application Performance Monitoring.

Ermittlungen durch alle (IT-)Instanzen

Solche Observability-Lösungen liefern anders als die meisten Monitoring-Lösungen nicht nur Teilaspekte der benötigten Informationen. Observability-Lösungen klinken sich über kleine Monitoring-Programme, die sogenannten Agenten, in verschiedenste Systeme ein, überwachen diese und fügen diese Informationen zu einem Gesamtbild zusammen. Dazu gehören z.B. Informationen aus Anwendungen, Datenbank-Dumps, Auslastung realer und virtueller CPUs sowie aus diversen Microservices, einzelnen Containern oder dem Kubernetes-System als Ganzes. Ähnlich wie ein Forensik-Team an einem Tatort ziehen sie alle verfügbaren Spuren und Informationen zusammen und ermöglichen so einen tieferen, ganzheitlichen Blick auf die IT-Landschaft. Sie zeigen nicht nur, dass etwas nicht stimmt. Sie zeigen auch, warum das so ist und welches System oder welche Anwendung der “Täter“ ist.

Die Software kann Cloud-native Anwendungen verwalten, unabhängig davon, ob sie sich auf mobilen Geräten, in öffentlichen und privaten Clouds oder vor Ort im eigenen Rechenzentrum befinden. Auch IBMs Großrechnerarchitektur Z wird unterstützt. Sie baut selbstständig ein kontextbezogenes Verständnis von Anwendungen auf und liefert dem IT-Team automatisch Informationen und Lösungsvorschläge zu möglichen Problemen wie langen Antwortzeiten, defekten Diensten oder ausgefallenen Infrastrukturen. So kann rechtzeitig eingegriffen werden, bevor ein Schaden für das Unternehmen entsteht oder Kunden unzufrieden werden.

Tatverdacht: Ressourcen-Diebstahl in der Infrastruktur der eAkte

Nachdem das Team die neue Lösung beim zentralen IT-Dienstleister des Landes installiert und in Betrieb genommen hatte, konnte der Übeltäter rasch ermittelt werden. Die Analysen zeigten, dass es bei zwei Dokumentenmanagementsystemen (in der Grafik: prodalf01 im blauen Graphen und prodalf02 im grünen Graphen) in der eJustice-Umgebung konstant wiederkehrende CPU-Steals gab (siehe Grafik 3), d.h. die virtuellen CPUs dieser Systeme warteten auf Rechenzeit der echten CPU, die aber gerade Berechnungen für andere virtuelle CPUs ausführten. Das korrelierte mit einer hohen CPU-Load auf den betroffenen Servern, die Prozessoren waren also einfach überlastet. Das führte zu den Performancestörungen, die für den Systemausfall verantwortlich waren.

Sichtbarer zeitlicher Zusammenhang der Spitzen bei CPU-Steal und CPU-Load | © IBM

Wenn der Detailgrad erhöht und das Zeitfenster weiter auf nur einen Tag des Systemausfalls eingegrenzt wird, dann wird der Zusammenhang der Störung noch deutlicher.

© IBM

Die CPU-Steal lag in der Zeit der Störung von ungefähr 8:00 Uhr bis 12:15 Uhr auf dem aktiven System (prodalf02) konstant zwischen 15 und 17 Prozent. Das korreliert mit der CPU-Load und den zur gleichen Zeit beobachteten, stark einbrechenden Antwortzeiten der Backend-Komponenten. Dieses Symptom sorgte im Gesamtsystem für eine fatale Verkettung von Ereignissen. Das Team konnte zudem beobachten, dass weitere Systemkomponenten der eJustice-Umgebung in Time-outs liefen, da festgelegte Antwortzeiten nicht eingehalten wurden. Basierend auf diesen Erkenntnissen folgten weitere Untersuchungen auf dem Hypervisor und ein generelles Konfigurationsproblem bei der Ressourcensteuerung trat zu Tage. Zudem zeigte sich dieses Problem in der gesamten Hypervisor-Infrastruktur und bedurfte einer Korrektur.

Fazit

Ohne einen ganzheitlichen Blick auf die eJustice-Umgebung hätte das Team die Lösung nicht annähernd so schnell gefunden. Allein das Zusammentragen der benötigten Informationen zur Lösungsfindung hätte vermutlich Tage gekostet. Diese hätten dann komponentenabhängig in den entsprechenden Kontext gesetzt werden müssen. Dafür wären mehrere Spezialisten aus den unterschiedlichen Bereichen notwendig gewesen. Nach dem ersten Einsatz der Observability-Software gelang es hingegen, innerhalb von vier Tagen eine Lösung zu finden und diese umgehend zu implementieren.

Der Fall zeigt den Mehrwert moderner Systeme für das Application Performance Management besonders deutlich. Hier stand nicht einfach ein Unternehmensprojekt wegen IT-Problemen auf der Kippe. Ein zentraler Bestandteil unseres Rechtsstaates – das Gerichtswesen – war in seiner Funktionsfähigkeit durch Fehlkonfigurationen der zugrundeliegenden IT-Landschaft gefährdet. Die übergreifenden Analysefunktionen führten das Team auf die Spur der Fehlerquelle im Gesamtsystem und ermöglichten es, die Performanceprobleme und Ausfälle in den Griff zu bekommen. Das Ergebnis: eAkte gerettet, Richter zufrieden.

 

 

Mirco Albers

Senior Solution Architect Hybrid Cloud, Manager Application Engineering Solutions, IBM Consulting
n/a