Hauptinhalt
Topinformationen
Pressemeldung
Nr. 22 / 2019
19. Dezember 2019 : Kurzfassung des gestrigen Störfalls (Mittwoch, den 18.12.2019) in der zentralen IT-Infrastruktur
Fehlerbild: Ausgefallen bzw. stark leistungsgestört waren wichtige zentrale Dienste der UOS wie Mailing, SOGo, Webserver, Stud.IP, Myshare/Seafile, Matrix/Riot, Opencast etc.
Vermutliche Ursache:
Im Rahmen der Vorbereitung für den Einzug des RZs in das neue Gebäude kommt es zu einer Vielzahl von Änderungen in der genutzten Infrastruktur. Der Massenspeicher für die virtuellen Maschinen, auf denen die o. g. Anwendungen laufen, der angesichts der Verzögerungen beim Bezug des neuen RZs noch nicht durch zeitgemäße Komponenten ersetzt werden konnte, reagiert mit der bisherigen Firmware auf bestimmte Modifikationen des Systemumfelds extrem empfindlich (umfangreiche Zugriffsfehler auf den Datenbestand, bedingt durch erratischen Ausfall der iSCSI Schnittstellen). Der dadurch erfolglose, sich eskalierend steigernde Versuch der Anwendungsserver auf die Datenbestände zuzugreifen, führte letztendlich zum Ausfall der Dienste.
Maßnahmen zur Abhilfe:
Nach systematischer Analyse des Fehlerbildes wurden alle virtuellen Maschinen und die darauf laufenden Dienste heruntergefahren. Diverse potentielle Fehlerquellen -inklusive möglicher Hardwaredefekte- wurden geprüft. Die Integrität der Datenbestände erscheint gewährleistet. Die Firmware des Massenspeichers wurde gegen eine robustere Version ausgetauscht. Alle betroffenen Dienste wurden neu gestartet.
Arbeitshypothese und weiteres Vorgehen:
Durch die Maßnahmen sollte wieder ein stabiler Systemzustand erreicht sein. Gleichwohl wird die zentrale IT-Infrastruktur in den kommenden Tagen verstärkt im Hinblick auf unerwartete Artefakte beobachtet. Zeitnah nach Bezug des neuen RZ-Gebäudes wird das alte Speichersystem gegen neue Infrastruktur ausgetauscht werden.