Blackbox für Server-Abstürze: Der SSAS FlightRecorder

Seit dem SQL-Ser­ver 2005 gibt es für die Ana­ly­sis­Ser­vices eine groß­ar­ti­ge Mög­lich­keit, um die inter­nen Abläu­fe und Pro­zes­se wäh­rend des lau­fen­den Betriebs auf­zu­zeich­nen und spä­ter (z.B. nach einem Ser­ver­ab­sturz) zu ana­ly­sie­ren. Vor kur­zem hat­te ich einen sol­chen Fall bei einem Kun­den: Der Ser­ver hat im lau­fen­den Betrieb plötz­li­ch nicht mehr reagiert. Natür­li­ch zu einer abso­lut unpas­sen­den Zeit. Bei dem Kun­den wur­den welt­weit Zah­len für die Pro­duk­ti­ons­pla­nung ein­ge­sam­melt und den Anwen­dern stan­den ins­ge­samt nur 48 Stun­den für die Daten­ein­ga­be zur Ver­fü­gung. Der Ser­ver­still­stand ereig­ne­te sich nachts um kurz nach 1:00 Uhr MEZ – Daten­ein­ga­be-Zeit in Asi­en. Natür­li­ch haben die Kol­le­gen aus Asi­en sofort eine Mail an den Admi­nis­tra­tor in Deutsch­land geschickt. Die ent­spre­chen­den Gegen­maß­nah­men wur­den aber erst ein­ge­lei­tet, als der Admi­nis­tra­tor gegen 7:30 Uhr sein Büro betre­ten und sei­ne Mails gecheckt hat­te. Der SSAS-Dienst wur­de durch­ge­star­tet und alles lief wie­der ein­wand­frei.
Sechs geschla­ge­ne Stun­den Sys­tem­still­stand bei einem Zeit­fens­ter von nur 48 Stun­den. Natür­li­ch kam die Fra­ge auf, wie es dazu kom­men konn­te und was in Zukunft getan wer­den kann, dass ein sol­ches Pro­blem nicht wie­der auf­tritt.
Zur Beant­wor­tung die­ser Fra­gen konn­te das mit dem SSAS-Fligh­tRe­cor­der auf­ge­zeich­ne­te Tra­ce-File einen ent­schei­den­den Bei­trag leis­ten! Aber zuer­st ein paar Infor­ma­tio­nen zur Kon­fi­gu­ra­ti­on des Fligh­tRe­cor­der. wei­ter­le­sen…