Pani Krysia z .... nie, nie - John Doe ;) z działu sieci
26.08.2013 19:11
Jest blog o problemach Pani Krysi (jak ja nie cierpię tego imienia), jest blog o problemach w szpitalu. To dlaczego nie może być bloga o problemach na uniwerku? Może. No to i startujemy.
Pisałem już co nieco o uniwersytecie, gdzie pracuję. Maszyn mamy sporo, serwerów jak i stacji roboczych. Użytkowników jeszcze więcej, bo przecież studenci. Mamy trzy serwerownie, w każdej sporo sprzętu, systemy chłodzące (o których będzie wpis) - serwery panelowe, routery, switche, zasilacze, upsy itd. Łącza między serwerowniami są dublowane, światłowód. Dwa lata temu, uniwerek wprowadził tzw standby hours - czyli dyżur wieczorny. Na czym to polega? Siedzę sobie w domu i oglądam film ;) A poważniej - muszę być pod telefonem służbowym. W razie zgłoszenia awarii muszę się zalogować i spróbować naprawić. Dyżur jest od 17:00 do 21:00.
Dziś wpis o problemie jaki stworzył kolega z działu sieci.
Update switchy
Otóż dział ten zaplanował sobie update oprogramowania core switchy sieciowych. Ale tak jakby zapomnieli nas powiadomić. Ok. godziny 18:00 dzwoni do mnie koleżanka z tegoż działu utrzymania sieci. Opisuje problem - moodle nie działa.
Loguję się do sieci VPN naszego uniwerku. Loguję na mojego PC w biurze. Sprawdzam - fakt, nie działa. Ale serwery www działają, procesy httpd też, lokalnie na serwerze strona odpowiada. Jedynie przez load balancer, przez nazwę domeny - kiszka. Pytam w takim razie, czy wiadomo jej coś o jakichś pracach sieciowych. No oczywiście. Siedzi w pracy człowiek i robi update'y oprogramowania switchy. Się ja pytam dlaczego nie zostaliśmy powiadomieni?
Ona nie wie - była na urlopie.
No to przystępujemy do diagnoz.
Nie w serwerach leży problem, bo po podmianie wpisu w pliku hosts, kierującego przeglądarkę konkretnie na dany IP dla domeny moodle - serwis działa. Czyli serwery www jak i baza - działają. Szukamy dalej - route daje normalne odczyty, brama domyślna ustawiona, serwery dns znane. Pingi między serwerami chodzą. A jednak load balancer nie widzi kompletnie serwerów www. Robimy mały hack i zamiast sprawdzania portu 80, sprawdzamy po prostu czy serwer www żyje. Moodle działa - ale straaaaasznie wolno. Sprawdzam więc wydajność bazy - czasy odpowiedzi, ilość klientów podłączonych - wszystko w porządku. Dla pewności restartowałem serwisy httpd - bez zmian. Wykonałem jeszcze trochę różnych testów, restartów itd. Zmieniłem nawet konfigurację serwera, podając inną bramę domyślną - nic, zero, null, nada ... jednym słowem ja nie mogę ani zdiagnozować, ani naprawić problemu. Koło godziny 20:00 dzwonię, któryś już raz, do kumpelki i sugeruję, że może by tak przywrócić stare oprogramowanie switchy, albo tych kilku, obsługujących daną podsieć. Dostaję zapewnienie, że mają to w planach ale jeszcze muszą sprawdzić parę rzeczy. W końcu, koło godziny 21:00, czyli pod koniec dyżuru, telefon - przywrócili stary software, bo nie mają pojęcia co jest grane. Co ciekawe - tylko ten jeden serwis, moodle, był poszkodowany.
Wszystko inne chodzi.
Sprawdzam z domu - działa jak w dniu narodzin.
Wnioski?
Jest taki jeden dział w każdej firmie, którego akcje mogą spowodować, że mimo że wszystko działa - nie działa nic. To sieciowcy. Oczywiście jak wyłączą prąd też nic nie będzie działać, ale to będzie widać od razu ;)
Zmarnowałem tego wieczoru prawie 3 godziny na szukanie przyczyn problemu, zmiany konfiguracji, restarty itd. Awaria była spowodowana w miejscu poza moim zasięgiem. Czasem też, na sugestie, że to prawdopodobnie zawiniła sieć - sieciowcy w ogóle nie słuchają.
Ten przypadek pokazuje też, że znalezienie przyczyny błędu jest tym bardziej skomplikowane, im większa jest infrastruktura danej firmy. Pokazuje też, że koniecznością staje się posiadanie dodatkowych serwisów, np. do przechowywania haseł do setek różnych serwerów, aplikacji, baz danych. Posiadanie dobrego systemu monitorującego, powiadamiającego o możliwości zaistnienia awarii, również jest pewnym wymogiem. Akurat w tym przypadku, system ten powiadomił by mnie dopiero w momencie wystąpienia awarii, zakładając, że miałby dostęp do sieci.
Mam nadzieję napisać serię artów na temat Johna Doe z univerku. Przez kilka lat pracy tutaj, zebrało się kilkanaście ciekawych przypadków.
Są koty, są i psy :)
Oto jeden z moich.