Part IV: Gdy zdarzy się awaria. (aktualizacja)
Cześć.
Kontynuując szaloną serię, dzisiaj przedkładam wam ten oto tekst traktujący o tym na jakie jaja możecie trafić wybierając zawód szeroko pojętego informatyka.
Awaria. Tego staramy się unikać za wszelką cenę. Robimy przeglądy, obserwujemy i czekamy gdzie pojawi się chociaż minimalny sygnał, że coś może być nie tak i zaraz idziemy to zdusić w zarodku. Ale zdarza się, że coś umknie lub się schowa. Czasem zaatakuje w najmniej odpowiednim momencie.
Pierwsza zasada i historia na przestrogę.
Pierwsza i podstawowa zasada w razie awarii to zachować zimną krew i nie panikować. Mało jej nie złamałem kiedy pewnego pięknego dnia testowaliśmy DHCP ze switcha (tak ze switcha, z pominięciem serwera, który chcę odciążyć ze zbędnych usług, które mogą być przejęte przez inny sprzęt), ja przy jednej ze stacji roboczych z komórką na uchu, kolega w centrali.
- Dobra... odpalamy? - Odpalaj. *Chwila ciszy* - Dobra, działa, jak u ciebie? - Ładnie śmiga, poczekamy chwilę i zobaczę jeszcze inne PC... czekaj bo straciłem łączność, coś robiłeś? - KU****, nie mogę się połączyć ze switchem ani serwerem. - No weź mnie nie denerwuj!? - F**K idź do węzła i zobacz co się stało.
Jestem w węźle. No i wszystko działa. Obserwuję, obserwuję i nic. Dzwonię, pytam czy coś się zmieniło ale dalej nie ma łączności. Sieć sama w sobie działa, więc zaglądam na moduł światłowodowy a tam... ciemno. Pierwsza myśl to jakim cudem myśmy rozwalili moduł światłowodowy włączając DHCP na switchu? No ale nic idziemy do węzła głównego zobaczyć co tam się dzieje. Już razem, zlani zimnym potem. Może tylko padło zasilanie...? Tylko, że węzeł główny odpowiada.
No więc przedzierając się przez plac budowy docieram do GPD i wszystko działa... z wyjątkiem światełka koło światłowodu. W tym momencie też zaczęły się telefony "gdzie internet??", odpowiadam "nie ma, wyszedł". Przyznam, że wtedy zaczynałem już panikować ale wybrałem się do elektryków na budowie i pytam czy coś się działo bo mi zdechło połączenie, nie ma sieci i telefonów w dwóch budynkach. Oczywiście nic nie wiedzą ale oferują się, że mogą się ze mną przejść i zobaczyć czy coś gdzieś nie zdechło. No i poszliśmy niczym drużyna pierścienia na poszukiwania problemów ;)
Jaka ulga, zaskoczenie i nerwica mnie dopadła, kiedy zobaczyłem przyczynę awarii. Po pierwsze i najważniejsze: Thank God to nie moja wina. Po drugie kiedy już lekko ochłonąłem: zobaczyłem dwóch gości z kielniami i pytam co oni tu robią (był to taki łącznik między budynkami podlegający remontowi) i ten odpowiada, że tynki zrywali będą kłaść nowe. No to ja wskazując palcem postrzępiony światłowód leżący w jakichś śmieciach: - Kto wam kazał to wszystko powyrywać ze ścian? - Kierownik kazał tynki zrywać to zrywalim, a kable nam przeszkadzały to wypi****lilim.
Zdarza się...
I takim o to kulturalnym zdaniem sprawa została wyjaśniona. Cóż, spawania światłowodu trochę nadszarpnęło budżet pana kierownika ale to na szczęście nie moja sprawa. Gorszy był zbieg okoliczności, który mało mnie o zawał nie przyprawił.
Przy dużej sieci takie awarie niestety się zdarzają. Zdarzają się też gorsze i lżejsze. Ta powyższa pozbawiła pracowników internetu i telefonów na niemalże 48 godzin, ponieważ ciężko było dorwać firmę, która dosztukuje światłowód sprzed 15 lat i go zespawa.
Nawet przy takich awariach, tak jak już pisałem, nie wolno panikować, tym bardziej gdy nad wami stoi rozwścieczony szef, że nie może obejrzeć newsów na fejsiku, a w dodatku za 30 minut przyjeżdża megaważnysuperniesamowity Profesor z Zimbabwe i chciałby przede wszystkim wysłać maila, że już dotarł i ma się dobrze. Panika i stres to najgorszy wróg w razie kłopotów. Nie tylko z siecią ale także błahymi sprawami, jak np. wolno działający komputer pani Kasi, która stoi nad tobą, gdy ty próbujesz uzyskać informację w czym tkwi problem, i zadaje serię pytań dotyczących tych skomplikowanych czynności, które wykonujesz.
I o użytkowniku...
Należy też nauczyć się kilku podstaw socjotechniki w celu "wyłudzenia" informacji od użytkowników co się stało, że "nie działa". Otóż brutalna prawda jest taka, że 95% awarii jest spowodowana przez czynnik ludzki. W dodatku 95% z tych 95% nie przyzna się, że coś robili lub też po prostu twierdzą, że nie pamiętają co robili, że "nie działa".
Do takiego użytkownika trzeba umieć dotrzeć, bo w 90% przypadków opis zdarzeń, które nastąpiły bezpośrednio przed problemem pozwala na szybszą i trafniejszą diagnozę, a co za tym idzie - szybszą naprawę usterki. Sztuka to ciężka ale da się często dotrzeć do użytkownika i na różne sposoby wyciągnąć od niego informacje co się działo. Jednak wymaga to pracy i kombinacji ;)
Bywa też, że user przyjmuję pozycję ofensywną i zaczyna obarczać winą za to, że "nie działa" sąsiadów, chochliki i księżyc, a nawet jego wybawcę - informatyka. Serio.
...bo użytkownik też człowiek.
Jednak mimo wszystko, nawet jak użytkownicy wchodzą nam na głowę i za skórę, trzeba pamiętać, że administrator/informatyk itd. jest dla nich. Bo bez nich by nas nie było ;) Także szanuj użytkownika swego, bo możesz mieć gorszego ;)
Na razie tyle o awariach, panice i czynniku ludzkim. Pamiętajcie tylko, że to wszystko jest częścią tej pracy i lepiej się na to przygotować wcześniej. I nigdy nie zakładać z góry, że będzie działać bez problemu. Można się na tym przejechać.
------------------------------------------------------------------ Dodano 16.05.2011
Zapomniałem o pewnej ważnej rzeczy dla przyszłych i już aktywnych administratorów/informatyków. Warto zaopatrzyć się w subskrypcję (czy to mail czy RSS, whatever) swojego dostawcy energii elektrycznej. Do mnie właśnie dotarł mail o planowanych wyłączeniach w tym tygodniu i już wiem, kiedy nie robić aktualizacji na serwerze, mogę ostrzec użytkowników, zasugerować zrobienie kopii zapasowych, itp. itd. Lepiej zawczasu wiedzieć i się przygotować. Chyba nie muszę nikomu tłumaczyć jak istotnym elementem w branży informatycznej jest energia elektryczna i co może spowodować jej nagły brak w połowie wykonywania jakiejś ważnej czynności ;)
Pozdr. 997