Večerní výpadek slany-vitezna

V úterý 17.8.2010 v 19:15 došlo k výpadku na našem přístupovém bodě slany-vitezna, změna postihla asi 3% našich zákazníků, tedy ti co jsou připojeni přímo na slany-vitezna a také na slany-machova, nicméně tento článek je určen pro všechny, které zajímá co se při výpadku děje.

Monitorovací systém ihned po zjištění, tedy asi 3 minuty od poruchy, našim administrátorům, kteří drží službu hlásí problémovou událost. Ihned započala přesná diagnostika a byl informován technik, aby byl v pohotovosti. Během dalších 10 minut, naši administrátoři nastavili náhradní zařízení, tedy nový switch s podporou 802.1q a technik vyrazil do terénu vadné zařízení vyměnit.

V 8 hodin večer jsme zapojili nový switch, nicméně došlo k nečekané komplikaci, po 5 sekundách fungování, vypověděl i ten nový službu. To bylo i pro nás překvapivé. Samozřejmě, jsme nemohli říci nejde to a nechat to být. To by nám zákazníci vyčinili. Administrátoři tedy připravili typově jiný switch, nastavili jej a kolem 9 večerní hodiny byl přístupový bod opět plně funkční.

Omlouváme se za dvouhodinový výpadek, během září dojde k větší úpravě na tomto přístupovém bodě a starší, jestli se tedy technologii 2.5 roku staré, dá říci starší :) , bude vyměněna za novou.

Dnešního dne, jsme analyzovali situaci a zjistili jsme, že původnímu switch odešel napájecí zdroj pravděpodobně přehrátím a náhradní switch měl slabší napájecí zdroj, který neutáhl více zapojených portů, proto se při jeho nastavování chyba neprojevila, ale při zapojení na přístupovém bodě již ano. Velmi zvláštní souhra náhod, ale i tak jsme se s tím dokázali rychle vypořádat.

Dále přikládáme graf z monitorovací systému zobrazující tok dat z routeru. Router na přístupovém bodě celou dobu běžel, a je jedním rozhraním připojen mimo switch dále do sítě, proto jsme mohli situaci tak rychle vyhodnotit.