Egy rendszergazda hétköznapjai

Cikksorozatunk előző részében a merevlemezes egységekről volt szó. Ezúttal is megmaradunk a háttértárolóknál, de most a RAID-et, vagyis a biztonságos tárolókat járjuk körül. Általában ez a nagyszerű eszköz a biztonságot fokozza, azonban itt is vannak kivételek. Ezek fakadhatnak fatális véletlenek sorozatából ugyanúgy, mint téves beállításból, konfigurálásból.

Mostani történetünk egy ilyen, meglehetősen izgalmas, megtörtént eseményt mesél el.

Az egész történet úgy kezdődött, hogy kaptunk egy új szervert, melyben sok szép dolog mellett volt egy RAID vezérlő kártya is. Számunkra akkoriban még újdonságszámba ment ez az eszköz, így áhitattal tanulmányoztuk a szakirodalmat, majd kollégám, aki a szerveroldalt intézi, gyorsan be is üzemelte.

Egy Windows 2000 szerver ment fel rá, amin SQL szerver, webszerver, Exchange szerver (vezetőségi levelezés), meg hasonló dolgok kaptak helyet. Sebtében ide másoltuk fel a gépek IMAGE állományait, amik a géptermi helyreállításokhoz voltak szükségesek. Így telt el békés fél év, és a szerveren szépen szaporodtak a cuccok.

Természetesen egy rendszergazda hivatalból paranoiás, így kollégám is szépen mentegette a szervert. Igen ám, de a mentést végző program, az EXCHANGE adatbázisát nem tudta menteni, mert az nyitott állomány révén folyamatosan változott. Ehhez meg kellett volna vásárolni egy programmodult a backup programunkhoz. Ez azonban drága volt és a költségvetés nem tette lehetővé. Így esett meg, hogy ez az egy rendszer nem volt archiválva.

Nem is lett volna semmi probléma, ha a kolléga éppen nem megy szabadságra, nekem pedig nem kell a szünetmentes tápokban akkukat cserélni pont ekkor. Azonban a régi akkuk az utolsókat rúgták, nem lehetett a dolgokat halogatni. Egy csütörtök délután, amikor az iskolában nem volt tanítás, akcióba léptem:

Szépen, a megfelelő sorrendben leállítottam a 10 szervert, majd szétszedtem a 230V-os csatlakozókat, kihalásztam a UPS-eket (szünetmentes tápegységek). Kiszereltem a régi akkukat, betettem az újakat és összeraktam ismét a rendszert. Mindent úgy csináltam, ahogy az a nagy könyvben meg vagyon írva. 30 percig hagytam töltődni az új akkukat, nehogy valami gond legyen induláskor. Amikor már minden töltésjelző 100%-ot mutatott, elkezdtem beindítgatni a számítógépeket.

A gond ekkor kezdődött: a kérdéses W2000 szerver ugyanis nem akart felállni. A BOOT folyamat után, ahogy a RAID rész inicializált volna, azt írta ki: „A RAID kötet megsérült ezen és ezen a HDD-n, indulás nem lehetséges.” Nosza, hirtelen melegem lett, mondanom se kell ... Mikor is volt utoljára mentés? Egy hete ... Jó, ez helyrehozható, de akkor is egy csomó anyag elveszett. Nem is szólva a levelezéséről a nagyfőnöknek ... No, az helyben harap ezért kettőbe! Próbálkoztam a RAID setup-ba belépni és valamit tenni, de nem lehetett. Miután próbálkoztam megfejteni a misztikus hibakódokat, egyre jobban kezdett a valami rossz érzés a hatalmába keríteni, s jobbnak láttam telefonálni a közvetlen főnöknek. Ő bejött, de ketten se tudtunk mit csinálni. No, szabadság ide/oda, ment a telefon a kollégának, aki a telepítést végezte. Szegény éppen abban a percben ért haza a nyaralásból, még a koffer a kezében volt, amikor a mobilja megcsörrent: „Bocs, de nagy baj van ...”

„Az élet alapvetően vacak dolog, de lidércnyomásnak megjárja ...”

Fél óra múlva mindhárman ott ültünk hümmögve a konzol előtt tanácstalanul. Ilyet még egyikőnk se látott. Mindhármónk nyakáról folyt a hideg verejték: tudtuk, mi a tét. A kisfőnök azt ecsetelte, hogy ebben a helyzetben az egyetlen elegáns lépés, ha mindhárman beadjuk a felmondásunk másnap reggel ... Volt humora ... A kolléga meg se hallotta, helyette az Interneten próbált információt, ötletet keresni. Mindhiába ... Én magam okoltam, bár magam sem nem tudtam, hogy miért ... Kínomban persze én is nézelődtem a NET-en, de semmi használható.

Végül jött a kisfőnöktől a mentő ötlet: kérdezzük meg a forgalmazót telefonon, hátha ismerős neki a probléma. Meg is történt. Az eredmény a következő volt:

Nálunk a RAID kötet úgy volt beállítva, hogy az adatokat nem tükrözte, hanem összekapcsolta a merevlemezek kapacitását. De nem egyszerűen összeadta, hanem a sebesség miatt egy szektort az egyik, következő szektort a másik HDD-re tette. Csábító dolog volt telepítéskor, hogy a két 18GB-os merevlemez egyetlen HDD-ként látszik, de úgy néz ki, mégse kellett volna a csábításnak engedni.

Ha tehát az egyik HDD megsérül, mindkettő tartalma menthetetlenül elveszik, mert minden akkor második szektor elszállt ... A bajt fokozta, hogy sérült RAID kötetekre nem találtunk helyreállító programot sem, ami legalább az adatok egy részét megmenthette volna. Amit leltünk, az mind méregdrága, fizetős alkalmazás.

Azt mondta a forgalmazó, hogy kétfajta hiba lehet. Az egyik a fizikai. Ez esetben talán van remény, ha a meghajtó elektronikája hibásodik meg, mivel ekkor az adatok megmaradnak. Ha azonban logikai hiba lép fel, mert pl. szabálytalanul lett leállítva a gép, akkor valószínűleg az egyik merevlemez adatpufferében még kiírandó adat volt, ami miatt néhány szektor nem megfelelően került felírásra. Ekkor megeshet, hogy a teljes kötet tartalma elérhetetlenné vált.

Hmmm ... Nem kívánom senkinek ezeket az órákat! A kolléga kiszerelte a két IBM merevlemezes egységet, s egy másik gépen, az SCSI setup-al leellenőriztette azokat. Eredmény: mindkettő fizikailag hibátlan, tehát maradt a logikai probléma!

Közben alaposan eltelt az idő. Mire a tesztek lefutottak, este fél tíz lett. Mit tehetnénk, elmentünk haza aludni, már amennyire tudtunk. L

Új nap, új ötlet!

Másnap reggel nyúzott arccal mentünk be a céghez. A kolléga azzal fogadott, hogy van egy utolsó ötlete: Mindent,  vagy semmit! Azt találta ki, hogy bejelöli a sérült RAID kötet attribútumát hibátlanra. Ekkor - ha szerencsénk van - feláll a rendszer, s le lehet futtatni egy mentést, majd egy kötet tesztet. Ha nincs, akkor viszont minden végleg tönkremegy.

Mivel senkinek nem volt jobb ötlete, neki is esett. Sajnos azonban a RAID-es BIOS nem engedte módosítani az attribútumot, bár a menüpontban szerepelt ez az opció. Ezért le kellett tölteni az Internetről egy floppy-ról futatható segédprogramot, ami már engedte a módosítást.

A kolléga megcsinálta a módosítást, nyomott egy CTRL+ALT+DEL-t, s kővé váltan bámultuk a képernyőt, hogy mi lesz. S lásson a világ csodát: Felállt a szerver!!! Semmi hibaüzenet, vagy nyom a LOG-ban szabálytalan leállításra, vagy hasonlóra. A mentés természetesen azonnal megtörtént, majd a diszk felületi ellenőrzése. Mindhiába: minden hibátlannak látszott. Egyfelől rettenetesen örültem, mert megúsztuk a nagy bajt. Ellenben aggódtam is, mert idegesített, hogy nem értettem, mi történt pontosan. Talán idegesség, vagy belemagyarázás volt részemről, de affélét láttam a kolléga arcán, mintha nem lenne meggyőződve, hogy nem én szúrtam el valamit. Ez persze rossz érzés, de egy rendszergazdának naponta kell ilyennel szembesülnie. Az eltöltött évek edzetté teszik az embert az ilyesmire ...

Talán a rejtély a mai napig megmaradt volna, de egy újabb véletlen közbeszólt:

Úgy két héttel az eset után ismét egyedül voltam, s ismét le kellett állítanom a rendszert valami miatt. Persze mondanom se kell, hogy mennyire kínosan odafigyeltem minden apró jelre, zörejre, ami szokatlan volt. A gépeket szépen, rendben leállítottam, és a helyiségben teljes csend honolt.

Mindaddig így is maradt, míg a CPU-SWITH dobozából nem kezdtem el kihúzkodni a kábeleket. (Aki nem ismerné, ez egy olyan elosztó dobozka, amire egyetlen monitor, egér, illetve billentyűzet csatlakozik  és több számítógép között ezeket kapcsolgatja át. Ezzel elkerülhető, hogy sok szerver esetén elvesszünk a monitorok, illetve billentyűk és egerek tengerében.) Ahogy a billentyűcsatlakozók vezetékeit kezdtem el kihúzni, hirtelen egy tápegység ventillátora megindult. Oooopppppsz ... kiáltottam fel akaratlanul. Hát itt meg mi történt??? Végignéztem a szervereken, s meglepve láttam, hogy a kérdéses RAID-es masina duruzsolni kezdett, már a floppy-t teszteli, mindjárt felbootol. Gyorsan kikapcsoltam majd próbáltam a hatást reprodukálni. A jelenség konzekvensen bekövetkezett. Bármit húztam ki, vagy dugtam be a számítógép átkapcsolójába, ez az egy gép azonnal bekapcsolt magától. Sőt, rájöttem, hogy a modem tápegységének ki/bekapcsolása is előidézheti a hatást. Hiába, jó dolog az ATX-technika! L (Jó kérdés persze: mi  a csodának kell ATX  táp egy szerver gépnek, ami NON-stop üzemel ... ?!?) Régen amit kikapcsoltam, az legalább ki volt kapcsolva ... Ezen mormogtam, magamban, amikor beugrott az isteni szikra ...

Heuréka!!!

A korábbi zűrnél a helyiségben ment a légkondi és annak a búgása pedig elnyomott minden háttérzajt. Nyilván a szétszedés közben akkor is beindult a szerver, de a hangját akkor nem hallottam meg. A kijelzőt se vehettem észre, mert a gépek az asztal lapja alatt vannak. Ekkor tehát - joggal - kezdtem kihúzkodni a csatlakozó aljzatokat is a konzolkábelek után. (Ha fordítva csinálom, semmi baj nem lett volna, de hát ki tudhatta volna ...)

Valószínűleg éppen a legkritikusabb pillanatban, a BOOT-olás közben húztam ki a konnektorból a berendezést, ami így a RAID kötet logikai hibájához vezetett ...

Bevallom megörültem, amikor ilyen szépen le tudtam vezetni az üzemzavar okát, s megnyugodtam: erről valóban nem én tehettem, ugyanakkor azonban nem is a technika „kis gonosz manócskája” szórakozik velünk. Talán mondanom se kell, de másnap már önálló monitorral, klaviatúrával, egérrel üzemelt tovább a számítógép. Utólag persze jót mosolyogtunk a kollégákkal az eseten, de az ősz hajszálak megmaradtak ...

Vagy mégsem???

 Egy hónappal később, amikor már szinte el is felejtettük az esetet, mentem be dolgozni. Láttam, hogy a RAID-es szerver áll, a kollégámról szakad a víz. Megint ugyanaz a hiba fordult elő, de most hajnali fél háromkor, amikor senki nem volt még csak a közelben sem!

No,  most garantáltan semmi közöm nem volt hozzá és mégis ...

Ugyanaz a lemezegység, ami másfél hónappal korábban velem űzött tréfát szektorhibás lett, nem logikai hibás. Vagyis benne volt a levegőben a tönkremenetele. A kérdés tehát újra kérdés lett: vajon a korábban leírt „szabálytalan leállítás”, vagy a merevlemez döglődése okozta a problémát? Ezt már sohasem fogjuk megtudni ... Hiába, egy rendszergazda élete telis-tele van ilyen „misztikus” dolgokkal, amikor a technika megtréfál bennünket. Ettől szép és érdekes, izgalmas a szakma. Azonban akiben nincs egy enyhe hajlam a mazochizmusra, az ne válassza ezt a foglalkozást. J

A végső megoldás:

A szerverről - szerencsére - volt mentés, mert a hiba óta fokozottan odafigyeltünk. Így néhány email kivételével minden adat megmaradt. Azonban a RAID kötet alaposan át lett konfigurálva. Két további merevlemezt vettünk és most már redundáns a tárolási megoldás. A sors iróniája, hogy azóta megdöglött egy másik IBM SCSI merevlemezegység is benne, de ekkor már nem tudott problémát okozni. A szerver ment tovább, csak a LOG-ban jelent meg a figyelmeztetés, hogy a RAID rendszer átkapcsolt csökkentett biztonsági üzemmódba.

A kolléga ekkor kivette a sérült tárolót és visszaküldtük az eladónak. Az (garanciaidőn belül lévén a hiba) adott egy cseredarabot. Ezt betéve a gépbe, illetve a RAID-en átállítva a kötethiba jelzőflag-jét, felállt a Windows és azonnal automatikusan megkezdte a kötet integritásának helyreállítását. Fél óra múlva a teljes rendszer 100%-on ment tovább. Hiába, így is lehet ... JJJ

Remélem, a kedves olvasó is tanulságosnak tartja  a történetet. Egy biztos: Mi a kollégával rengeteget tanultunk belőle.

 

Kis Norbert - norbimagan@freemail.hu