Egy
rendszergazda hétköznapjai
Cikksorozatunk előző
részében a merevlemezes egységekről volt szó. Ezúttal is megmaradunk a háttértárolóknál,
de most a RAID-et, vagyis a biztonságos tárolókat járjuk körül. Általában ez a
nagyszerű eszköz a biztonságot fokozza, azonban itt is vannak kivételek. Ezek
fakadhatnak fatális véletlenek sorozatából ugyanúgy, mint téves beállításból, konfigurálásból.
Mostani történetünk egy
ilyen, meglehetősen izgalmas, megtörtént eseményt mesél el.
Az egész történet úgy kezdődött, hogy kaptunk egy új
szervert, melyben sok szép dolog mellett volt egy RAID vezérlő kártya is.
Számunkra akkoriban még újdonságszámba ment ez az eszköz, így áhitattal
tanulmányoztuk a szakirodalmat, majd kollégám, aki a szerveroldalt intézi,
gyorsan be is üzemelte.
Egy Windows 2000 szerver ment fel rá, amin SQL szerver,
webszerver, Exchange szerver (vezetőségi levelezés), meg hasonló dolgok kaptak
helyet. Sebtében ide másoltuk fel a gépek IMAGE állományait, amik a géptermi
helyreállításokhoz voltak szükségesek. Így telt el békés fél év, és a szerveren
szépen szaporodtak a cuccok.
Természetesen egy rendszergazda hivatalból paranoiás, így
kollégám is szépen mentegette a szervert. Igen ám, de a mentést végző program,
az EXCHANGE adatbázisát nem tudta menteni, mert az nyitott állomány révén
folyamatosan változott. Ehhez meg kellett volna vásárolni egy programmodult a
backup programunkhoz. Ez azonban drága volt és a költségvetés nem tette
lehetővé. Így esett meg, hogy ez az egy rendszer nem volt archiválva.
Nem is lett volna semmi probléma, ha a kolléga éppen nem
megy szabadságra, nekem pedig nem kell a szünetmentes tápokban akkukat cserélni
pont ekkor. Azonban a régi akkuk az utolsókat rúgták, nem lehetett a dolgokat
halogatni. Egy csütörtök délután, amikor az iskolában nem volt tanítás, akcióba
léptem:
Szépen, a megfelelő sorrendben leállítottam a 10 szervert,
majd szétszedtem a 230V-os csatlakozókat, kihalásztam a UPS-eket (szünetmentes
tápegységek). Kiszereltem a régi akkukat, betettem az újakat és összeraktam
ismét a rendszert. Mindent úgy csináltam, ahogy az a nagy könyvben meg vagyon
írva. 30 percig hagytam töltődni az új akkukat, nehogy valami gond legyen
induláskor. Amikor már minden töltésjelző 100%-ot mutatott, elkezdtem
beindítgatni a számítógépeket.
A gond ekkor kezdődött: a kérdéses W2000 szerver ugyanis
nem akart felállni. A BOOT folyamat után, ahogy a RAID rész inicializált volna,
azt írta ki: „A RAID kötet megsérült ezen és ezen a HDD-n, indulás nem
lehetséges.” Nosza, hirtelen melegem lett, mondanom se kell ... Mikor is volt
utoljára mentés? Egy hete ... Jó, ez helyrehozható, de akkor is egy csomó anyag
elveszett. Nem is szólva a levelezéséről a nagyfőnöknek ... No, az helyben
harap ezért kettőbe! Próbálkoztam a RAID setup-ba belépni és valamit tenni, de
nem lehetett. Miután próbálkoztam megfejteni a misztikus hibakódokat, egyre
jobban kezdett a valami rossz érzés a hatalmába keríteni, s jobbnak láttam
telefonálni a közvetlen főnöknek. Ő bejött, de ketten se tudtunk mit csinálni.
No, szabadság ide/oda, ment a telefon a kollégának, aki a telepítést végezte.
Szegény éppen abban a percben ért haza a nyaralásból, még a koffer a kezében
volt, amikor a mobilja megcsörrent: „Bocs, de nagy baj van ...”
„Az élet alapvetően vacak
dolog, de lidércnyomásnak megjárja ...”
Fél óra múlva mindhárman ott ültünk hümmögve a konzol előtt
tanácstalanul. Ilyet még egyikőnk se látott. Mindhármónk nyakáról folyt a hideg
verejték: tudtuk, mi a tét. A kisfőnök azt ecsetelte, hogy ebben a helyzetben
az egyetlen elegáns lépés, ha mindhárman beadjuk a felmondásunk másnap reggel
... Volt humora ... A kolléga meg se hallotta, helyette az Interneten próbált
információt, ötletet keresni. Mindhiába ... Én magam okoltam, bár magam sem nem
tudtam, hogy miért ... Kínomban persze én is nézelődtem a NET-en, de semmi
használható.
Végül jött a kisfőnöktől a mentő ötlet: kérdezzük meg a
forgalmazót telefonon, hátha ismerős neki a probléma. Meg is történt. Az
eredmény a következő volt:
Nálunk a RAID kötet úgy volt beállítva, hogy az adatokat
nem tükrözte, hanem összekapcsolta a merevlemezek kapacitását. De nem
egyszerűen összeadta, hanem a sebesség miatt egy szektort az egyik, következő
szektort a másik HDD-re tette. Csábító dolog volt telepítéskor, hogy a két
18GB-os merevlemez egyetlen HDD-ként látszik, de úgy néz ki, mégse kellett
volna a csábításnak engedni.
Ha tehát az egyik HDD megsérül, mindkettő tartalma menthetetlenül
elveszik, mert minden akkor második szektor elszállt ... A bajt fokozta, hogy
sérült RAID kötetekre nem találtunk helyreállító programot sem, ami legalább az
adatok egy részét megmenthette volna. Amit leltünk, az mind méregdrága, fizetős
alkalmazás.
Azt mondta a forgalmazó, hogy kétfajta hiba lehet. Az egyik
a fizikai. Ez esetben talán van remény, ha a meghajtó elektronikája hibásodik
meg, mivel ekkor az adatok megmaradnak. Ha azonban logikai hiba lép fel, mert
pl. szabálytalanul lett leállítva a gép, akkor valószínűleg az egyik merevlemez
adatpufferében még kiírandó adat volt, ami miatt néhány szektor nem megfelelően
került felírásra. Ekkor megeshet, hogy a teljes kötet tartalma elérhetetlenné
vált.
Hmmm ... Nem kívánom senkinek ezeket az órákat! A kolléga
kiszerelte a két IBM merevlemezes egységet, s egy másik gépen, az SCSI setup-al
leellenőriztette azokat. Eredmény: mindkettő fizikailag hibátlan, tehát maradt
a logikai probléma!
Közben alaposan eltelt az idő. Mire a tesztek lefutottak,
este fél tíz lett. Mit tehetnénk, elmentünk haza aludni, már amennyire tudtunk.
L
Új
nap, új ötlet!
Másnap reggel nyúzott arccal mentünk be a céghez. A kolléga
azzal fogadott, hogy van egy utolsó ötlete: Mindent, vagy semmit! Azt találta ki, hogy bejelöli a sérült RAID
kötet attribútumát hibátlanra. Ekkor - ha szerencsénk van - feláll a rendszer,
s le lehet futtatni egy mentést, majd egy kötet tesztet. Ha nincs, akkor
viszont minden végleg tönkremegy.
Mivel senkinek nem volt jobb ötlete, neki is esett. Sajnos
azonban a RAID-es BIOS nem engedte módosítani az attribútumot, bár a
menüpontban szerepelt ez az opció. Ezért le kellett tölteni az Internetről egy
floppy-ról futatható segédprogramot, ami már engedte a módosítást.
A kolléga megcsinálta a módosítást, nyomott egy CTRL+ALT+DEL-t,
s kővé váltan bámultuk a képernyőt, hogy mi lesz. S lásson a világ csodát:
Felállt a szerver!!! Semmi hibaüzenet, vagy nyom a LOG-ban szabálytalan
leállításra, vagy hasonlóra. A mentés természetesen azonnal megtörtént, majd a
diszk felületi ellenőrzése. Mindhiába: minden hibátlannak látszott. Egyfelől
rettenetesen örültem, mert megúsztuk a nagy bajt. Ellenben aggódtam is, mert
idegesített, hogy nem értettem, mi történt pontosan. Talán idegesség, vagy
belemagyarázás volt részemről, de affélét láttam a kolléga arcán, mintha nem
lenne meggyőződve, hogy nem én szúrtam el valamit. Ez persze rossz érzés, de
egy rendszergazdának naponta kell ilyennel szembesülnie. Az eltöltött évek
edzetté teszik az embert az ilyesmire ...
Talán a rejtély a mai napig megmaradt volna, de egy újabb
véletlen közbeszólt:
Úgy két héttel az eset után ismét egyedül voltam, s ismét
le kellett állítanom a rendszert valami miatt. Persze mondanom se kell, hogy
mennyire kínosan odafigyeltem minden apró jelre, zörejre, ami szokatlan volt. A
gépeket szépen, rendben leállítottam, és a helyiségben teljes csend honolt.
Mindaddig így is maradt, míg a CPU-SWITH dobozából nem
kezdtem el kihúzkodni a kábeleket. (Aki
nem ismerné, ez egy olyan elosztó dobozka, amire egyetlen monitor, egér,
illetve billentyűzet csatlakozik
és több számítógép között ezeket kapcsolgatja át. Ezzel elkerülhető,
hogy sok szerver esetén elvesszünk a monitorok, illetve billentyűk és egerek
tengerében.) Ahogy a billentyűcsatlakozók vezetékeit kezdtem el kihúzni, hirtelen
egy tápegység ventillátora megindult. Oooopppppsz ... kiáltottam fel
akaratlanul. Hát itt meg mi történt??? Végignéztem a szervereken, s meglepve
láttam, hogy a kérdéses RAID-es masina duruzsolni kezdett, már a floppy-t
teszteli, mindjárt felbootol. Gyorsan kikapcsoltam majd próbáltam a hatást
reprodukálni. A jelenség konzekvensen bekövetkezett. Bármit húztam ki, vagy
dugtam be a számítógép átkapcsolójába, ez az egy gép azonnal bekapcsolt
magától. Sőt, rájöttem, hogy a modem tápegységének ki/bekapcsolása is
előidézheti a hatást. Hiába, jó dolog az ATX-technika! L (Jó kérdés persze: mi a csodának kell ATX táp egy szerver gépnek, ami NON-stop
üzemel ... ?!?) Régen amit kikapcsoltam, az legalább ki volt kapcsolva ... Ezen
mormogtam, magamban, amikor beugrott az isteni szikra ...
Heuréka!!!
A korábbi zűrnél a helyiségben ment a légkondi és annak a
búgása pedig elnyomott minden háttérzajt. Nyilván a szétszedés közben akkor is
beindult a szerver, de a hangját akkor nem hallottam meg. A kijelzőt se
vehettem észre, mert a gépek az asztal lapja alatt vannak. Ekkor tehát - joggal
- kezdtem kihúzkodni a csatlakozó aljzatokat is a konzolkábelek után. (Ha
fordítva csinálom, semmi baj nem lett volna, de hát ki tudhatta volna ...)
Valószínűleg éppen a legkritikusabb pillanatban, a
BOOT-olás közben húztam ki a konnektorból a berendezést, ami így a RAID kötet
logikai hibájához vezetett ...
Bevallom megörültem, amikor ilyen szépen le tudtam vezetni
az üzemzavar okát, s megnyugodtam: erről valóban nem én tehettem, ugyanakkor
azonban nem is a technika „kis gonosz manócskája” szórakozik velünk. Talán
mondanom se kell, de másnap már önálló monitorral, klaviatúrával, egérrel
üzemelt tovább a számítógép. Utólag persze jót mosolyogtunk a kollégákkal az
eseten, de az ősz hajszálak megmaradtak ...
Vagy mégsem???
Egy hónappal
később, amikor már szinte el is felejtettük az esetet, mentem be dolgozni.
Láttam, hogy a RAID-es szerver áll, a kollégámról szakad a víz. Megint ugyanaz
a hiba fordult elő, de most hajnali fél háromkor, amikor senki nem volt még
csak a közelben sem!
No, most
garantáltan semmi közöm nem volt hozzá és mégis ...
Ugyanaz a lemezegység, ami másfél hónappal korábban velem
űzött tréfát szektorhibás lett, nem logikai hibás. Vagyis benne volt a
levegőben a tönkremenetele. A kérdés tehát újra kérdés lett: vajon a korábban
leírt „szabálytalan leállítás”, vagy a merevlemez döglődése okozta a problémát?
Ezt már sohasem fogjuk megtudni ... Hiába, egy rendszergazda élete telis-tele
van ilyen „misztikus” dolgokkal, amikor a technika megtréfál bennünket. Ettől
szép és érdekes, izgalmas a szakma. Azonban akiben nincs egy enyhe hajlam a
mazochizmusra, az ne válassza ezt a foglalkozást. J
A végső megoldás:
A szerverről - szerencsére - volt mentés, mert a hiba óta
fokozottan odafigyeltünk. Így néhány email kivételével minden adat megmaradt.
Azonban a RAID kötet alaposan át lett konfigurálva. Két további merevlemezt
vettünk és most már redundáns a tárolási megoldás. A sors iróniája, hogy azóta
megdöglött egy másik IBM SCSI merevlemezegység is benne, de ekkor már nem
tudott problémát okozni. A szerver ment tovább, csak a LOG-ban jelent meg a
figyelmeztetés, hogy a RAID rendszer átkapcsolt csökkentett biztonsági
üzemmódba.
A kolléga ekkor kivette a sérült tárolót és visszaküldtük
az eladónak. Az (garanciaidőn belül lévén a hiba) adott egy cseredarabot. Ezt
betéve a gépbe, illetve a RAID-en átállítva a kötethiba jelzőflag-jét, felállt
a Windows és azonnal automatikusan megkezdte a kötet integritásának
helyreállítását. Fél óra múlva a teljes rendszer 100%-on ment tovább. Hiába,
így is lehet ... JJJ
Remélem, a kedves olvasó is
tanulságosnak tartja a történetet.
Egy biztos: Mi a kollégával rengeteget tanultunk belőle.
Kis Norbert - norbimagan@freemail.hu