Persze a cím korántsem pontos. Sőt, pontatlan. Csak azért választottam, mert jól hangzik. Szerintem.

Vinyóhalál, szerverfagyás. Ma játszóházas délután volt…

Első körben bejelzett a munin (grafikonja), hogy az egyik hdd SMART értéke (Hardware_ECC_Recovered) igencsak ugrál. Persze rögtön ugrottam a naplófileokra, hogy mit mutatnak, és bizony az sda időröl-időre resetelte az adatbust. Arra hajaztam, hogy késő estig csak kihúzza, akkor tudom szabadon simogatni a gépet. Persze nem így lett…

15:45 környékén beütött a baj, a vinyó meghalt. Magával rántotta a debian szoftveres RAID-jét (ami persze nem helyén való, meg is próbálom majd másképp összerakni, hátha ez megúszható lesz). Persze az egész rendszer lehasalt. Újraindítás nem segített, minden szolgáltatás hallgatott. Riadószintre léptem. 🙂

Gyors rohanás vásárolni új lemezt, közben lebeszéltem Invitellel, hogy megyek be az Ilka utcába. Nagyon rugalmasak voltak, minden klappolt. 17:10 körül sikerült elkezdeni a cserét. Pár újraindítás után még volt, ami nem akart menni, de 18:18-kor végre elindult a gép, a helyén, bent a teremben. Aztán már csak a RAID tükröt kellet felhúzni, grub install az új lemezre, ami most másodlagos lett.

A szoftveres RAID azért király, mert rendszerszinten kompatibilis, tehát egy halott rendszert könnyebben fel lehet éleszteni egy másik rendszerrel, míg egy (komolyabb) vezérlőkártyával támogatott RAID-nél, ha a kártya meghal, jobban járunk, ha van egy ugyanolyan tartalék kártyánk. Persze, ez a nagy márkákra nem feltétlen igaz (FIXME). Ha egy barátságos (konkrét tapasztalat 4 portos 3ware 9550-es típussal van) kártya alatt szál el a vinyó, kultúráltan leválasztja a tömbböl, értesít engem, és sima ügy a csere. Eddig – szerencsére től sokat nem láttam – élesben egy szoftveres RAID sem tudott úgy leválasztani, hogy a rendszer tovább menjen. Persze, nem kétlem, hogy kevés lehet a tapasztalatom, szóval ha erre jársz, és tudod a titkot, kérlek ne tartsd vissza! Valószínűleg azért kiguglizom majd, ha épp el nem felejtem ezer más dolog mellett. 🙂 Arról nem szólva, hogy a szoftveres RAID hiba utáni szinkronja egy az egyben a gép CPU-ját emészti, itt konkrét esetben, nagyjából 1,5 órán át a gép négy-hatszoros terheléssel futott emiatt. Egy rendes RAID vezérlővel ez a CPU-nak semmit nem jelent, a vezérlő megoldja szépen.

19:55-kor a RAID-1 tükör újra 100%-on virított, és most csend és béke van. Akár az elmúlt 574 napban, annyi ideje nem volt gond a géppel (előtte is csak annyi, hogy ELMŰ-krabantartás miatt meg kellett állni vele éjszaka pár órára). 🙂

Kop-kop-kop.

UPDATE:

1. Mégsincs csend és béke. Úgy tűnik, hogy ezeknél a gépeknél (IBM e326m) Debian lenny-re frissítve valami ütközni kezd valamivel. Egyelőre ott tartok, hogy egyszerűbb lesz berakni egy jó raid kártyát, mint mókolni azzal, hogy miért van állandóan SATA bus reset.

2. A softos raid végülis a 2.6.18-as kernel alatt bizonyult instabilnak, 2.6.26-nál már mindenféle fagyás nélkül választja le a hibás tömböt, aminek igencsak örülök, hiszen az elmúlt napokban ez megtörtént vagy tízszer. Adrenalin termelő szerver. 🙂

0.00 avg. rating (0% score) - 0 votes

2 comments

Hozzászólás a(z) guga bejegyzéshez Válasz megszakítása

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük