Są badblocki czy nie !

Autor: Marek <daggoni_at_gmail.com>
Data: Fri 05 Dec 2008 - 03:09:19 MET
Message-ID: <16wm1xwf9c7lk$.1qolde8d5neuc.dlg@40tude.net>
Content-Type: text/plain; charset="iso-8859-2"

Dwa dyski 250 GB były podpięte poprzez kontroler XPowet Sil 3132 i
stworzony raid-1. Pewnego dnia (byłem 600 stąd) przy starcie komputera
pojawił się błąd - nie można znaleźć bootującego urządzenia.

Człowiek o imieniu "informatyk" ratował sytuację i wpiął mi dwa dyski SATA
bezpośrednio do płyty. Pracowali dalej.

Co mogło być przyczyną ?
Podejrzewam że badblocki na jednym z dysków i przez to sam kontroler się
pogubił. Może mi ktoś powiedzieć jak w ogóle zachowują się takie kontrolery
w przypadku BB i raid-1 ? Mówią "koniec" i się wyłączają ?

Druga sprawa. Wszystko stoi na XP PRO SP2.
1) "W urządzeniu \Device\Harddisk0\D wystąpił zły blok."
2) Filtr Przywracania systemu napotkał nieoczekiwany błąd '0xC0000043'
podczas przetwarzania pliku 'rysunki cad' w woluminie 'HarddiskVolume2'. W
rezultacie zostało zatrzymane monitorowanie woluminu.

Te powyżej pojawiały się sporadycznie do czasu awarii.
Raz dziennie może pojawiał się następujący komunikat
"Sterownik wykrył błąd kontrolera na \Device\Harddisk4\D."
...ale jak dyski są bezpiśrednio wpięte w płyty to już

Teraz zagwozdka. Próbuję sprawdzić dyski w poszukiwaniu BB.
1) chkdsk /f /r X: - nie znajduje błędnych
2) HD Tune pokazuje gdzieś w środku 0.1% błędów na dysku (złych klastrów)
ale ch... wie które to bo nic nie loguje !
3) badblocks -v /dev/sda[1,5] - nie znajduje błędów
4. SMART pokazuje parę błędów - oto wynik z jednego z dysków

HD Tune: SAMSUNG HD250HJ Health

ID Current Worst ThresholdData
Status
(01) Raw Read Error Rate 100 95 51 171 Ok
(03) Spin Up Time 253 253 25 4416 Ok
(04) Start/Stop Count 100 100 0 336 Ok
(05) Reallocated Sector Count 100 100 10 1 Ok
(07) Seek Error Rate 253 253 51 0 Ok
(08) Seek Time Performance 253 253 15 0 Ok
(09) Power On Hours Count 100 100 0 2506 Ok
(0A) Spin Retry Count 253 253 51 0 Ok
(0B) Calibration Retry Count 253 253 0 0 Ok
(0C) Power Cycle Count 100 100 0 327 Ok
(0D) Soft Read Error Rate 100 100 0 32779808 Ok
(B8) (unknown attribute) 253 253 99 0 Ok
(BB) (unknown attribute) 1 1 0 1310842 Ok
(BC) (unknown attribute) 253 253 0 0 Ok
(BE) Airflow Temperature 151 103 0 755892253 Ok
(C2) Temperature 151 103 0 755892253 Ok
(C3) Hardware ECC Recovered 100 100 0 32779808 Ok
(C4) Reallocated Event Count 100 100 0 1 Ok
(C5) Current Pending Sector 99 99 0 18 Ok
(C6) Offline Uncorrectable 253 253 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 200 0 0 Ok
(C8) Write Error Rate 100 100 0 0 Ok
(C9) TA Counter Detected 100 65 0 11 Ok
(CA) TA Counter Increased 253 253 0 0 Ok

Power On Time : 2506
Health Status : Ok

Czyli jak mam to rozumieć....? Są BB czy nie ? Smart wariuje ?
Co począć w takiej sytuacji ? Nie chciałbym z powrotem wpinać dysków w
RAID-1, aby się nie powórzyła sytuacja. Co sądzicie o w/w wynikach SMART-a
? Walnie za chwilę czy będzie żył ?
Przez ok 3-mce raid działał bez problemów, a wszelkie komunikaty o
dyskach/kontrolerach były komputerowi obce.

Dziękuję za wszelkie sugestie.
Received on Fri Dec 5 03:10:12 2008

To archiwum zostało wygenerowane przez hypermail 2.1.8 : Fri 05 Dec 2008 - 03:51:01 MET