Lista pecet@man.lodz.pl
[Lista archiwów] [Inne Listy]

Re: [PECET] Ryzen 7 1700 + ECC RAM

To: pecet@man.lodz.pl
Subject: Re: [PECET] Ryzen 7 1700 + ECC RAM
From: pioruns <www@website.com>
Date: Wed, 14 Oct 2020 14:09:46 +0100
On 14/10/2020 00:26, Marcin Debowski wrote:

> Nie masz czegoś co może istotnie zakłócać, nie wiem, jakieś silne, 
> zmienne pola EM, albo jakieś źródło promieniowania? :) Swoją drogę, te 
> komunikaty o błędach (chksum) nie dotyczą braku "symetryczności" na obu 
> pulach tego Raid 1? Inaczej mówiąc, czy ten Raid 1 naprawia indywidualne 
> błędy zupełnie transparentnie, czy może ten błąd to własnie wynik 
> niezgodności obu kopii?

W PC jest oczywiście zasilacz PC a także obok, stykając się obudowami,
jest UPS ze swoim zasilaczem. Czyli standardowe urządzenia komputerowe,
które mają jakąś tam odporność na ESD.

>> Znalazłem te dwie:
>> https://www.scan.co.uk/products/16gb-1x16gb-samsung-m391a2k43bb1-ctd-ddr4-workstation-ram-pc4-21300-2666-ecc-unbuffered-cas-19-dual
>>
>> https://www.scan.co.uk/products/8gb-samsung-1x8-ddr4-pc4-21300-2666mhz-cl17-12v-ecc-udimm-server-memory
>>
>> Jak myślisz, nada się to? Obydwa są 2666MHz Unbuffered ECC no i
>> Samsunga. Prędkość też fajna bo byłoby to upgrade z obecnego 2400MHz.
>> Trochę gorsze CAS bo 16GB ma C19 a 8GB ma C17, ale ECC musi być. Inaczej
>> będę musiał szukać innej płyty ;) Są jakieś płyty pod Ryzena, które idą
>> z ECC Registered?
> 
> Nie mogę tam wleźć, bo str. uważa, że ją atakuję :) 
> A nie masz możliwość zakupu tech kości aby sprawdzić i jeśli nie działają,
> zwrócić? 

Właśnie tak zrobiłem. Zakupiłem jedną kość 16GB 2666MHz DDR4 ECC CL19
DIMM marki Kingston Server Premier:
https://www.ebuyer.com/834676-kingston-server-premier-ksm26ed8-16me-16gb-2666mhz-ddr4-ecc-cl19-dimm-ksm26ed8-16me

Zobaczymy jak przyjdzie, czy działa :)

> ECC są generalnie bardzo drogie. Chyba mimo wszystko próbowałbym to 
> jakoś ogarnąć programowo. Nie wiem, zrobić automatyczne tworzenie plików 
> par2 z bardzo niską redundancją (0.1-0.5%) z okresowym spradzaniem?

A możesz przybliżyć co masz na myśli z tworzeniem tych plików, dokładniej?

Wyczerpały mi się pomysły, dlatego wziąłem się za pamięć ECC, bo serwer
chodzi 24/7, to fakt. A dane odnośnie statystycznej ilości bitów
uszkodzonych na miesiąc na 1 GB zwykłego RAM mnie powalił. Dalej myślę,
czy to czasem nie dyski, czy kontroler czy coś. Przykładowo, jeden z
dysków raportuje się tak:

Model Family:     Seagate Barracuda 3.5
Device Model:     ST2000DM006-2DM164
Serial Number:    Z4Z9VCVN
LU WWN Device Id: 5 000c50 0a5def0ef
Firmware Version: CC26
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)

ID# ATTRIBUTE_NAME:             RAW_VALUE
1 Raw_Read_Error_Rate:          125205888
3 Spin_Up_Time:                 0
4 Start_Stop_Count:             1276
5 Reallocated_Sector_Ct:        0
7 Seek_Error_Rate:              1829851896660
9 Power_On_Hours:               14599
10 Spin_Retry_Count:            0
12 Power_Cycle_Count:           680
183 Runtime_Bad_Block:          1
184 End-to-End_Error:           0
187 Reported_Uncorrect:         0
188 Command_Timeout:            0
189 High_Fly_Writes:            130
190 Airflow_Temperature_Cel:    29
191 G-Sense_Error_Rate:         0
192 Power-Off_Retract_Count:    16
193 Load_Cycle_Count:           147909
194 Temperature_Celsius:        29
197 Current_Pending_Sector:     0
198 Offline_Uncorrectable:      0
199 UDMA_CRC_Error_Count:       3
240 Head_Flying_Hours:          11119h+37m+20.737s
241 Total_LBAs_Written:         226553923475
242 Total_LBAs_Read:            464637728080

Jest to jeden z gorszych dysków, drugi ma lepsze staty. Ten miał 3 błędy
checksum na kablu (drugi miał 1), a więc kable chyba spoko. 0 realokacji
czy oczekujących sektorów, 0 command timeout (to dobrze, bo nigdy nie
wywaliły requestu systemu o jakiś sektor), ale 1 "runtime_bad_block".
Wszelkie testy Read-InvertWrite-Verify-InvertWrite-Read-Verify (czyli
Spinrite level 4), scruby btrfsem przechodzą te dyski 100% idealnie w
tym momencie, wszystkie SMART self testy też. Dyski bardzo dużo piszą i
czytają, bo mam przeróżne usługi na tym serwerze włącznie ze swapem i
całym /home i /var (a więc /var/www i /var/cache, /var/log też, a tam w
nich duża mielonka jest).

Nie wiem jak czytać "Total_LBAs_Written" i "Total_LBAs_Read", ale jeśli
przyjąć, że LBA to 512 bajtów, to dyski zapisują 36 TB na rok i czytają
283 TB na rok, po przeliczeniu ile pracowały. A mają po 2 TB pojemności.
Gdyby to były SSD to już by się dawno zajechały, mam wrażenie :)

-- 
pozdrawiam,   pioruns
_,.-'~'-.,__,.-'~'-.,__,.-'~'-.,__,.
Registered Linux User #454644

<Pop. w Wątku] Aktualny Wątek [Nast. w Wątku>