On 2022-10-08, marrgol <marrgol@address.invalid> wrote:
> On 08/10/2022 at 03.21, Marcin Debowski wrote:
>> Mam ww. mobo z ww. cpu. Działa to dobrze z 5-3600X i 7-1700PRO ale już
>> nie z ww., mimo że bios (obecnie najnowszy) i producent deklarują, że
>> obsługuje. A nie działą to w ten sposób, że jak się próbuje cokolwiek
>> robić (odpalić coś więcej niż pulpit) to następuje restart. Tak samo pod
>> W10 jak i pod Mintem.
>>
>> Takiemu restartowi pod Mintem zawsze towarzyszy ten komunikat:
>>
>> [ 316.856151] [Hardware Error]: Corrected error, no action required.
>> [ 316.856156] [Hardware Error]: CPU:0 (19:21:2)
>> MC12_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000602010b
>> [ 316.856160] [Hardware Error]: Error Addr: 0x00000000000a9f40
>> [ 316.856161] [Hardware Error]: IPID: 0x000700b020350500, Syndrome:
>> 0x000000232a1f0f0e
>> [ 316.856164] [Hardware Error]: L3 Cache Ext. Error Code: 2, L3M Tag ECC
>> Error.
>> [ 316.856166] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
>>
>> Trafień po google za dużo nie ma, ale trochę przeraził mnie ten wątek:
>> https://forums.linuxmint.com/viewtopic.php?f=18&t=342467&sid=d16b627e8602f5980f0eedc4042a2c87&start=20
>>
>> Byłby to pierwszy w moim życiu nowy cpu, który jest tak dyskretnie
>> uszkodzony. Nie przypuszczałem, że takie rzeczy się zdarzają.
>>
>> Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
>
> Pod linuxem spróbowałbym najnowszego mikrokodu (jeszcze cieplutki):
> https://git.kernel.org/pub/scm/linux/kernel/git/firmware/linux-firmware.git/commit/?id=fdf1a65258522edf18a0a1768fbafa61ed07e598
> Trzeba ściągnąć plik archiwum ponad 400MB żeby wydłubać z niego
> plik kilkukilobajtowy… :-/ Niestety AMD nie ma zwyczaju chwalić się
> tym, co poprawili.
>
> Testowo, w BIOS-ie, jeśli jest możliwość, spróbowałbym ciut podbić
> napięcie zasilania procka lub/i pamięci, ew. jeszcze wydłużyć timingi
> pamięci i wyłączyć OpCache, bo objaw jest trochę taki, jak przy
> overclockingu (zakładam, że próbowałeś instalować 5-5600X więcej
> niż raz i nie jest to problem z chłodzeniem procka).
Dzięki. Przeinstalowałem wszystko fizycznie, z wymianą pasty włącznie,
ale zaczynam się poważnie zastanawiać, czy to jednak nie są restarty z
przegrzania bo jest więcej zastanawiających objawów - np. rozpakowywanie
dużego pliku gzip wywala się po ca 40GB danych, chyba, że zatrzymam
proces (crt-z) po 20, a potem wznowię. Mogę tak dociągnąć rzecz do końca
robiąc takie 20GB przerwy.
Ale taki ffmpeg przy hevc potrafi wywalić się w ciągu kilkunatu sekund,
za to stress z wysyceniem wszystkich rdzeni dopiero po 2ch minutach.
Polecany w tym wątku stress-ng (-> dzięki za wskazówkę) przy teście L3
na wszystkich rdzeniach również wytrzymuje ponad 2 min.
Z drugie strony, pod windows dawał się wystartować, zerkałem na
temperaturę i była np. 65, po czym chwilę później następował restart.
Ale już przestał, tj. windows już nie startuje. Parę losowych restartów
położyło trupem i nie daje się naprawić ani przeistalować.
A pod Linuksem w bieżącym jądrze (5.4) nadal nie mam obsługi pomiaru
temperatury dla Ryzenów 5, ale widzę po google, że w wyższych jądrach
już jest, więc chyba muszę zacząć od tego.
Zastanawiające jest też, że jak wchodzę do monitoringu w biosie, to
zwiększenie/zmniejszenie obrotów wentylatora cpu 3x powoduje bardzo
nieznaczne zmiany temperatury i są one bardzo powolne.
No więc objawy są trochę dziwne, ale sugerujące, że jednak coś może być
z przegrzewaniem. Jeszcze się okaże, że to cpu cooler (be quiet! Shadow
Rock Tf 2, 160W TDP).
A, i jeszcze zauważyłe, że nie każde wyrzucenie "Hardware error"
skutkuje restartem, ale zdecydowana większość skutkuje w ciągu kolejnych
sekund. To też jakby wskazuje na przegrzewanie.
--
Marcin
|