Lista pecet@man.lodz.pl
[Lista archiwów] [Inne Listy]

Re: [PECET] Asus PRIME X370-PRO i 5-5600X

To: pecet@man.lodz.pl
Subject: Re: [PECET] Asus PRIME X370-PRO i 5-5600X
From: Szwambuł Trantiputl <trantiputl@duck.com>
Date: Sun, 09 Oct 2022 04:10:26 +0200
Wcale nie przypadkiem, dnia Sun, 09 Oct 2022 00:32:51 GMT 
 doszła do mnie wiadomość  <TEo0L.1153514$%fx6.950614@fx14.ams1> 
 od Marcin Debowski <agatek@INVALID.zoho.com>  :
>On 2022-10-08, marrgol <marrgol@address.invalid> wrote:
>> On 08/10/2022 at 03.21, Marcin Debowski wrote:
>>> Mam ww. mobo z ww. cpu. Działa to dobrze z 5-3600X i 7-1700PRO ale już
>>> nie z ww., mimo że bios (obecnie najnowszy) i producent deklarują, że
>>> obsługuje. A nie działą to w ten sposób, że jak się próbuje cokolwiek
>>> robić (odpalić coś więcej niż pulpit) to następuje restart. Tak samo pod
>>> W10 jak i pod Mintem.
>>> 
>>> Takiemu restartowi pod Mintem zawsze towarzyszy ten komunikat:
>>> 
>>> [  316.856151] [Hardware Error]: Corrected error, no action required.
>>> [  316.856156] [Hardware Error]: CPU:0 (19:21:2) 
>>> MC12_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000602010b
>>> [  316.856160] [Hardware Error]: Error Addr: 0x00000000000a9f40
>>> [  316.856161] [Hardware Error]: IPID: 0x000700b020350500, Syndrome: 
>>> 0x000000232a1f0f0e
>>> [  316.856164] [Hardware Error]: L3 Cache Ext. Error Code: 2, L3M Tag ECC 
>>> Error.
>>> [  316.856166] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
>>> 
>>> Trafień po google za dużo nie ma, ale trochę przeraził mnie ten wątek:
>>> https://forums.linuxmint.com/viewtopic.php?f=18&t=342467&sid=d16b627e8602f5980f0eedc4042a2c87&start=20
>>> 
>>> Byłby to pierwszy w moim życiu nowy cpu, który jest tak dyskretnie
>>> uszkodzony. Nie przypuszczałem, że takie rzeczy się zdarzają.
>>> 
>>> Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
>>
>> Pod linuxem spróbowałbym najnowszego mikrokodu (jeszcze cieplutki):
>> https://git.kernel.org/pub/scm/linux/kernel/git/firmware/linux-firmware.git/commit/?id=fdf1a65258522edf18a0a1768fbafa61ed07e598
>> Trzeba ściągnąć plik archiwum ponad 400MB żeby wydłubać z niego
>> plik kilkukilobajtowy… :-/  Niestety AMD nie ma zwyczaju chwalić się
>> tym, co poprawili.
>>
>> Testowo, w BIOS-ie, jeśli jest możliwość, spróbowałbym ciut podbić
>> napięcie zasilania procka lub/i pamięci, ew. jeszcze wydłużyć timingi
>> pamięci i wyłączyć OpCache, bo objaw jest trochę taki, jak przy
>> overclockingu (zakładam, że próbowałeś instalować 5-5600X więcej
>> niż raz i nie jest to problem z chłodzeniem procka).
>
>Dzięki. Przeinstalowałem wszystko fizycznie, z wymianą pasty włącznie, 
>ale zaczynam się poważnie zastanawiać, czy to jednak nie są restarty z 
>przegrzania bo jest więcej zastanawiających objawów - np. rozpakowywanie 
>dużego pliku gzip wywala się po ca 40GB danych, chyba, że zatrzymam 
>proces (crt-z) po 20, a potem wznowię. Mogę tak dociągnąć rzecz do końca 
>robiąc takie 20GB przerwy.
>
>Ale taki ffmpeg przy hevc potrafi wywalić się w ciągu kilkunatu sekund, 
>za to stress z wysyceniem wszystkich rdzeni dopiero po 2ch minutach. 
>Polecany w tym wątku stress-ng (-> dzięki za wskazówkę) przy teście L3 
>na wszystkich rdzeniach również wytrzymuje ponad 2 min.
>
>Z drugie strony, pod windows dawał się wystartować, zerkałem na 
>temperaturę i była np. 65, po czym chwilę później następował restart. 
>Ale już przestał, tj. windows już nie startuje. Parę losowych restartów 
>położyło trupem i nie daje się naprawić ani przeistalować.
>
>A pod Linuksem w bieżącym jądrze (5.4) nadal nie mam obsługi pomiaru 
>temperatury dla Ryzenów 5, ale widzę po google, że w wyższych jądrach 
>już jest, więc chyba muszę zacząć od tego.
>
>Zastanawiające jest też, że jak wchodzę do monitoringu w biosie, to 
>zwiększenie/zmniejszenie obrotów wentylatora cpu 3x powoduje bardzo 
>nieznaczne zmiany temperatury i są one bardzo powolne.
>
>No więc objawy są trochę dziwne, ale sugerujące, że jednak coś może być 
>z przegrzewaniem. Jeszcze się okaże, że to cpu cooler (be quiet! Shadow 
>Rock Tf 2, 160W TDP).
>
>A, i jeszcze zauważyłe, że nie każde wyrzucenie "Hardware error" 
>skutkuje restartem, ale zdecydowana większość skutkuje w ciągu kolejnych 
>sekund. To też jakby wskazuje na przegrzewanie.

Ja bym jeszcze pokombinował z ograniczeniem TDP do 65W, wyłączeniem
boost lub ustawieniem napięcia CPU w tryb offset i ZEJŚCIEM o
<=100mV(to samo dla chipsetu), będzie się grzał sporo mniej(u mnie
temperatury spadały o 5-7 stopni w stresie, a wydajność o mniej niż
10%), natomiast jeśli to CPU jest na gwarancji, to bym wysłał.
-- 
Pójdziesz Pleśniowy
Legniesz Ciekliwy
Nakarmisz osty
Najesz pokrzywy
                Stanisław Grochowiak. 

<Pop. w Wątku] Aktualny Wątek [Nast. w Wątku>