Wcale nie przypadkiem, dnia Sun, 09 Oct 2022 00:32:51 GMT
doszła do mnie wiadomość <TEo0L.1153514$%fx6.950614@fx14.ams1>
od Marcin Debowski <agatek@INVALID.zoho.com> :
>On 2022-10-08, marrgol <marrgol@address.invalid> wrote:
>> On 08/10/2022 at 03.21, Marcin Debowski wrote:
>>> Mam ww. mobo z ww. cpu. Działa to dobrze z 5-3600X i 7-1700PRO ale już
>>> nie z ww., mimo że bios (obecnie najnowszy) i producent deklarują, że
>>> obsługuje. A nie działą to w ten sposób, że jak się próbuje cokolwiek
>>> robić (odpalić coś więcej niż pulpit) to następuje restart. Tak samo pod
>>> W10 jak i pod Mintem.
>>>
>>> Takiemu restartowi pod Mintem zawsze towarzyszy ten komunikat:
>>>
>>> [ 316.856151] [Hardware Error]: Corrected error, no action required.
>>> [ 316.856156] [Hardware Error]: CPU:0 (19:21:2)
>>> MC12_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000602010b
>>> [ 316.856160] [Hardware Error]: Error Addr: 0x00000000000a9f40
>>> [ 316.856161] [Hardware Error]: IPID: 0x000700b020350500, Syndrome:
>>> 0x000000232a1f0f0e
>>> [ 316.856164] [Hardware Error]: L3 Cache Ext. Error Code: 2, L3M Tag ECC
>>> Error.
>>> [ 316.856166] [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
>>>
>>> Trafień po google za dużo nie ma, ale trochę przeraził mnie ten wątek:
>>> https://forums.linuxmint.com/viewtopic.php?f=18&t=342467&sid=d16b627e8602f5980f0eedc4042a2c87&start=20
>>>
>>> Byłby to pierwszy w moim życiu nowy cpu, który jest tak dyskretnie
>>> uszkodzony. Nie przypuszczałem, że takie rzeczy się zdarzają.
>>>
>>> Jakieś pomysły, co można sprawdzić, zanim zacznę się przepychać z AMD?
>>
>> Pod linuxem spróbowałbym najnowszego mikrokodu (jeszcze cieplutki):
>> https://git.kernel.org/pub/scm/linux/kernel/git/firmware/linux-firmware.git/commit/?id=fdf1a65258522edf18a0a1768fbafa61ed07e598
>> Trzeba ściągnąć plik archiwum ponad 400MB żeby wydłubać z niego
>> plik kilkukilobajtowy… :-/ Niestety AMD nie ma zwyczaju chwalić się
>> tym, co poprawili.
>>
>> Testowo, w BIOS-ie, jeśli jest możliwość, spróbowałbym ciut podbić
>> napięcie zasilania procka lub/i pamięci, ew. jeszcze wydłużyć timingi
>> pamięci i wyłączyć OpCache, bo objaw jest trochę taki, jak przy
>> overclockingu (zakładam, że próbowałeś instalować 5-5600X więcej
>> niż raz i nie jest to problem z chłodzeniem procka).
>
>Dzięki. Przeinstalowałem wszystko fizycznie, z wymianą pasty włącznie,
>ale zaczynam się poważnie zastanawiać, czy to jednak nie są restarty z
>przegrzania bo jest więcej zastanawiających objawów - np. rozpakowywanie
>dużego pliku gzip wywala się po ca 40GB danych, chyba, że zatrzymam
>proces (crt-z) po 20, a potem wznowię. Mogę tak dociągnąć rzecz do końca
>robiąc takie 20GB przerwy.
>
>Ale taki ffmpeg przy hevc potrafi wywalić się w ciągu kilkunatu sekund,
>za to stress z wysyceniem wszystkich rdzeni dopiero po 2ch minutach.
>Polecany w tym wątku stress-ng (-> dzięki za wskazówkę) przy teście L3
>na wszystkich rdzeniach również wytrzymuje ponad 2 min.
>
>Z drugie strony, pod windows dawał się wystartować, zerkałem na
>temperaturę i była np. 65, po czym chwilę później następował restart.
>Ale już przestał, tj. windows już nie startuje. Parę losowych restartów
>położyło trupem i nie daje się naprawić ani przeistalować.
>
>A pod Linuksem w bieżącym jądrze (5.4) nadal nie mam obsługi pomiaru
>temperatury dla Ryzenów 5, ale widzę po google, że w wyższych jądrach
>już jest, więc chyba muszę zacząć od tego.
>
>Zastanawiające jest też, że jak wchodzę do monitoringu w biosie, to
>zwiększenie/zmniejszenie obrotów wentylatora cpu 3x powoduje bardzo
>nieznaczne zmiany temperatury i są one bardzo powolne.
>
>No więc objawy są trochę dziwne, ale sugerujące, że jednak coś może być
>z przegrzewaniem. Jeszcze się okaże, że to cpu cooler (be quiet! Shadow
>Rock Tf 2, 160W TDP).
>
>A, i jeszcze zauważyłe, że nie każde wyrzucenie "Hardware error"
>skutkuje restartem, ale zdecydowana większość skutkuje w ciągu kolejnych
>sekund. To też jakby wskazuje na przegrzewanie.
Ja bym jeszcze pokombinował z ograniczeniem TDP do 65W, wyłączeniem
boost lub ustawieniem napięcia CPU w tryb offset i ZEJŚCIEM o
<=100mV(to samo dla chipsetu), będzie się grzał sporo mniej(u mnie
temperatury spadały o 5-7 stopni w stresie, a wydajność o mniej niż
10%), natomiast jeśli to CPU jest na gwarancji, to bym wysłał.
--
Pójdziesz Pleśniowy
Legniesz Ciekliwy
Nakarmisz osty
Najesz pokrzywy
Stanisław Grochowiak.
|