Перейти к содержимому
Калькуляторы

В логах ошибки памяти

В логах сервера CentOS 6.8 есть следующие сообщения:

Nov  1 00:07:00 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 00:07:00 srv-fdpi kernel: CPU 7: Machine Check Exception: 0 Bank 1: 940000000000009f
Nov  1 00:07:00 srv-fdpi kernel: TSC 2951a7b619e0fb8 ADDR 2 MISC 0 PROCESSOR 0:206d7 TIME 1477948020 SOCKET 0 APIC 7
Nov  1 00:07:00 srv-fdpi kernel: EDAC MC0: CE row 0, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#0": 0 Unknown error(s): memory read on FATAL area : cpu=7 Err=0000:009f (ch=15), addr = 0x00000002 => socket=0, Channel=0(mask=1), rank=0
Nov  1 00:07:00 srv-fdpi kernel: 
Nov  1 02:06:09 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 02:06:09 srv-fdpi kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092
Nov  1 02:06:09 srv-fdpi kernel: TSC 0 ADDR 310c3c80 MISC 2140626286 PROCESSOR 0:206d7 TIME 1477955169 SOCKET 0 APIC 0
Nov  1 02:06:09 srv-fdpi kernel: EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0092 (ch=2), addr = 0x310c3c80 => socket=0, Channel=1(mask=2), rank=0

Погуглил, советовали проверить счетчики EDAC: ls -s /sys/devices/system/edac/mc/mc0/

Но в счетчиках по нулям.

 

Как проверить, в чем причина?

Запустить memtest?

Или это не аппаратная проблема, а софтовая?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

У меня однажды была схожая ситуация на сервере на котором материнская плата состояла из 2-х NUMA узлов и в BIOS был включен параметр, который отвечает за то, что бы ОСь, не знала что она работает на 2-х узловой системе и думала что у нее 2 сокета НО с одним банком памяти.

Изменено пользователем FATHER_FBI

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 01.11.2016 в 15:13, alibek сказал:

В логах сервера CentOS 6.8 есть следующие сообщения:

 


Nov  1 00:07:00 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 00:07:00 srv-fdpi kernel: CPU 7: Machine Check Exception: 0 Bank 1: 940000000000009f
Nov  1 00:07:00 srv-fdpi kernel: TSC 2951a7b619e0fb8 ADDR 2 MISC 0 PROCESSOR 0:206d7 TIME 1477948020 SOCKET 0 APIC 7
Nov  1 00:07:00 srv-fdpi kernel: EDAC MC0: CE row 0, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#0": 0 Unknown error(s): memory read on FATAL area : cpu=7 Err=0000:009f (ch=15), addr = 0x00000002 => socket=0, Channel=0(mask=1), rank=0
Nov  1 00:07:00 srv-fdpi kernel: 
Nov  1 02:06:09 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 02:06:09 srv-fdpi kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092
Nov  1 02:06:09 srv-fdpi kernel: TSC 0 ADDR 310c3c80 MISC 2140626286 PROCESSOR 0:206d7 TIME 1477955169 SOCKET 0 APIC 0
Nov  1 02:06:09 srv-fdpi kernel: EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0092 (ch=2), addr = 0x310c3c80 => socket=0, Channel=1(mask=2), rank=0
 

 

Погуглил, советовали проверить счетчики EDAC: ls -s /sys/devices/system/edac/mc/mc0/

Но в счетчиках по нулям.

 

Как проверить, в чем причина?

Запустить memtest?

Или это не аппаратная проблема, а софтовая?

Удалось ли разобраться в записях ядра? Сегодня обнаружил подобное.

 

[1287899.089358] EDAC MC0: 1976 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287900.091367] EDAC MC0: 2300 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287901.093379] EDAC MC0: 2323 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287902.095386] EDAC MC0: 2326 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287903.097403] EDAC MC0: 1710 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287904.099412] EDAC MC0: 475 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287905.101429] EDAC MC0: 146 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287906.103436] EDAC MC0: 5 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287907.105460] EDAC MC0: 7 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1288286.867901] EDAC MC0: 26 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
ls -s /sys/devices/system/edac/mc/mc0/
total 0
0 ce_count         0 csrow0  0 dimm3  0 inject_addrmatch  0 inject_enable   0 inject_type   0 mc_name  0 reset_counters    0 seconds_since_reset  0 subsystem  0 ue_noinfo_count
0 ce_noinfo_count  0 dimm0   0 dimm6  0 inject_eccmask    0 inject_section  0 max_location  0 power    0 sdram_scrub_rate  0 size_mb              0 ue_count   0 uevent

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.