Jump to content
Калькуляторы

В логах ошибки памяти

В логах сервера CentOS 6.8 есть следующие сообщения:

Nov  1 00:07:00 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 00:07:00 srv-fdpi kernel: CPU 7: Machine Check Exception: 0 Bank 1: 940000000000009f
Nov  1 00:07:00 srv-fdpi kernel: TSC 2951a7b619e0fb8 ADDR 2 MISC 0 PROCESSOR 0:206d7 TIME 1477948020 SOCKET 0 APIC 7
Nov  1 00:07:00 srv-fdpi kernel: EDAC MC0: CE row 0, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#0": 0 Unknown error(s): memory read on FATAL area : cpu=7 Err=0000:009f (ch=15), addr = 0x00000002 => socket=0, Channel=0(mask=1), rank=0
Nov  1 00:07:00 srv-fdpi kernel: 
Nov  1 02:06:09 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 02:06:09 srv-fdpi kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092
Nov  1 02:06:09 srv-fdpi kernel: TSC 0 ADDR 310c3c80 MISC 2140626286 PROCESSOR 0:206d7 TIME 1477955169 SOCKET 0 APIC 0
Nov  1 02:06:09 srv-fdpi kernel: EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0092 (ch=2), addr = 0x310c3c80 => socket=0, Channel=1(mask=2), rank=0

Погуглил, советовали проверить счетчики EDAC: ls -s /sys/devices/system/edac/mc/mc0/

Но в счетчиках по нулям.

 

Как проверить, в чем причина?

Запустить memtest?

Или это не аппаратная проблема, а софтовая?

Share this post


Link to post
Share on other sites

У меня однажды была схожая ситуация на сервере на котором материнская плата состояла из 2-х NUMA узлов и в BIOS был включен параметр, который отвечает за то, что бы ОСь, не знала что она работает на 2-х узловой системе и думала что у нее 2 сокета НО с одним банком памяти.

Edited by FATHER_FBI

Share this post


Link to post
Share on other sites

В 01.11.2016 в 15:13, alibek сказал:

В логах сервера CentOS 6.8 есть следующие сообщения:

 


Nov  1 00:07:00 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 00:07:00 srv-fdpi kernel: CPU 7: Machine Check Exception: 0 Bank 1: 940000000000009f
Nov  1 00:07:00 srv-fdpi kernel: TSC 2951a7b619e0fb8 ADDR 2 MISC 0 PROCESSOR 0:206d7 TIME 1477948020 SOCKET 0 APIC 7
Nov  1 00:07:00 srv-fdpi kernel: EDAC MC0: CE row 0, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#0": 0 Unknown error(s): memory read on FATAL area : cpu=7 Err=0000:009f (ch=15), addr = 0x00000002 => socket=0, Channel=0(mask=1), rank=0
Nov  1 00:07:00 srv-fdpi kernel: 
Nov  1 02:06:09 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 02:06:09 srv-fdpi kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092
Nov  1 02:06:09 srv-fdpi kernel: TSC 0 ADDR 310c3c80 MISC 2140626286 PROCESSOR 0:206d7 TIME 1477955169 SOCKET 0 APIC 0
Nov  1 02:06:09 srv-fdpi kernel: EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0092 (ch=2), addr = 0x310c3c80 => socket=0, Channel=1(mask=2), rank=0
 

 

Погуглил, советовали проверить счетчики EDAC: ls -s /sys/devices/system/edac/mc/mc0/

Но в счетчиках по нулям.

 

Как проверить, в чем причина?

Запустить memtest?

Или это не аппаратная проблема, а софтовая?

Удалось ли разобраться в записях ядра? Сегодня обнаружил подобное.

 

[1287899.089358] EDAC MC0: 1976 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287900.091367] EDAC MC0: 2300 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287901.093379] EDAC MC0: 2323 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287902.095386] EDAC MC0: 2326 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287903.097403] EDAC MC0: 1710 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287904.099412] EDAC MC0: 475 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287905.101429] EDAC MC0: 146 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287906.103436] EDAC MC0: 5 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287907.105460] EDAC MC0: 7 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1288286.867901] EDAC MC0: 26 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
ls -s /sys/devices/system/edac/mc/mc0/
total 0
0 ce_count         0 csrow0  0 dimm3  0 inject_addrmatch  0 inject_enable   0 inject_type   0 mc_name  0 reset_counters    0 seconds_since_reset  0 subsystem  0 ue_noinfo_count
0 ce_noinfo_count  0 dimm0   0 dimm6  0 inject_eccmask    0 inject_section  0 max_location  0 power    0 sdram_scrub_rate  0 size_mb              0 ue_count   0 uevent

 

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.