Jump to content

Recommended Posts

Posted

В логах сервера CentOS 6.8 есть следующие сообщения:

Nov  1 00:07:00 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 00:07:00 srv-fdpi kernel: CPU 7: Machine Check Exception: 0 Bank 1: 940000000000009f
Nov  1 00:07:00 srv-fdpi kernel: TSC 2951a7b619e0fb8 ADDR 2 MISC 0 PROCESSOR 0:206d7 TIME 1477948020 SOCKET 0 APIC 7
Nov  1 00:07:00 srv-fdpi kernel: EDAC MC0: CE row 0, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#0": 0 Unknown error(s): memory read on FATAL area : cpu=7 Err=0000:009f (ch=15), addr = 0x00000002 => socket=0, Channel=0(mask=1), rank=0
Nov  1 00:07:00 srv-fdpi kernel: 
Nov  1 02:06:09 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 02:06:09 srv-fdpi kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092
Nov  1 02:06:09 srv-fdpi kernel: TSC 0 ADDR 310c3c80 MISC 2140626286 PROCESSOR 0:206d7 TIME 1477955169 SOCKET 0 APIC 0
Nov  1 02:06:09 srv-fdpi kernel: EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0092 (ch=2), addr = 0x310c3c80 => socket=0, Channel=1(mask=2), rank=0

Погуглил, советовали проверить счетчики EDAC: ls -s /sys/devices/system/edac/mc/mc0/

Но в счетчиках по нулям.

 

Как проверить, в чем причина?

Запустить memtest?

Или это не аппаратная проблема, а софтовая?

Posted (edited)

У меня однажды была схожая ситуация на сервере на котором материнская плата состояла из 2-х NUMA узлов и в BIOS был включен параметр, который отвечает за то, что бы ОСь, не знала что она работает на 2-х узловой системе и думала что у нее 2 сокета НО с одним банком памяти.

Edited by FATHER_FBI
  • 1 year later...
Posted
В 01.11.2016 в 15:13, alibek сказал:

В логах сервера CentOS 6.8 есть следующие сообщения:

 


Nov  1 00:07:00 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 00:07:00 srv-fdpi kernel: CPU 7: Machine Check Exception: 0 Bank 1: 940000000000009f
Nov  1 00:07:00 srv-fdpi kernel: TSC 2951a7b619e0fb8 ADDR 2 MISC 0 PROCESSOR 0:206d7 TIME 1477948020 SOCKET 0 APIC 7
Nov  1 00:07:00 srv-fdpi kernel: EDAC MC0: CE row 0, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#0": 0 Unknown error(s): memory read on FATAL area : cpu=7 Err=0000:009f (ch=15), addr = 0x00000002 => socket=0, Channel=0(mask=1), rank=0
Nov  1 00:07:00 srv-fdpi kernel: 
Nov  1 02:06:09 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR
Nov  1 02:06:09 srv-fdpi kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092
Nov  1 02:06:09 srv-fdpi kernel: TSC 0 ADDR 310c3c80 MISC 2140626286 PROCESSOR 0:206d7 TIME 1477955169 SOCKET 0 APIC 0
Nov  1 02:06:09 srv-fdpi kernel: EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0092 (ch=2), addr = 0x310c3c80 => socket=0, Channel=1(mask=2), rank=0
 

 

Погуглил, советовали проверить счетчики EDAC: ls -s /sys/devices/system/edac/mc/mc0/

Но в счетчиках по нулям.

 

Как проверить, в чем причина?

Запустить memtest?

Или это не аппаратная проблема, а софтовая?

Удалось ли разобраться в записях ядра? Сегодня обнаружил подобное.

 

[1287899.089358] EDAC MC0: 1976 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287900.091367] EDAC MC0: 2300 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287901.093379] EDAC MC0: 2323 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287902.095386] EDAC MC0: 2326 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287903.097403] EDAC MC0: 1710 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287904.099412] EDAC MC0: 475 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287905.101429] EDAC MC0: 146 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287906.103436] EDAC MC0: 5 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1287907.105460] EDAC MC0: 7 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
[1288286.867901] EDAC MC0: 26 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
ls -s /sys/devices/system/edac/mc/mc0/
total 0
0 ce_count         0 csrow0  0 dimm3  0 inject_addrmatch  0 inject_enable   0 inject_type   0 mc_name  0 reset_counters    0 seconds_since_reset  0 subsystem  0 ue_noinfo_count
0 ce_noinfo_count  0 dimm0   0 dimm6  0 inject_eccmask    0 inject_section  0 max_location  0 power    0 sdram_scrub_rate  0 size_mb              0 ue_count   0 uevent

 

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.