alibek Опубликовано 1 ноября, 2016 · Жалоба В логах сервера CentOS 6.8 есть следующие сообщения: Nov 1 00:07:00 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR Nov 1 00:07:00 srv-fdpi kernel: CPU 7: Machine Check Exception: 0 Bank 1: 940000000000009f Nov 1 00:07:00 srv-fdpi kernel: TSC 2951a7b619e0fb8 ADDR 2 MISC 0 PROCESSOR 0:206d7 TIME 1477948020 SOCKET 0 APIC 7 Nov 1 00:07:00 srv-fdpi kernel: EDAC MC0: CE row 0, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#0": 0 Unknown error(s): memory read on FATAL area : cpu=7 Err=0000:009f (ch=15), addr = 0x00000002 => socket=0, Channel=0(mask=1), rank=0 Nov 1 00:07:00 srv-fdpi kernel: Nov 1 02:06:09 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR Nov 1 02:06:09 srv-fdpi kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092 Nov 1 02:06:09 srv-fdpi kernel: TSC 0 ADDR 310c3c80 MISC 2140626286 PROCESSOR 0:206d7 TIME 1477955169 SOCKET 0 APIC 0 Nov 1 02:06:09 srv-fdpi kernel: EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0092 (ch=2), addr = 0x310c3c80 => socket=0, Channel=1(mask=2), rank=0 Погуглил, советовали проверить счетчики EDAC: ls -s /sys/devices/system/edac/mc/mc0/ Но в счетчиках по нулям. Как проверить, в чем причина? Запустить memtest? Или это не аппаратная проблема, а софтовая? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
FATHER_FBI Опубликовано 1 ноября, 2016 (изменено) · Жалоба У меня однажды была схожая ситуация на сервере на котором материнская плата состояла из 2-х NUMA узлов и в BIOS был включен параметр, который отвечает за то, что бы ОСь, не знала что она работает на 2-х узловой системе и думала что у нее 2 сокета НО с одним банком памяти. Изменено 1 ноября, 2016 пользователем FATHER_FBI Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
hsvt Опубликовано 4 июня, 2018 · Жалоба В 01.11.2016 в 15:13, alibek сказал: В логах сервера CentOS 6.8 есть следующие сообщения: Nov 1 00:07:00 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR Nov 1 00:07:00 srv-fdpi kernel: CPU 7: Machine Check Exception: 0 Bank 1: 940000000000009f Nov 1 00:07:00 srv-fdpi kernel: TSC 2951a7b619e0fb8 ADDR 2 MISC 0 PROCESSOR 0:206d7 TIME 1477948020 SOCKET 0 APIC 7 Nov 1 00:07:00 srv-fdpi kernel: EDAC MC0: CE row 0, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#0": 0 Unknown error(s): memory read on FATAL area : cpu=7 Err=0000:009f (ch=15), addr = 0x00000002 => socket=0, Channel=0(mask=1), rank=0 Nov 1 00:07:00 srv-fdpi kernel: Nov 1 02:06:09 srv-fdpi kernel: sbridge: HANDLING MCE MEMORY ERROR Nov 1 02:06:09 srv-fdpi kernel: CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010092 Nov 1 02:06:09 srv-fdpi kernel: TSC 0 ADDR 310c3c80 MISC 2140626286 PROCESSOR 0:206d7 TIME 1477955169 SOCKET 0 APIC 0 Nov 1 02:06:09 srv-fdpi kernel: EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#1_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0092 (ch=2), addr = 0x310c3c80 => socket=0, Channel=1(mask=2), rank=0 Погуглил, советовали проверить счетчики EDAC: ls -s /sys/devices/system/edac/mc/mc0/ Но в счетчиках по нулям. Как проверить, в чем причина? Запустить memtest? Или это не аппаратная проблема, а софтовая? Удалось ли разобраться в записях ядра? Сегодня обнаружил подобное. [1287899.089358] EDAC MC0: 1976 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1287900.091367] EDAC MC0: 2300 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1287901.093379] EDAC MC0: 2323 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1287902.095386] EDAC MC0: 2326 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1287903.097403] EDAC MC0: 1710 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1287904.099412] EDAC MC0: 475 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1287905.101429] EDAC MC0: 146 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1287906.103436] EDAC MC0: 5 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1287907.105460] EDAC MC0: 7 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) [1288286.867901] EDAC MC0: 26 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0) ls -s /sys/devices/system/edac/mc/mc0/ total 0 0 ce_count 0 csrow0 0 dimm3 0 inject_addrmatch 0 inject_enable 0 inject_type 0 mc_name 0 reset_counters 0 seconds_since_reset 0 subsystem 0 ue_noinfo_count 0 ce_noinfo_count 0 dimm0 0 dimm6 0 inject_eccmask 0 inject_section 0 max_location 0 power 0 sdram_scrub_rate 0 size_mb 0 ue_count 0 uevent Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...