asid2006 Опубликовано 28 сентября, 2015 (изменено) · Жалоба Здравствуйте. Есть сервер с CentOS release 6.6 (Final). Ядро 3.10.84-1.el6.elrepo.x86_64. Выполняет роли NAT (iptables), шейпера (tc), dhcp (isc dhcp), dns (bind). Прерывания распределяются по ядрам процессора. Пока аплинк был 400, всё работало без сбоев. Как только подняли до 550 заметили такую проблему: несколько раз в день сервер перестаёт отвечать на запросы. В ходе диагностики выяснили, что в это время все прерывания сыплются на одно ядро. Когда всё хорошо, прерывания распределяются примерно равномерно. Когда всё плохо - скрин во вложении Плюс в консоль стали сыпаться такие сообщения: Message from syslogd@srv1 at Sep 28 09:37:06 ... kernel:Uhhuh. NMI received for unknown reason 39 on CPU 6. Message from syslogd@srv1 at Sep 28 09:37:06 ... kernel:Do you have a strange power saving mode enabled? Message from syslogd@srv1 at Sep 28 09:37:06 ... kernel:Dazed and confused, but trying to continue Подскажите, в чём может быть дело? Изменено 30 сентября, 2015 пользователем asid2006 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
asid2006 Опубликовано 28 сентября, 2015 · Жалоба Вывод perf top когда всё хорошо: 32,75% [kernel] [k] _raw_spin_lock 22,50% [kernel] [k] u32_classify 10,11% [kernel] [k] __netif_receive_skb_core 9,93% [kernel] [k] dev_queue_xmit_nit 4,62% [kernel] [k] tc_classify_compat 1,02% [kernel] [k] rb_prev Когда плохо: 28,92% [kernel] [k] __netif_receive_skb_core 28,75% [kernel] [k] dev_queue_xmit_nit 10,02% [kernel] [k] u32_classify Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
pppoetest Опубликовано 28 сентября, 2015 · Жалоба Покажите cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
asid2006 Опубликовано 28 сентября, 2015 · Жалоба Покажите cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor [root@srv1 ~]# cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor powersave powersave powersave powersave powersave powersave powersave powersave Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
pppoetest Опубликовано 28 сентября, 2015 · Жалоба echo performance > /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
asid2006 Опубликовано 28 сентября, 2015 (изменено) · Жалоба echo performance > /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor Сделал, проблема осталась Изменено 28 сентября, 2015 пользователем asid2006 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
asid2006 Опубликовано 29 сентября, 2015 · Жалоба Вроде всё решилось. Проблема была в: 1. Перегрев процессора. Температура была 83 градуса. Снял с сервера крышку, опустилась до 56. После решения сервер стал пропадать на гораздо меньшие промежутки времени. 2. Настройки DHCP сервера. Он ловил запросы со всех интерфейсов и поэтому тупил. После того, как обозначил один единственный, всё стало хорошо. Сообщения до сих пор вылезают, но кроме этого никаких проблем не наблюдается. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
asid2006 Опубликовано 29 сентября, 2015 · Жалоба Решилось не до конца. Связь с сервером не пропадает, но вечером снова появились проблемы: скорость абонентам выдаётся не полностью, хотя общий канал не забивается, иногда теряются пакеты. perf top: 61,23% [kernel] [k] _raw_spin_lock 19,81% [kernel] [k] u32_classify 3,94% [kernel] [k] tc_classify_compat Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
roma33rus Опубликовано 30 сентября, 2015 · Жалоба А у вас вручную прерывания прибиты или irqbalance рулит? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
asid2006 Опубликовано 30 сентября, 2015 · Жалоба После перезагрузки сервера ошибки исчезли, нагрузка снизилась, баллансировка пришла в норму. Проблема решена Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Mallorn Опубликовано 14 октября, 2015 · Жалоба Еще проблемы с блоком питания могут давать такой эффект Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...