Jump to content
Калькуляторы

DL360p g8 виснет намертво

Знатоки прошу помощи, стал падать сервер для блокировок. (extFilter в режиме зеркала)

 

Сегодня я увидел что vtysh повис (2019-01-12 23:50:02 | ERROR | main  | Process already running!)

 

В конфиге отправка на почту у меня не была настроена, я по привычке очистил от network bgpd.conf и zebra.conf, рестартнул их и запустил extfilter_quagga.pl.

 

Скрипт начал заполнять маршруты в системе.

 

ip r | grep zebra | wc -l
64860

 

Но спустя время уходит в ребут, после ребута всё тоже самое после запуска скрипта extfilter_quagga.pl.

 

Вот кратко о характеристиках сервера:

DL360p g8



Два E5-2670 0 @ 2.60GHz



lspci | grep Eth
03:00.0 Ethernet controller: Broadcom Limited NetXtreme BCM5719 Gigabit Ethernet PCIe (rev 01)
03:00.1 Ethernet controller: Broadcom Limited NetXtreme BCM5719 Gigabit Ethernet PCIe (rev 01)
03:00.2 Ethernet controller: Broadcom Limited NetXtreme BCM5719 Gigabit Ethernet PCIe (rev 01)
03:00.3 Ethernet controller: Broadcom Limited NetXtreme BCM5719 Gigabit Ethernet PCIe (rev 01)
04:00.0 Ethernet controller: Intel Corporation 82599 10 Gigabit Dual Port Network Connection (rev 01) - зеркало
04:00.1 Ethernet controller: Intel Corporation 82599 10 Gigabit Dual Port Network Connection (rev 01) - зеркало 
07:00.0 Ethernet controller: Intel Corporation 82576 Gigabit Network Connection (rev 01) - sender
07:00.1 Ethernet controller: Intel Corporation 82576 Gigabit Network Connection (rev 01) - управление



free -hm
              total        used        free      shared  buff/cache   available
Mem:            62G         33G         29G        9.3M        265M         28G
Swap:            0B



cat /usr/lib/tuned/dpdk-tune/tuned.conf
[main]
include=latency-performance

[bootloader]
cmdline=isolcpus=1,2,3,4,5,6,7,8,9,10,11,12,13,14,15 default_hugepagesz=1G hugepagesz=1G hugepages=32





grep ^processor /proc/cpuinfo
processor       : 0
processor       : 1
processor       : 2
processor       : 3
processor       : 4
processor       : 5
processor       : 6
processor       : 7
processor       : 8
processor       : 9
processor       : 10
processor       : 11
processor       : 12
processor       : 13
processor       : 14
processor       : 15

Версия quagga: quagga-0.99.22.4-4.el7.x86_64

 

Сделал kernel.panic=0, вырубил extfilter и выгрузил интерфейсы из DPDK, запустил скрипт - тоже самое.

 

 ./extfilter_quagga.pl

 

ip r  | grep zebra | wc -l
15348
root@dpi:/opt/dpdk/dpdk-stable-17.05.1/usertools$ free -hm
              total        used        free      shared  buff/cache   available
Mem:            62G         33G         28G        9.3M        437M         28G
Swap:            0B          0B          0B
root@dpi:/opt/dpdk/dpdk-stable-17.05.1/usertools$

.........................................................

 

На момент зависания было 15к маршрутов и 28г свободной памяти, в ip-kvm iLO4 - тишина намертво висит и нету паники даже. 

 

С аппаратной частью всё ОК, ну по крайней мере все датчики и сенсоры и дисковая подсистема в норме... по iLO4

 

Во вложении, то что удалось поймать в  remote syslog

 

Я лишь заметил из подозрительного

 

19.03.2019 17:33:42    dpi.local.net    Default    0    5    dpi    kernel    kernel: ixgbe: module verification failed: signature and/or required key missing - tainting kernel
19.03.2019 17:33:42    dpi.local.net    Default    0    7    dpi    kernel    kernel: pci 0000:00:1e.0:   bridge window [mem 0x000a0000-0x000bffff window] (subtractive decode)
19.03.2019 17:33:42    dpi.local.net    Default    0    6    dpi    kernel    kernel: pci 0000:00:01.0:   bridge window [mem 0xf0000000-0xf03fffff 64bit pref]

Ну и постоянные записи про pci

ixgbe 5.0.4

igb 5.3.5.12

Я правильно понимаю, что версия драйвера ixgbe не имеет значения т.к. сетевухи для зеркала используют igb_uio из DPDK ?

Помогите куда копать?

dpi2.txt

Edited by hsvt

Share this post


Link to post
Share on other sites

Начните с самого начала.
Обновление BIOS'a и всего Firmware. Только потом сможем перейти к диагностике "программных" проблем.

Share this post


Link to post
Share on other sites

Первопричина проблемы не была найдена, BIOS и прочее F\W хоть и есть более свежее, но трогать не хочется.

 

Убрал запуск DPDK и extFilter из автозагрузки, выключил tuneadm профиль, убрал idle=poll из /etc/default/grub, убрал скрипт который раскидывает прерывания на сетевые карты (для управления) и который ставит /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor в performance, перепроверил настройки в BIOS (ht, vt, numa, memory, c-states и профили powersaving)

 

Перезапустил сервер, запустил ./extfilter_quagga.pl скрипт работал около 7-10 минут и выполнился, добавились все маршруты, сервер не завис. Вернул всё на место, кроме idle=poll, лишнее оно было и процы заметно больше грелись.

2019-03-19 16:51:57 | INFO  | main  | Quagga configuration successfully updated: added 90166 ipv4 ips, added 11 ipv6 ips, deleted 0 ipv4 ips, deleted 0 ipv6 ips, added 90166 ipv4 routes to blackhole, added 11 ipv6 routes to blackhole, deleted 0 ipv4 routes from blackhole, deleted 0 ipv6 routes from blackhole.



 ll /etc/quagga/
total 5160
-rw------- 1 quagga quagga   2365128 Mar 19 16:51 bgpd.conf
-rw------- 1 quagga quagga       320 Mar 19 16:20 bgpd.conf.sav
-rw-r----- 1 quagga quaggavt       0 Mar 21  2016 vtysh.conf
-rw------- 1 quagga quagga   2905950 Mar 19 16:51 zebra.conf
-rw------- 1 quagga quagga       594 Mar 19 14:18 zebra.conf.sav

 

После этого полёт нормальный, удалять все сети из конфигов quagga и проверять работу скрипта заново на уже работающем фильтре не хочу), сделал несколько плановых ребутов - всё ок.

 

Ещё igb_uio по ошибке подгружался от DPDK 18.05 который вроде бы пока не поддерживается фильтром, не знаю может и в этом дело было.

 

А quagga по хорошему нужно конечно вынести отдельно, мне интересно какой предел роутев можно ожидать от РКН когда quagga уже "захлебнётся"?

Edited by hsvt

Share this post


Link to post
Share on other sites
1 час назад, hsvt сказал:

А quagga по хорошему нужно конечно вынести отдельно, мне интересно какой предел роутев можно ожидать от РКН когда quagga уже "захлебнётся"?

 

 Она дохнет не от количества роутов, а от их перестройки частой. И если у Вас квагга так часто из-за ркн перестраивает маршрутизацию, может концепцию фильтрации поменять ? Ставьте нормальный DPI, хотя бы на исходящий, не в зеркало. Монстры от этого ушли, у них денег много, но осталось только на избыточную фильтрацию. Ну и да, если у Вас софтовая фильтрация - дешевше свой dpi купить, из рекомендованных.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this