Добрый день, коллеги!
Помогите, пожалуйста, разобраться с проблемой:
Имеем сервер HP DL380G6
Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux
Периодически раз в неделю, а может и через день ложится сеть (даже в часы наименьшей загрузки, среди ночи), не могу разобраться в чем проблема.
Из сервисов: accel-ppp(pppoe 1500 сессий) + NAT (iptables) + ipt_NETFLOW + tc + OSPF (quagga)
Трафика около 1,5 Гбит/с примерно 100 тыс. PPS
В ядре по рекомендации Intel включены: nox2apic intremap=off intel_idle.max_cstate=0 processor.max_cstate=1
Сетевая карта: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)
/sbin/ethtool -G eth2 rx 2048 tx 2048
/sbin/ethtool -A eth2 autoneg off rx off tx off
/sbin/ifconfig eth2 txqueuelen 10000
/sbin/ethtool -K eth2 tso off gso off gro off rxvlan off txvlan off
/sbin/ethtool -G eth0 rx 2048 tx 2048
/sbin/ethtool -A eth0 autoneg off rx off tx off
/sbin/ifconfig eth0 txqueuelen 10000
/sbin/ethtool -K eth0 tso off gso off gro off rxvlan off txvlan off
Прерывания раскиданы следующим образом:
eth0 (uplink) = 0 2 4 6 8 10
eth2 (pppoe) = 1 3 5 7 9 11
Для eth2 rx-0 включен RPS:
#!/bin/bash
DEV=eth2
echo 32768 > /proc/sys/net/core/rps_sock_flow_entries
echo 2048 > /sys/class/net/$DEV/queues/rx-0/rps_flow_cnt
echo aaa > /sys/class/net/$DEV/queues/rx-0/rps_cpus
echo 8192 > /proc/sys/net/core/flow_limit_table_len
echo ffff > /proc/sys/net/core/flow_limit_cpu_bitmap
Лог с последней паники:
Что делать, ума не приложу...