mewoq Posted September 14, 2018 (edited) · Report post Добрый день, коллеги! Помогите, пожалуйста, разобраться с проблемой: Имеем сервер HP DL380G6 Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux Периодически раз в неделю, а может и через день ложится сеть (даже в часы наименьшей загрузки, среди ночи), не могу разобраться в чем проблема. Из сервисов: accel-ppp(pppoe 1500 сессий) + NAT (iptables) + ipt_NETFLOW + tc + OSPF (quagga) Трафика около 1,5 Гбит/с примерно 100 тыс. PPS В ядре по рекомендации Intel включены: nox2apic intremap=off intel_idle.max_cstate=0 processor.max_cstate=1 Сетевая карта: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01) Скрытый текст driver: ixgbe version: 5.3.4 firmware-version: 0x800003af, 1.1853.0 expansion-rom-version: bus-info: 0000:0d:00.1 supports-statistics: yes supports-test: yes supports-eeprom-access: yes supports-register-dump: yes supports-priv-flags: yes /sbin/ethtool -G eth2 rx 2048 tx 2048 /sbin/ethtool -A eth2 autoneg off rx off tx off /sbin/ifconfig eth2 txqueuelen 10000 /sbin/ethtool -K eth2 tso off gso off gro off rxvlan off txvlan off /sbin/ethtool -G eth0 rx 2048 tx 2048 /sbin/ethtool -A eth0 autoneg off rx off tx off /sbin/ifconfig eth0 txqueuelen 10000 /sbin/ethtool -K eth0 tso off gso off gro off rxvlan off txvlan off Прерывания раскиданы следующим образом: eth0 (uplink) = 0 2 4 6 8 10 eth2 (pppoe) = 1 3 5 7 9 11 Для eth2 rx-0 включен RPS: #!/bin/bash DEV=eth2 echo 32768 > /proc/sys/net/core/rps_sock_flow_entries echo 2048 > /sys/class/net/$DEV/queues/rx-0/rps_flow_cnt echo aaa > /sys/class/net/$DEV/queues/rx-0/rps_cpus echo 8192 > /proc/sys/net/core/flow_limit_table_len echo ffff > /proc/sys/net/core/flow_limit_cpu_bitmap Лог с последней паники: Скрытый текст Sep 14 03:53:45 nas kernel: [576373.703909] INFO: rcu_sched self-detected stall on CPU Sep 14 03:53:45 nas kernel: [576373.705175] 5-...: (981 ticks this GP) idle=2f5/140000000000001/0 softirq=68543340/68543340 fqs=3 Sep 14 03:53:45 nas kernel: [576373.706615] (t=5250 jiffies g=35865711 c=35865710 q=69345) Sep 14 03:53:45 nas kernel: [576373.708038] rcu_sched kthread starved for 1575 jiffies! g35865711 c35865710 f0x0 RCU_GP_WAIT_FQS(3) ->state=0x0 Sep 14 03:53:45 nas kernel: [576373.709614] rcu_sched R running task 0 8 2 0x00000000 Sep 14 03:53:45 nas kernel: [576373.709617] ffff9bfac4c4a400 0000000000000000 ffff9bfacda58e40 ffff9bfedf718240 Sep 14 03:53:45 nas kernel: [576373.709619] ffff9bfecd19a040 ffffbabac316fdb0 ffffffff984016d3 ffffbabac316fde0 Sep 14 03:53:45 nas kernel: [576373.709621] 0000000108959fc1 ffff9bfedf718240 0000000000000009 ffff9bfacda58e40 Sep 14 03:53:45 nas kernel: [576373.709623] Call Trace: Sep 14 03:53:45 nas kernel: [576373.709630] [<ffffffff984016d3>] ? __schedule+0x233/0x6d0 Sep 14 03:53:45 nas kernel: [576373.709632] [<ffffffff98401ba2>] ? schedule+0x32/0x80 Sep 14 03:53:45 nas kernel: [576373.709633] [<ffffffff98404eae>] ? schedule_timeout+0x17e/0x310 Sep 14 03:53:45 nas kernel: [576373.709637] [<ffffffff97ee3e50>] ? del_timer_sync+0x50/0x50 Sep 14 03:53:45 nas kernel: [576373.709639] [<ffffffff97edd605>] ? rcu_gp_kthread+0x505/0x850 Sep 14 03:53:45 nas kernel: [576373.709642] [<ffffffff97eb8799>] ? __wake_up_common+0x49/0x80 Sep 14 03:53:45 nas kernel: [576373.709643] [<ffffffff97edd100>] ? rcu_note_context_switch+0xe0/0xe0 Sep 14 03:53:45 nas kernel: [576373.709645] [<ffffffff97e965d7>] ? kthread+0xd7/0xf0 Sep 14 03:53:45 nas kernel: [576373.709647] [<ffffffff97e96500>] ? kthread_park+0x60/0x60 Sep 14 03:53:45 nas kernel: [576373.709648] [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30 Sep 14 03:53:45 nas kernel: [576373.709650] Task dump for CPU 5: Sep 14 03:53:45 nas kernel: [576373.709650] kworker/5:0 R running task 0 3413 2 0x00000008 Sep 14 03:53:45 nas kernel: [576373.709661] Workqueue: events_long gc_worker [nf_conntrack] Sep 14 03:53:45 nas kernel: [576373.709662] ffffffff98b13580 ffffffff97ea3bcb 0000000000000005 ffffffff98b13580 Sep 14 03:53:45 nas kernel: [576373.709664] ffffffff97f7a4b6 ffff9bfedf698fc0 ffffffff98a4a6c0 0000000000000000 Sep 14 03:53:45 nas kernel: [576373.709665] ffffffff98b13580 00000000ffffffff ffffffff97edee04 0000000000a2b6d1 Sep 14 03:53:45 nas kernel: [576373.709667] Call Trace: Sep 14 03:53:45 nas kernel: [576373.709667] <IRQ> Sep 14 03:53:45 nas kernel: [576373.709670] [<ffffffff97ea3bcb>] ? sched_show_task+0xcb/0x130 Sep 14 03:53:45 nas kernel: [576373.709672] [<ffffffff97f7a4b6>] ? rcu_dump_cpu_stacks+0x92/0xb2 Sep 14 03:53:45 nas kernel: [576373.709673] [<ffffffff97edee04>] ? rcu_check_callbacks+0x754/0x8a0 Sep 14 03:53:45 nas kernel: [576373.709675] [<ffffffff97eed0c3>] ? update_wall_time+0x473/0x790 Sep 14 03:53:45 nas kernel: [576373.709677] [<ffffffff97ef48c0>] ? tick_sched_handle.isra.12+0x50/0x50 Sep 14 03:53:45 nas kernel: [576373.709678] [<ffffffff97ee5718>] ? update_process_times+0x28/0x50 Sep 14 03:53:45 nas kernel: [576373.709679] [<ffffffff97ef4890>] ? tick_sched_handle.isra.12+0x20/0x50 Sep 14 03:53:45 nas kernel: [576373.709680] [<ffffffff97ef48f8>] ? tick_sched_timer+0x38/0x70 Sep 14 03:53:45 nas kernel: [576373.709682] [<ffffffff97ee60fc>] ? __hrtimer_run_queues+0xdc/0x240 Sep 14 03:53:45 nas kernel: [576373.709683] [<ffffffff97ee67cc>] ? hrtimer_interrupt+0x9c/0x1a0 Sep 14 03:53:45 nas kernel: [576373.709684] [<ffffffff98408ca9>] ? smp_apic_timer_interrupt+0x39/0x50 Sep 14 03:53:45 nas kernel: [576373.709687] [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat] Sep 14 03:53:45 nas kernel: [576373.709688] [<ffffffff98407fc2>] ? apic_timer_interrupt+0x82/0x90 Sep 14 03:53:45 nas kernel: [576373.709689] <EOI> Sep 14 03:53:45 nas kernel: [576373.709691] [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat] Sep 14 03:53:45 nas kernel: [576373.709693] [<ffffffff97ec0f02>] ? native_queued_spin_lock_slowpath+0x112/0x190 Sep 14 03:53:45 nas kernel: [576373.709694] [<ffffffff98406018>] ? _raw_spin_lock_bh+0x28/0x30 Sep 14 03:53:45 nas kernel: [576373.709696] [<ffffffffc0492a64>] ? nf_nat_cleanup_conntrack+0xb4/0x1e0 [nf_nat] Sep 14 03:53:45 nas kernel: [576373.709701] [<ffffffffc07d96b3>] ? __nf_ct_ext_destroy+0x43/0x60 [nf_conntrack] Sep 14 03:53:45 nas kernel: [576373.709704] [<ffffffffc07d02d0>] ? nf_conntrack_free+0x20/0x50 [nf_conntrack] Sep 14 03:53:45 nas kernel: [576373.709707] [<ffffffffc07d10da>] ? gc_worker+0xba/0x190 [nf_conntrack] Sep 14 03:53:45 nas kernel: [576373.709709] [<ffffffff97e90384>] ? process_one_work+0x184/0x410 Sep 14 03:53:45 nas kernel: [576373.709710] [<ffffffff97e9065d>] ? worker_thread+0x4d/0x480 Sep 14 03:53:45 nas kernel: [576373.709711] [<ffffffff97e90610>] ? process_one_work+0x410/0x410 Sep 14 03:53:45 nas kernel: [576373.709714] [<ffffffff97e7bb0a>] ? do_group_exit+0x3a/0xa0 Sep 14 03:53:45 nas kernel: [576373.709715] [<ffffffff97e965d7>] ? kthread+0xd7/0xf0 Sep 14 03:53:45 nas kernel: [576373.709716] [<ffffffff97e96500>] ? kthread_park+0x60/0x60 Sep 14 03:53:45 nas kernel: [576373.709718] [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30 Что делать, ума не приложу... Edited September 14, 2018 by mewoq Добавление информации Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
rm_ Posted September 14, 2018 · Report post 42 minutes ago, mewoq said: Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux Можно попробовать обновить ядро. Текущая версия https://packages.debian.org/stretch/linux-image-4.9.0-8-amd64 4.9.110 - на 80 релизов новее вашего. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
TriKS Posted September 14, 2018 · Report post 1 час назад, mewoq сказал: Периодически раз в неделю, а может и через день ложится сеть Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ne-vlezay80 Posted September 14, 2018 (edited) · Report post Можешь поставить это ядро linux-image-4.18.4_4.18.4-1_amd64.deb .linux-headers-4.18.4_4.18.4-1_amd64.deb Edited September 14, 2018 by ne-vlezay80 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mewoq Posted September 14, 2018 · Report post 7 минут назад, TriKS сказал: Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг? Линк не падает, в момент "Ч" возникают огромные потери на всех eth интерфейсах На eth2 перестают прилетать PADI пакеты, также теряется связь с радиусом через eth0, лог accel-ppp (начало потерь в 2018-09-14 03:46:43) Обычно раз в секунду по 1-2 запроса PADI Скрытый текст [2018-09-14 03:46:42]: info: eth2.301: sirea56: authentication failed [2018-09-14 03:46:42]: info: sirea56: authentication failed [2018-09-14 03:46:43]: info: eth2.301: disconnected [2018-09-14 03:46:51]: warn: ppp789: radius: server(1) not responding, terminating session... [2018-09-14 03:46:53]: warn: ppp927: radius: server(1) not responding, terminating session... [2018-09-14 03:46:53]: warn: ppp308: radius: server(1) not responding, terminating session... [2018-09-14 03:46:55]: warn: ppp883: radius: server(1) not responding, terminating session... [2018-09-14 03:46:57]: warn: ppp1186: radius: server(1) not responding, terminating session... К сожалению дома спал и не смог посмотреть perf top Так его штормит минут 5 и всё восстанавливается, только после этого приходится перезапускать accel-ppp Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
default_vlan Posted September 16, 2018 · Report post netstat -Lan ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mewoq Posted September 17, 2018 · Report post 13 часов назад, default_vlan сказал: netstat -Lan ? Active Internet connections (servers and established) Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name tcp 0 0 127.0.0.1:2604 0.0.0.0:* LISTEN 3988/ospfd tcp 0 0 127.0.0.1:2000 0.0.0.0:* LISTEN 12610/accel-pppd tcp 0 0 127.0.0.1:2001 0.0.0.0:* LISTEN 12610/accel-pppd tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN 3931/sshd tcp 0 0 127.0.0.1:2601 0.0.0.0:* LISTEN 3969/zebra tcp 0 0 10.22.192.14:22 10.10.160.200:33688 ESTABLISHED 7430/sshd: lifatov tcp 0 200 10.22.192.14:22 10.10.160.195:55001 ESTABLISHED 4117/sshd: ameshkov tcp6 0 0 :::22 :::* LISTEN 3931/sshd udp 0 0 10.22.192.14:37336 10.22.192.3:9009 ESTABLISHED - raw 0 0 0.0.0.0:1 0.0.0.0:* 7 19680/ping raw 0 0 0.0.0.0:89 0.0.0.0:* 7 3988/ospfd raw6 0 0 :::58 :::* 7 19680/ping raw6 0 0 :::58 :::* 7 3969/zebra Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Dimka88 Posted October 16, 2018 · Report post В 14.09.2018 в 13:23, mewoq сказал: Что делать, ума не приложу... Разобрались? Я вот думаю, не связано ли это как то с power save. Покажите чего там показывает. cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor если powersave то сделайте для каждого ядра echo performance >/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor echo performance >/sys/devices/system/cpu/cpu1/cpufreq/scaling_governor echo performance >/sys/devices/system/cpu/cpu2/cpufreq/scaling_governor echo performance >/sys/devices/system/cpu/cpu3/cpufreq/scaling_governor Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mewoq Posted October 16, 2018 · Report post Добрый день! стоит performance Включил: echo 1 > /proc/sys/net/ipv4/conf/all/arp_filter 3 недели полёт нормальный, наблюдаем. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...