mewoq Posted September 14, 2018 Posted September 14, 2018 (edited) Добрый день, коллеги! Помогите, пожалуйста, разобраться с проблемой: Имеем сервер HP DL380G6 Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux Периодически раз в неделю, а может и через день ложится сеть (даже в часы наименьшей загрузки, среди ночи), не могу разобраться в чем проблема. Из сервисов: accel-ppp(pppoe 1500 сессий) + NAT (iptables) + ipt_NETFLOW + tc + OSPF (quagga) Трафика около 1,5 Гбит/с примерно 100 тыс. PPS В ядре по рекомендации Intel включены: nox2apic intremap=off intel_idle.max_cstate=0 processor.max_cstate=1 Сетевая карта: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01) Скрытый текст driver: ixgbe version: 5.3.4 firmware-version: 0x800003af, 1.1853.0 expansion-rom-version: bus-info: 0000:0d:00.1 supports-statistics: yes supports-test: yes supports-eeprom-access: yes supports-register-dump: yes supports-priv-flags: yes /sbin/ethtool -G eth2 rx 2048 tx 2048 /sbin/ethtool -A eth2 autoneg off rx off tx off /sbin/ifconfig eth2 txqueuelen 10000 /sbin/ethtool -K eth2 tso off gso off gro off rxvlan off txvlan off /sbin/ethtool -G eth0 rx 2048 tx 2048 /sbin/ethtool -A eth0 autoneg off rx off tx off /sbin/ifconfig eth0 txqueuelen 10000 /sbin/ethtool -K eth0 tso off gso off gro off rxvlan off txvlan off Прерывания раскиданы следующим образом: eth0 (uplink) = 0 2 4 6 8 10 eth2 (pppoe) = 1 3 5 7 9 11 Для eth2 rx-0 включен RPS: #!/bin/bash DEV=eth2 echo 32768 > /proc/sys/net/core/rps_sock_flow_entries echo 2048 > /sys/class/net/$DEV/queues/rx-0/rps_flow_cnt echo aaa > /sys/class/net/$DEV/queues/rx-0/rps_cpus echo 8192 > /proc/sys/net/core/flow_limit_table_len echo ffff > /proc/sys/net/core/flow_limit_cpu_bitmap Лог с последней паники: Скрытый текст Sep 14 03:53:45 nas kernel: [576373.703909] INFO: rcu_sched self-detected stall on CPU Sep 14 03:53:45 nas kernel: [576373.705175] 5-...: (981 ticks this GP) idle=2f5/140000000000001/0 softirq=68543340/68543340 fqs=3 Sep 14 03:53:45 nas kernel: [576373.706615] (t=5250 jiffies g=35865711 c=35865710 q=69345) Sep 14 03:53:45 nas kernel: [576373.708038] rcu_sched kthread starved for 1575 jiffies! g35865711 c35865710 f0x0 RCU_GP_WAIT_FQS(3) ->state=0x0 Sep 14 03:53:45 nas kernel: [576373.709614] rcu_sched R running task 0 8 2 0x00000000 Sep 14 03:53:45 nas kernel: [576373.709617] ffff9bfac4c4a400 0000000000000000 ffff9bfacda58e40 ffff9bfedf718240 Sep 14 03:53:45 nas kernel: [576373.709619] ffff9bfecd19a040 ffffbabac316fdb0 ffffffff984016d3 ffffbabac316fde0 Sep 14 03:53:45 nas kernel: [576373.709621] 0000000108959fc1 ffff9bfedf718240 0000000000000009 ffff9bfacda58e40 Sep 14 03:53:45 nas kernel: [576373.709623] Call Trace: Sep 14 03:53:45 nas kernel: [576373.709630] [<ffffffff984016d3>] ? __schedule+0x233/0x6d0 Sep 14 03:53:45 nas kernel: [576373.709632] [<ffffffff98401ba2>] ? schedule+0x32/0x80 Sep 14 03:53:45 nas kernel: [576373.709633] [<ffffffff98404eae>] ? schedule_timeout+0x17e/0x310 Sep 14 03:53:45 nas kernel: [576373.709637] [<ffffffff97ee3e50>] ? del_timer_sync+0x50/0x50 Sep 14 03:53:45 nas kernel: [576373.709639] [<ffffffff97edd605>] ? rcu_gp_kthread+0x505/0x850 Sep 14 03:53:45 nas kernel: [576373.709642] [<ffffffff97eb8799>] ? __wake_up_common+0x49/0x80 Sep 14 03:53:45 nas kernel: [576373.709643] [<ffffffff97edd100>] ? rcu_note_context_switch+0xe0/0xe0 Sep 14 03:53:45 nas kernel: [576373.709645] [<ffffffff97e965d7>] ? kthread+0xd7/0xf0 Sep 14 03:53:45 nas kernel: [576373.709647] [<ffffffff97e96500>] ? kthread_park+0x60/0x60 Sep 14 03:53:45 nas kernel: [576373.709648] [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30 Sep 14 03:53:45 nas kernel: [576373.709650] Task dump for CPU 5: Sep 14 03:53:45 nas kernel: [576373.709650] kworker/5:0 R running task 0 3413 2 0x00000008 Sep 14 03:53:45 nas kernel: [576373.709661] Workqueue: events_long gc_worker [nf_conntrack] Sep 14 03:53:45 nas kernel: [576373.709662] ffffffff98b13580 ffffffff97ea3bcb 0000000000000005 ffffffff98b13580 Sep 14 03:53:45 nas kernel: [576373.709664] ffffffff97f7a4b6 ffff9bfedf698fc0 ffffffff98a4a6c0 0000000000000000 Sep 14 03:53:45 nas kernel: [576373.709665] ffffffff98b13580 00000000ffffffff ffffffff97edee04 0000000000a2b6d1 Sep 14 03:53:45 nas kernel: [576373.709667] Call Trace: Sep 14 03:53:45 nas kernel: [576373.709667] <IRQ> Sep 14 03:53:45 nas kernel: [576373.709670] [<ffffffff97ea3bcb>] ? sched_show_task+0xcb/0x130 Sep 14 03:53:45 nas kernel: [576373.709672] [<ffffffff97f7a4b6>] ? rcu_dump_cpu_stacks+0x92/0xb2 Sep 14 03:53:45 nas kernel: [576373.709673] [<ffffffff97edee04>] ? rcu_check_callbacks+0x754/0x8a0 Sep 14 03:53:45 nas kernel: [576373.709675] [<ffffffff97eed0c3>] ? update_wall_time+0x473/0x790 Sep 14 03:53:45 nas kernel: [576373.709677] [<ffffffff97ef48c0>] ? tick_sched_handle.isra.12+0x50/0x50 Sep 14 03:53:45 nas kernel: [576373.709678] [<ffffffff97ee5718>] ? update_process_times+0x28/0x50 Sep 14 03:53:45 nas kernel: [576373.709679] [<ffffffff97ef4890>] ? tick_sched_handle.isra.12+0x20/0x50 Sep 14 03:53:45 nas kernel: [576373.709680] [<ffffffff97ef48f8>] ? tick_sched_timer+0x38/0x70 Sep 14 03:53:45 nas kernel: [576373.709682] [<ffffffff97ee60fc>] ? __hrtimer_run_queues+0xdc/0x240 Sep 14 03:53:45 nas kernel: [576373.709683] [<ffffffff97ee67cc>] ? hrtimer_interrupt+0x9c/0x1a0 Sep 14 03:53:45 nas kernel: [576373.709684] [<ffffffff98408ca9>] ? smp_apic_timer_interrupt+0x39/0x50 Sep 14 03:53:45 nas kernel: [576373.709687] [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat] Sep 14 03:53:45 nas kernel: [576373.709688] [<ffffffff98407fc2>] ? apic_timer_interrupt+0x82/0x90 Sep 14 03:53:45 nas kernel: [576373.709689] <EOI> Sep 14 03:53:45 nas kernel: [576373.709691] [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat] Sep 14 03:53:45 nas kernel: [576373.709693] [<ffffffff97ec0f02>] ? native_queued_spin_lock_slowpath+0x112/0x190 Sep 14 03:53:45 nas kernel: [576373.709694] [<ffffffff98406018>] ? _raw_spin_lock_bh+0x28/0x30 Sep 14 03:53:45 nas kernel: [576373.709696] [<ffffffffc0492a64>] ? nf_nat_cleanup_conntrack+0xb4/0x1e0 [nf_nat] Sep 14 03:53:45 nas kernel: [576373.709701] [<ffffffffc07d96b3>] ? __nf_ct_ext_destroy+0x43/0x60 [nf_conntrack] Sep 14 03:53:45 nas kernel: [576373.709704] [<ffffffffc07d02d0>] ? nf_conntrack_free+0x20/0x50 [nf_conntrack] Sep 14 03:53:45 nas kernel: [576373.709707] [<ffffffffc07d10da>] ? gc_worker+0xba/0x190 [nf_conntrack] Sep 14 03:53:45 nas kernel: [576373.709709] [<ffffffff97e90384>] ? process_one_work+0x184/0x410 Sep 14 03:53:45 nas kernel: [576373.709710] [<ffffffff97e9065d>] ? worker_thread+0x4d/0x480 Sep 14 03:53:45 nas kernel: [576373.709711] [<ffffffff97e90610>] ? process_one_work+0x410/0x410 Sep 14 03:53:45 nas kernel: [576373.709714] [<ffffffff97e7bb0a>] ? do_group_exit+0x3a/0xa0 Sep 14 03:53:45 nas kernel: [576373.709715] [<ffffffff97e965d7>] ? kthread+0xd7/0xf0 Sep 14 03:53:45 nas kernel: [576373.709716] [<ffffffff97e96500>] ? kthread_park+0x60/0x60 Sep 14 03:53:45 nas kernel: [576373.709718] [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30 Что делать, ума не приложу... Edited September 14, 2018 by mewoq Добавление информации Вставить ник Quote
rm_ Posted September 14, 2018 Posted September 14, 2018 42 minutes ago, mewoq said: Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux Можно попробовать обновить ядро. Текущая версия https://packages.debian.org/stretch/linux-image-4.9.0-8-amd64 4.9.110 - на 80 релизов новее вашего. Вставить ник Quote
TriKS Posted September 14, 2018 Posted September 14, 2018 1 час назад, mewoq сказал: Периодически раз в неделю, а может и через день ложится сеть Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг? Вставить ник Quote
ne-vlezay80 Posted September 14, 2018 Posted September 14, 2018 (edited) Можешь поставить это ядро linux-image-4.18.4_4.18.4-1_amd64.deb .linux-headers-4.18.4_4.18.4-1_amd64.deb Edited September 14, 2018 by ne-vlezay80 Вставить ник Quote
mewoq Posted September 14, 2018 Author Posted September 14, 2018 7 минут назад, TriKS сказал: Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг? Линк не падает, в момент "Ч" возникают огромные потери на всех eth интерфейсах На eth2 перестают прилетать PADI пакеты, также теряется связь с радиусом через eth0, лог accel-ppp (начало потерь в 2018-09-14 03:46:43) Обычно раз в секунду по 1-2 запроса PADI Скрытый текст [2018-09-14 03:46:42]: info: eth2.301: sirea56: authentication failed [2018-09-14 03:46:42]: info: sirea56: authentication failed [2018-09-14 03:46:43]: info: eth2.301: disconnected [2018-09-14 03:46:51]: warn: ppp789: radius: server(1) not responding, terminating session... [2018-09-14 03:46:53]: warn: ppp927: radius: server(1) not responding, terminating session... [2018-09-14 03:46:53]: warn: ppp308: radius: server(1) not responding, terminating session... [2018-09-14 03:46:55]: warn: ppp883: radius: server(1) not responding, terminating session... [2018-09-14 03:46:57]: warn: ppp1186: radius: server(1) not responding, terminating session... К сожалению дома спал и не смог посмотреть perf top Так его штормит минут 5 и всё восстанавливается, только после этого приходится перезапускать accel-ppp Вставить ник Quote
mewoq Posted September 17, 2018 Author Posted September 17, 2018 13 часов назад, default_vlan сказал: netstat -Lan ? Active Internet connections (servers and established) Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name tcp 0 0 127.0.0.1:2604 0.0.0.0:* LISTEN 3988/ospfd tcp 0 0 127.0.0.1:2000 0.0.0.0:* LISTEN 12610/accel-pppd tcp 0 0 127.0.0.1:2001 0.0.0.0:* LISTEN 12610/accel-pppd tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN 3931/sshd tcp 0 0 127.0.0.1:2601 0.0.0.0:* LISTEN 3969/zebra tcp 0 0 10.22.192.14:22 10.10.160.200:33688 ESTABLISHED 7430/sshd: lifatov tcp 0 200 10.22.192.14:22 10.10.160.195:55001 ESTABLISHED 4117/sshd: ameshkov tcp6 0 0 :::22 :::* LISTEN 3931/sshd udp 0 0 10.22.192.14:37336 10.22.192.3:9009 ESTABLISHED - raw 0 0 0.0.0.0:1 0.0.0.0:* 7 19680/ping raw 0 0 0.0.0.0:89 0.0.0.0:* 7 3988/ospfd raw6 0 0 :::58 :::* 7 19680/ping raw6 0 0 :::58 :::* 7 3969/zebra Вставить ник Quote
Dimka88 Posted October 16, 2018 Posted October 16, 2018 В 14.09.2018 в 13:23, mewoq сказал: Что делать, ума не приложу... Разобрались? Я вот думаю, не связано ли это как то с power save. Покажите чего там показывает. cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor если powersave то сделайте для каждого ядра echo performance >/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor echo performance >/sys/devices/system/cpu/cpu1/cpufreq/scaling_governor echo performance >/sys/devices/system/cpu/cpu2/cpufreq/scaling_governor echo performance >/sys/devices/system/cpu/cpu3/cpufreq/scaling_governor Вставить ник Quote
mewoq Posted October 16, 2018 Author Posted October 16, 2018 Добрый день! стоит performance Включил: echo 1 > /proc/sys/net/ipv4/conf/all/arp_filter 3 недели полёт нормальный, наблюдаем. Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.