Jump to content
Калькуляторы

Kernel panic Debian 4.9.30-2+deb9u5

Добрый день, коллеги!

Помогите, пожалуйста, разобраться с проблемой:

 

Имеем сервер HP DL380G6 

Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux

 

Периодически раз в неделю, а может и через день ложится сеть (даже в часы наименьшей загрузки, среди ночи), не могу разобраться в чем проблема.

Из сервисов: accel-ppp(pppoe 1500 сессий) + NAT (iptables) + ipt_NETFLOW + tc + OSPF (quagga)

Трафика около 1,5 Гбит/с примерно 100 тыс. PPS 

 

В ядре по рекомендации Intel включены: nox2apic intremap=off intel_idle.max_cstate=0 processor.max_cstate=1

 

Сетевая карта: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)

Скрытый текст

driver: ixgbe
version: 5.3.4
firmware-version: 0x800003af, 1.1853.0
expansion-rom-version: 
bus-info: 0000:0d:00.1
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: yes

 

/sbin/ethtool -G eth2 rx 2048 tx 2048 
/sbin/ethtool -A eth2 autoneg off rx off tx off
/sbin/ifconfig eth2 txqueuelen 10000
/sbin/ethtool -K eth2 tso off gso off gro off rxvlan off txvlan off

/sbin/ethtool -G eth0 rx 2048 tx 2048 
/sbin/ethtool -A eth0 autoneg off rx off tx off
/sbin/ifconfig eth0 txqueuelen 10000
/sbin/ethtool -K eth0 tso off gso off gro off rxvlan off txvlan off

Прерывания раскиданы следующим образом:

eth0 (uplink) = 0 2 4 6 8 10

eth2 (pppoe) = 1 3 5 7 9 11

 

Для eth2 rx-0 включен RPS:

#!/bin/bash
DEV=eth2

echo 32768 > /proc/sys/net/core/rps_sock_flow_entries
echo 2048 > /sys/class/net/$DEV/queues/rx-0/rps_flow_cnt
echo aaa > /sys/class/net/$DEV/queues/rx-0/rps_cpus
echo 8192 > /proc/sys/net/core/flow_limit_table_len
echo ffff > /proc/sys/net/core/flow_limit_cpu_bitmap

 

Лог с последней паники:

Скрытый текст

Sep 14 03:53:45 nas kernel: [576373.703909] INFO: rcu_sched self-detected stall on CPU
Sep 14 03:53:45 nas kernel: [576373.705175]     5-...: (981 ticks this GP) idle=2f5/140000000000001/0 softirq=68543340/68543340 fqs=3 
Sep 14 03:53:45 nas kernel: [576373.706615]      (t=5250 jiffies g=35865711 c=35865710 q=69345)
Sep 14 03:53:45 nas kernel: [576373.708038] rcu_sched kthread starved for 1575 jiffies! g35865711 c35865710 f0x0 RCU_GP_WAIT_FQS(3) ->state=0x0
Sep 14 03:53:45 nas kernel: [576373.709614] rcu_sched       R  running task        0     8      2 0x00000000
Sep 14 03:53:45 nas kernel: [576373.709617]  ffff9bfac4c4a400 0000000000000000 ffff9bfacda58e40 ffff9bfedf718240
Sep 14 03:53:45 nas kernel: [576373.709619]  ffff9bfecd19a040 ffffbabac316fdb0 ffffffff984016d3 ffffbabac316fde0
Sep 14 03:53:45 nas kernel: [576373.709621]  0000000108959fc1 ffff9bfedf718240 0000000000000009 ffff9bfacda58e40
Sep 14 03:53:45 nas kernel: [576373.709623] Call Trace:
Sep 14 03:53:45 nas kernel: [576373.709630]  [<ffffffff984016d3>] ? __schedule+0x233/0x6d0
Sep 14 03:53:45 nas kernel: [576373.709632]  [<ffffffff98401ba2>] ? schedule+0x32/0x80
Sep 14 03:53:45 nas kernel: [576373.709633]  [<ffffffff98404eae>] ? schedule_timeout+0x17e/0x310
Sep 14 03:53:45 nas kernel: [576373.709637]  [<ffffffff97ee3e50>] ? del_timer_sync+0x50/0x50
Sep 14 03:53:45 nas kernel: [576373.709639]  [<ffffffff97edd605>] ? rcu_gp_kthread+0x505/0x850
Sep 14 03:53:45 nas kernel: [576373.709642]  [<ffffffff97eb8799>] ? __wake_up_common+0x49/0x80
Sep 14 03:53:45 nas kernel: [576373.709643]  [<ffffffff97edd100>] ? rcu_note_context_switch+0xe0/0xe0
Sep 14 03:53:45 nas kernel: [576373.709645]  [<ffffffff97e965d7>] ? kthread+0xd7/0xf0
Sep 14 03:53:45 nas kernel: [576373.709647]  [<ffffffff97e96500>] ? kthread_park+0x60/0x60
Sep 14 03:53:45 nas kernel: [576373.709648]  [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30
Sep 14 03:53:45 nas kernel: [576373.709650] Task dump for CPU 5:
Sep 14 03:53:45 nas kernel: [576373.709650] kworker/5:0     R  running task        0  3413      2 0x00000008
Sep 14 03:53:45 nas kernel: [576373.709661] Workqueue: events_long gc_worker [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709662]  ffffffff98b13580 ffffffff97ea3bcb 0000000000000005 ffffffff98b13580
Sep 14 03:53:45 nas kernel: [576373.709664]  ffffffff97f7a4b6 ffff9bfedf698fc0 ffffffff98a4a6c0 0000000000000000
Sep 14 03:53:45 nas kernel: [576373.709665]  ffffffff98b13580 00000000ffffffff ffffffff97edee04 0000000000a2b6d1
Sep 14 03:53:45 nas kernel: [576373.709667] Call Trace:
Sep 14 03:53:45 nas kernel: [576373.709667]  <IRQ> 
Sep 14 03:53:45 nas kernel: [576373.709670]  [<ffffffff97ea3bcb>] ? sched_show_task+0xcb/0x130
Sep 14 03:53:45 nas kernel: [576373.709672]  [<ffffffff97f7a4b6>] ? rcu_dump_cpu_stacks+0x92/0xb2
Sep 14 03:53:45 nas kernel: [576373.709673]  [<ffffffff97edee04>] ? rcu_check_callbacks+0x754/0x8a0
Sep 14 03:53:45 nas kernel: [576373.709675]  [<ffffffff97eed0c3>] ? update_wall_time+0x473/0x790
Sep 14 03:53:45 nas kernel: [576373.709677]  [<ffffffff97ef48c0>] ? tick_sched_handle.isra.12+0x50/0x50
Sep 14 03:53:45 nas kernel: [576373.709678]  [<ffffffff97ee5718>] ? update_process_times+0x28/0x50
Sep 14 03:53:45 nas kernel: [576373.709679]  [<ffffffff97ef4890>] ? tick_sched_handle.isra.12+0x20/0x50
Sep 14 03:53:45 nas kernel: [576373.709680]  [<ffffffff97ef48f8>] ? tick_sched_timer+0x38/0x70
Sep 14 03:53:45 nas kernel: [576373.709682]  [<ffffffff97ee60fc>] ? __hrtimer_run_queues+0xdc/0x240
Sep 14 03:53:45 nas kernel: [576373.709683]  [<ffffffff97ee67cc>] ? hrtimer_interrupt+0x9c/0x1a0
Sep 14 03:53:45 nas kernel: [576373.709684]  [<ffffffff98408ca9>] ? smp_apic_timer_interrupt+0x39/0x50
Sep 14 03:53:45 nas kernel: [576373.709687]  [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709688]  [<ffffffff98407fc2>] ? apic_timer_interrupt+0x82/0x90
Sep 14 03:53:45 nas kernel: [576373.709689]  <EOI> 
Sep 14 03:53:45 nas kernel: [576373.709691]  [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709693]  [<ffffffff97ec0f02>] ? native_queued_spin_lock_slowpath+0x112/0x190
Sep 14 03:53:45 nas kernel: [576373.709694]  [<ffffffff98406018>] ? _raw_spin_lock_bh+0x28/0x30
Sep 14 03:53:45 nas kernel: [576373.709696]  [<ffffffffc0492a64>] ? nf_nat_cleanup_conntrack+0xb4/0x1e0 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709701]  [<ffffffffc07d96b3>] ? __nf_ct_ext_destroy+0x43/0x60 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709704]  [<ffffffffc07d02d0>] ? nf_conntrack_free+0x20/0x50 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709707]  [<ffffffffc07d10da>] ? gc_worker+0xba/0x190 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709709]  [<ffffffff97e90384>] ? process_one_work+0x184/0x410
Sep 14 03:53:45 nas kernel: [576373.709710]  [<ffffffff97e9065d>] ? worker_thread+0x4d/0x480
Sep 14 03:53:45 nas kernel: [576373.709711]  [<ffffffff97e90610>] ? process_one_work+0x410/0x410
Sep 14 03:53:45 nas kernel: [576373.709714]  [<ffffffff97e7bb0a>] ? do_group_exit+0x3a/0xa0
Sep 14 03:53:45 nas kernel: [576373.709715]  [<ffffffff97e965d7>] ? kthread+0xd7/0xf0
Sep 14 03:53:45 nas kernel: [576373.709716]  [<ffffffff97e96500>] ? kthread_park+0x60/0x60
Sep 14 03:53:45 nas kernel: [576373.709718]  [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30

 

Что делать, ума не приложу... 

Edited by mewoq
Добавление информации

Share this post


Link to post
Share on other sites

42 minutes ago, mewoq said:

Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux

Можно попробовать обновить ядро.

Текущая версия https://packages.debian.org/stretch/linux-image-4.9.0-8-amd64

4.9.110 - на 80 релизов новее вашего.

Share this post


Link to post
Share on other sites

1 час назад, mewoq сказал:

Периодически раз в неделю, а может и через день ложится сеть

Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг?

Share this post


Link to post
Share on other sites

7 минут назад, TriKS сказал:

Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг?

Линк не падает, в момент "Ч" возникают огромные потери на всех eth интерфейсах

На eth2 перестают прилетать PADI пакеты, также теряется связь с радиусом через eth0, лог accel-ppp (начало потерь в 2018-09-14 03:46:43)

Обычно раз в секунду по 1-2 запроса PADI

Скрытый текст

[2018-09-14 03:46:42]:  info: eth2.301: sirea56: authentication failed
[2018-09-14 03:46:42]:  info: sirea56: authentication failed
[2018-09-14 03:46:43]:  info: eth2.301: disconnected
[2018-09-14 03:46:51]:  warn: ppp789: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:53]:  warn: ppp927: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:53]:  warn: ppp308: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:55]:  warn: ppp883: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:57]:  warn: ppp1186: radius: server(1) not responding, terminating session...

 

К сожалению дома спал и не смог посмотреть perf top

 

Так его штормит минут 5 и всё восстанавливается, только после этого приходится перезапускать accel-ppp

Share this post


Link to post
Share on other sites

13 часов назад, default_vlan сказал:

netstat -Lan ?

Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name    
tcp        0      0 127.0.0.1:2604          0.0.0.0:*               LISTEN      3988/ospfd          
tcp        0      0 127.0.0.1:2000          0.0.0.0:*               LISTEN      12610/accel-pppd    
tcp        0      0 127.0.0.1:2001          0.0.0.0:*               LISTEN      12610/accel-pppd    
tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN      3931/sshd           
tcp        0      0 127.0.0.1:2601          0.0.0.0:*               LISTEN      3969/zebra          
tcp        0      0 10.22.192.14:22         10.10.160.200:33688     ESTABLISHED 7430/sshd: lifatov  
tcp        0    200 10.22.192.14:22         10.10.160.195:55001     ESTABLISHED 4117/sshd: ameshkov 
tcp6       0      0 :::22                   :::*                    LISTEN      3931/sshd           
udp        0      0 10.22.192.14:37336      10.22.192.3:9009        ESTABLISHED -                   
raw        0      0 0.0.0.0:1               0.0.0.0:*               7           19680/ping          
raw        0      0 0.0.0.0:89              0.0.0.0:*               7           3988/ospfd          
raw6       0      0 :::58                   :::*                    7           19680/ping          
raw6       0      0 :::58                   :::*                    7           3969/zebra          
 

Share this post


Link to post
Share on other sites

В 14.09.2018 в 13:23, mewoq сказал:

Что делать, ума не приложу... 

Разобрались?

Я вот думаю, не связано ли это как то с power save.

 

Покажите чего там показывает.

cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor

если powersave то сделайте для каждого ядра

echo performance >/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu1/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu2/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu3/cpufreq/scaling_governor

 

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.