Перейти к содержимому
Калькуляторы

Kernel panic Debian 4.9.30-2+deb9u5

Добрый день, коллеги!

Помогите, пожалуйста, разобраться с проблемой:

 

Имеем сервер HP DL380G6 

Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux

 

Периодически раз в неделю, а может и через день ложится сеть (даже в часы наименьшей загрузки, среди ночи), не могу разобраться в чем проблема.

Из сервисов: accel-ppp(pppoe 1500 сессий) + NAT (iptables) + ipt_NETFLOW + tc + OSPF (quagga)

Трафика около 1,5 Гбит/с примерно 100 тыс. PPS 

 

В ядре по рекомендации Intel включены: nox2apic intremap=off intel_idle.max_cstate=0 processor.max_cstate=1

 

Сетевая карта: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)

Скрытый текст

driver: ixgbe
version: 5.3.4
firmware-version: 0x800003af, 1.1853.0
expansion-rom-version: 
bus-info: 0000:0d:00.1
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: yes

 

/sbin/ethtool -G eth2 rx 2048 tx 2048 
/sbin/ethtool -A eth2 autoneg off rx off tx off
/sbin/ifconfig eth2 txqueuelen 10000
/sbin/ethtool -K eth2 tso off gso off gro off rxvlan off txvlan off

/sbin/ethtool -G eth0 rx 2048 tx 2048 
/sbin/ethtool -A eth0 autoneg off rx off tx off
/sbin/ifconfig eth0 txqueuelen 10000
/sbin/ethtool -K eth0 tso off gso off gro off rxvlan off txvlan off

Прерывания раскиданы следующим образом:

eth0 (uplink) = 0 2 4 6 8 10

eth2 (pppoe) = 1 3 5 7 9 11

 

Для eth2 rx-0 включен RPS:

#!/bin/bash
DEV=eth2

echo 32768 > /proc/sys/net/core/rps_sock_flow_entries
echo 2048 > /sys/class/net/$DEV/queues/rx-0/rps_flow_cnt
echo aaa > /sys/class/net/$DEV/queues/rx-0/rps_cpus
echo 8192 > /proc/sys/net/core/flow_limit_table_len
echo ffff > /proc/sys/net/core/flow_limit_cpu_bitmap

 

Лог с последней паники:

Скрытый текст

Sep 14 03:53:45 nas kernel: [576373.703909] INFO: rcu_sched self-detected stall on CPU
Sep 14 03:53:45 nas kernel: [576373.705175]     5-...: (981 ticks this GP) idle=2f5/140000000000001/0 softirq=68543340/68543340 fqs=3 
Sep 14 03:53:45 nas kernel: [576373.706615]      (t=5250 jiffies g=35865711 c=35865710 q=69345)
Sep 14 03:53:45 nas kernel: [576373.708038] rcu_sched kthread starved for 1575 jiffies! g35865711 c35865710 f0x0 RCU_GP_WAIT_FQS(3) ->state=0x0
Sep 14 03:53:45 nas kernel: [576373.709614] rcu_sched       R  running task        0     8      2 0x00000000
Sep 14 03:53:45 nas kernel: [576373.709617]  ffff9bfac4c4a400 0000000000000000 ffff9bfacda58e40 ffff9bfedf718240
Sep 14 03:53:45 nas kernel: [576373.709619]  ffff9bfecd19a040 ffffbabac316fdb0 ffffffff984016d3 ffffbabac316fde0
Sep 14 03:53:45 nas kernel: [576373.709621]  0000000108959fc1 ffff9bfedf718240 0000000000000009 ffff9bfacda58e40
Sep 14 03:53:45 nas kernel: [576373.709623] Call Trace:
Sep 14 03:53:45 nas kernel: [576373.709630]  [<ffffffff984016d3>] ? __schedule+0x233/0x6d0
Sep 14 03:53:45 nas kernel: [576373.709632]  [<ffffffff98401ba2>] ? schedule+0x32/0x80
Sep 14 03:53:45 nas kernel: [576373.709633]  [<ffffffff98404eae>] ? schedule_timeout+0x17e/0x310
Sep 14 03:53:45 nas kernel: [576373.709637]  [<ffffffff97ee3e50>] ? del_timer_sync+0x50/0x50
Sep 14 03:53:45 nas kernel: [576373.709639]  [<ffffffff97edd605>] ? rcu_gp_kthread+0x505/0x850
Sep 14 03:53:45 nas kernel: [576373.709642]  [<ffffffff97eb8799>] ? __wake_up_common+0x49/0x80
Sep 14 03:53:45 nas kernel: [576373.709643]  [<ffffffff97edd100>] ? rcu_note_context_switch+0xe0/0xe0
Sep 14 03:53:45 nas kernel: [576373.709645]  [<ffffffff97e965d7>] ? kthread+0xd7/0xf0
Sep 14 03:53:45 nas kernel: [576373.709647]  [<ffffffff97e96500>] ? kthread_park+0x60/0x60
Sep 14 03:53:45 nas kernel: [576373.709648]  [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30
Sep 14 03:53:45 nas kernel: [576373.709650] Task dump for CPU 5:
Sep 14 03:53:45 nas kernel: [576373.709650] kworker/5:0     R  running task        0  3413      2 0x00000008
Sep 14 03:53:45 nas kernel: [576373.709661] Workqueue: events_long gc_worker [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709662]  ffffffff98b13580 ffffffff97ea3bcb 0000000000000005 ffffffff98b13580
Sep 14 03:53:45 nas kernel: [576373.709664]  ffffffff97f7a4b6 ffff9bfedf698fc0 ffffffff98a4a6c0 0000000000000000
Sep 14 03:53:45 nas kernel: [576373.709665]  ffffffff98b13580 00000000ffffffff ffffffff97edee04 0000000000a2b6d1
Sep 14 03:53:45 nas kernel: [576373.709667] Call Trace:
Sep 14 03:53:45 nas kernel: [576373.709667]  <IRQ> 
Sep 14 03:53:45 nas kernel: [576373.709670]  [<ffffffff97ea3bcb>] ? sched_show_task+0xcb/0x130
Sep 14 03:53:45 nas kernel: [576373.709672]  [<ffffffff97f7a4b6>] ? rcu_dump_cpu_stacks+0x92/0xb2
Sep 14 03:53:45 nas kernel: [576373.709673]  [<ffffffff97edee04>] ? rcu_check_callbacks+0x754/0x8a0
Sep 14 03:53:45 nas kernel: [576373.709675]  [<ffffffff97eed0c3>] ? update_wall_time+0x473/0x790
Sep 14 03:53:45 nas kernel: [576373.709677]  [<ffffffff97ef48c0>] ? tick_sched_handle.isra.12+0x50/0x50
Sep 14 03:53:45 nas kernel: [576373.709678]  [<ffffffff97ee5718>] ? update_process_times+0x28/0x50
Sep 14 03:53:45 nas kernel: [576373.709679]  [<ffffffff97ef4890>] ? tick_sched_handle.isra.12+0x20/0x50
Sep 14 03:53:45 nas kernel: [576373.709680]  [<ffffffff97ef48f8>] ? tick_sched_timer+0x38/0x70
Sep 14 03:53:45 nas kernel: [576373.709682]  [<ffffffff97ee60fc>] ? __hrtimer_run_queues+0xdc/0x240
Sep 14 03:53:45 nas kernel: [576373.709683]  [<ffffffff97ee67cc>] ? hrtimer_interrupt+0x9c/0x1a0
Sep 14 03:53:45 nas kernel: [576373.709684]  [<ffffffff98408ca9>] ? smp_apic_timer_interrupt+0x39/0x50
Sep 14 03:53:45 nas kernel: [576373.709687]  [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709688]  [<ffffffff98407fc2>] ? apic_timer_interrupt+0x82/0x90
Sep 14 03:53:45 nas kernel: [576373.709689]  <EOI> 
Sep 14 03:53:45 nas kernel: [576373.709691]  [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709693]  [<ffffffff97ec0f02>] ? native_queued_spin_lock_slowpath+0x112/0x190
Sep 14 03:53:45 nas kernel: [576373.709694]  [<ffffffff98406018>] ? _raw_spin_lock_bh+0x28/0x30
Sep 14 03:53:45 nas kernel: [576373.709696]  [<ffffffffc0492a64>] ? nf_nat_cleanup_conntrack+0xb4/0x1e0 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709701]  [<ffffffffc07d96b3>] ? __nf_ct_ext_destroy+0x43/0x60 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709704]  [<ffffffffc07d02d0>] ? nf_conntrack_free+0x20/0x50 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709707]  [<ffffffffc07d10da>] ? gc_worker+0xba/0x190 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709709]  [<ffffffff97e90384>] ? process_one_work+0x184/0x410
Sep 14 03:53:45 nas kernel: [576373.709710]  [<ffffffff97e9065d>] ? worker_thread+0x4d/0x480
Sep 14 03:53:45 nas kernel: [576373.709711]  [<ffffffff97e90610>] ? process_one_work+0x410/0x410
Sep 14 03:53:45 nas kernel: [576373.709714]  [<ffffffff97e7bb0a>] ? do_group_exit+0x3a/0xa0
Sep 14 03:53:45 nas kernel: [576373.709715]  [<ffffffff97e965d7>] ? kthread+0xd7/0xf0
Sep 14 03:53:45 nas kernel: [576373.709716]  [<ffffffff97e96500>] ? kthread_park+0x60/0x60
Sep 14 03:53:45 nas kernel: [576373.709718]  [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30

 

Что делать, ума не приложу... 

Изменено пользователем mewoq
Добавление информации

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
42 minutes ago, mewoq said:

Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux

Можно попробовать обновить ядро.

Текущая версия https://packages.debian.org/stretch/linux-image-4.9.0-8-amd64

4.9.110 - на 80 релизов новее вашего.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 час назад, mewoq сказал:

Периодически раз в неделю, а может и через день ложится сеть

Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Можешь поставить это ядро

linux-image-4.18.4_4.18.4-1_amd64.deb

.linux-headers-4.18.4_4.18.4-1_amd64.deb

Изменено пользователем ne-vlezay80

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
7 минут назад, TriKS сказал:

Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг?

Линк не падает, в момент "Ч" возникают огромные потери на всех eth интерфейсах

На eth2 перестают прилетать PADI пакеты, также теряется связь с радиусом через eth0, лог accel-ppp (начало потерь в 2018-09-14 03:46:43)

Обычно раз в секунду по 1-2 запроса PADI

Скрытый текст

[2018-09-14 03:46:42]:  info: eth2.301: sirea56: authentication failed
[2018-09-14 03:46:42]:  info: sirea56: authentication failed
[2018-09-14 03:46:43]:  info: eth2.301: disconnected
[2018-09-14 03:46:51]:  warn: ppp789: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:53]:  warn: ppp927: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:53]:  warn: ppp308: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:55]:  warn: ppp883: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:57]:  warn: ppp1186: radius: server(1) not responding, terminating session...

 

К сожалению дома спал и не смог посмотреть perf top

 

Так его штормит минут 5 и всё восстанавливается, только после этого приходится перезапускать accel-ppp

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
13 часов назад, default_vlan сказал:

netstat -Lan ?

Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name    
tcp        0      0 127.0.0.1:2604          0.0.0.0:*               LISTEN      3988/ospfd          
tcp        0      0 127.0.0.1:2000          0.0.0.0:*               LISTEN      12610/accel-pppd    
tcp        0      0 127.0.0.1:2001          0.0.0.0:*               LISTEN      12610/accel-pppd    
tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN      3931/sshd           
tcp        0      0 127.0.0.1:2601          0.0.0.0:*               LISTEN      3969/zebra          
tcp        0      0 10.22.192.14:22         10.10.160.200:33688     ESTABLISHED 7430/sshd: lifatov  
tcp        0    200 10.22.192.14:22         10.10.160.195:55001     ESTABLISHED 4117/sshd: ameshkov 
tcp6       0      0 :::22                   :::*                    LISTEN      3931/sshd           
udp        0      0 10.22.192.14:37336      10.22.192.3:9009        ESTABLISHED -                   
raw        0      0 0.0.0.0:1               0.0.0.0:*               7           19680/ping          
raw        0      0 0.0.0.0:89              0.0.0.0:*               7           3988/ospfd          
raw6       0      0 :::58                   :::*                    7           19680/ping          
raw6       0      0 :::58                   :::*                    7           3969/zebra          
 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас