Перейти к содержимому
Калькуляторы

Kernel panic Debian 4.9.30-2+deb9u5

Добрый день, коллеги!

Помогите, пожалуйста, разобраться с проблемой:

 

Имеем сервер HP DL380G6 

Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux

 

Периодически раз в неделю, а может и через день ложится сеть (даже в часы наименьшей загрузки, среди ночи), не могу разобраться в чем проблема.

Из сервисов: accel-ppp(pppoe 1500 сессий) + NAT (iptables) + ipt_NETFLOW + tc + OSPF (quagga)

Трафика около 1,5 Гбит/с примерно 100 тыс. PPS 

 

В ядре по рекомендации Intel включены: nox2apic intremap=off intel_idle.max_cstate=0 processor.max_cstate=1

 

Сетевая карта: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)

Скрытый текст

driver: ixgbe
version: 5.3.4
firmware-version: 0x800003af, 1.1853.0
expansion-rom-version: 
bus-info: 0000:0d:00.1
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: yes

 

/sbin/ethtool -G eth2 rx 2048 tx 2048 
/sbin/ethtool -A eth2 autoneg off rx off tx off
/sbin/ifconfig eth2 txqueuelen 10000
/sbin/ethtool -K eth2 tso off gso off gro off rxvlan off txvlan off

/sbin/ethtool -G eth0 rx 2048 tx 2048 
/sbin/ethtool -A eth0 autoneg off rx off tx off
/sbin/ifconfig eth0 txqueuelen 10000
/sbin/ethtool -K eth0 tso off gso off gro off rxvlan off txvlan off

Прерывания раскиданы следующим образом:

eth0 (uplink) = 0 2 4 6 8 10

eth2 (pppoe) = 1 3 5 7 9 11

 

Для eth2 rx-0 включен RPS:

#!/bin/bash
DEV=eth2

echo 32768 > /proc/sys/net/core/rps_sock_flow_entries
echo 2048 > /sys/class/net/$DEV/queues/rx-0/rps_flow_cnt
echo aaa > /sys/class/net/$DEV/queues/rx-0/rps_cpus
echo 8192 > /proc/sys/net/core/flow_limit_table_len
echo ffff > /proc/sys/net/core/flow_limit_cpu_bitmap

 

Лог с последней паники:

Скрытый текст

Sep 14 03:53:45 nas kernel: [576373.703909] INFO: rcu_sched self-detected stall on CPU
Sep 14 03:53:45 nas kernel: [576373.705175]     5-...: (981 ticks this GP) idle=2f5/140000000000001/0 softirq=68543340/68543340 fqs=3 
Sep 14 03:53:45 nas kernel: [576373.706615]      (t=5250 jiffies g=35865711 c=35865710 q=69345)
Sep 14 03:53:45 nas kernel: [576373.708038] rcu_sched kthread starved for 1575 jiffies! g35865711 c35865710 f0x0 RCU_GP_WAIT_FQS(3) ->state=0x0
Sep 14 03:53:45 nas kernel: [576373.709614] rcu_sched       R  running task        0     8      2 0x00000000
Sep 14 03:53:45 nas kernel: [576373.709617]  ffff9bfac4c4a400 0000000000000000 ffff9bfacda58e40 ffff9bfedf718240
Sep 14 03:53:45 nas kernel: [576373.709619]  ffff9bfecd19a040 ffffbabac316fdb0 ffffffff984016d3 ffffbabac316fde0
Sep 14 03:53:45 nas kernel: [576373.709621]  0000000108959fc1 ffff9bfedf718240 0000000000000009 ffff9bfacda58e40
Sep 14 03:53:45 nas kernel: [576373.709623] Call Trace:
Sep 14 03:53:45 nas kernel: [576373.709630]  [<ffffffff984016d3>] ? __schedule+0x233/0x6d0
Sep 14 03:53:45 nas kernel: [576373.709632]  [<ffffffff98401ba2>] ? schedule+0x32/0x80
Sep 14 03:53:45 nas kernel: [576373.709633]  [<ffffffff98404eae>] ? schedule_timeout+0x17e/0x310
Sep 14 03:53:45 nas kernel: [576373.709637]  [<ffffffff97ee3e50>] ? del_timer_sync+0x50/0x50
Sep 14 03:53:45 nas kernel: [576373.709639]  [<ffffffff97edd605>] ? rcu_gp_kthread+0x505/0x850
Sep 14 03:53:45 nas kernel: [576373.709642]  [<ffffffff97eb8799>] ? __wake_up_common+0x49/0x80
Sep 14 03:53:45 nas kernel: [576373.709643]  [<ffffffff97edd100>] ? rcu_note_context_switch+0xe0/0xe0
Sep 14 03:53:45 nas kernel: [576373.709645]  [<ffffffff97e965d7>] ? kthread+0xd7/0xf0
Sep 14 03:53:45 nas kernel: [576373.709647]  [<ffffffff97e96500>] ? kthread_park+0x60/0x60
Sep 14 03:53:45 nas kernel: [576373.709648]  [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30
Sep 14 03:53:45 nas kernel: [576373.709650] Task dump for CPU 5:
Sep 14 03:53:45 nas kernel: [576373.709650] kworker/5:0     R  running task        0  3413      2 0x00000008
Sep 14 03:53:45 nas kernel: [576373.709661] Workqueue: events_long gc_worker [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709662]  ffffffff98b13580 ffffffff97ea3bcb 0000000000000005 ffffffff98b13580
Sep 14 03:53:45 nas kernel: [576373.709664]  ffffffff97f7a4b6 ffff9bfedf698fc0 ffffffff98a4a6c0 0000000000000000
Sep 14 03:53:45 nas kernel: [576373.709665]  ffffffff98b13580 00000000ffffffff ffffffff97edee04 0000000000a2b6d1
Sep 14 03:53:45 nas kernel: [576373.709667] Call Trace:
Sep 14 03:53:45 nas kernel: [576373.709667]  <IRQ> 
Sep 14 03:53:45 nas kernel: [576373.709670]  [<ffffffff97ea3bcb>] ? sched_show_task+0xcb/0x130
Sep 14 03:53:45 nas kernel: [576373.709672]  [<ffffffff97f7a4b6>] ? rcu_dump_cpu_stacks+0x92/0xb2
Sep 14 03:53:45 nas kernel: [576373.709673]  [<ffffffff97edee04>] ? rcu_check_callbacks+0x754/0x8a0
Sep 14 03:53:45 nas kernel: [576373.709675]  [<ffffffff97eed0c3>] ? update_wall_time+0x473/0x790
Sep 14 03:53:45 nas kernel: [576373.709677]  [<ffffffff97ef48c0>] ? tick_sched_handle.isra.12+0x50/0x50
Sep 14 03:53:45 nas kernel: [576373.709678]  [<ffffffff97ee5718>] ? update_process_times+0x28/0x50
Sep 14 03:53:45 nas kernel: [576373.709679]  [<ffffffff97ef4890>] ? tick_sched_handle.isra.12+0x20/0x50
Sep 14 03:53:45 nas kernel: [576373.709680]  [<ffffffff97ef48f8>] ? tick_sched_timer+0x38/0x70
Sep 14 03:53:45 nas kernel: [576373.709682]  [<ffffffff97ee60fc>] ? __hrtimer_run_queues+0xdc/0x240
Sep 14 03:53:45 nas kernel: [576373.709683]  [<ffffffff97ee67cc>] ? hrtimer_interrupt+0x9c/0x1a0
Sep 14 03:53:45 nas kernel: [576373.709684]  [<ffffffff98408ca9>] ? smp_apic_timer_interrupt+0x39/0x50
Sep 14 03:53:45 nas kernel: [576373.709687]  [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709688]  [<ffffffff98407fc2>] ? apic_timer_interrupt+0x82/0x90
Sep 14 03:53:45 nas kernel: [576373.709689]  <EOI> 
Sep 14 03:53:45 nas kernel: [576373.709691]  [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709693]  [<ffffffff97ec0f02>] ? native_queued_spin_lock_slowpath+0x112/0x190
Sep 14 03:53:45 nas kernel: [576373.709694]  [<ffffffff98406018>] ? _raw_spin_lock_bh+0x28/0x30
Sep 14 03:53:45 nas kernel: [576373.709696]  [<ffffffffc0492a64>] ? nf_nat_cleanup_conntrack+0xb4/0x1e0 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709701]  [<ffffffffc07d96b3>] ? __nf_ct_ext_destroy+0x43/0x60 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709704]  [<ffffffffc07d02d0>] ? nf_conntrack_free+0x20/0x50 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709707]  [<ffffffffc07d10da>] ? gc_worker+0xba/0x190 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709709]  [<ffffffff97e90384>] ? process_one_work+0x184/0x410
Sep 14 03:53:45 nas kernel: [576373.709710]  [<ffffffff97e9065d>] ? worker_thread+0x4d/0x480
Sep 14 03:53:45 nas kernel: [576373.709711]  [<ffffffff97e90610>] ? process_one_work+0x410/0x410
Sep 14 03:53:45 nas kernel: [576373.709714]  [<ffffffff97e7bb0a>] ? do_group_exit+0x3a/0xa0
Sep 14 03:53:45 nas kernel: [576373.709715]  [<ffffffff97e965d7>] ? kthread+0xd7/0xf0
Sep 14 03:53:45 nas kernel: [576373.709716]  [<ffffffff97e96500>] ? kthread_park+0x60/0x60
Sep 14 03:53:45 nas kernel: [576373.709718]  [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30

 

Что делать, ума не приложу... 

Изменено пользователем mewoq
Добавление информации

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

42 minutes ago, mewoq said:

Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux

Можно попробовать обновить ядро.

Текущая версия https://packages.debian.org/stretch/linux-image-4.9.0-8-amd64

4.9.110 - на 80 релизов новее вашего.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1 час назад, mewoq сказал:

Периодически раз в неделю, а может и через день ложится сеть

Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Можешь поставить это ядро

linux-image-4.18.4_4.18.4-1_amd64.deb

.linux-headers-4.18.4_4.18.4-1_amd64.deb

Изменено пользователем ne-vlezay80

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

7 минут назад, TriKS сказал:

Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг?

Линк не падает, в момент "Ч" возникают огромные потери на всех eth интерфейсах

На eth2 перестают прилетать PADI пакеты, также теряется связь с радиусом через eth0, лог accel-ppp (начало потерь в 2018-09-14 03:46:43)

Обычно раз в секунду по 1-2 запроса PADI

Скрытый текст

[2018-09-14 03:46:42]:  info: eth2.301: sirea56: authentication failed
[2018-09-14 03:46:42]:  info: sirea56: authentication failed
[2018-09-14 03:46:43]:  info: eth2.301: disconnected
[2018-09-14 03:46:51]:  warn: ppp789: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:53]:  warn: ppp927: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:53]:  warn: ppp308: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:55]:  warn: ppp883: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:57]:  warn: ppp1186: radius: server(1) not responding, terminating session...

 

К сожалению дома спал и не смог посмотреть perf top

 

Так его штормит минут 5 и всё восстанавливается, только после этого приходится перезапускать accel-ppp

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

13 часов назад, default_vlan сказал:

netstat -Lan ?

Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name    
tcp        0      0 127.0.0.1:2604          0.0.0.0:*               LISTEN      3988/ospfd          
tcp        0      0 127.0.0.1:2000          0.0.0.0:*               LISTEN      12610/accel-pppd    
tcp        0      0 127.0.0.1:2001          0.0.0.0:*               LISTEN      12610/accel-pppd    
tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN      3931/sshd           
tcp        0      0 127.0.0.1:2601          0.0.0.0:*               LISTEN      3969/zebra          
tcp        0      0 10.22.192.14:22         10.10.160.200:33688     ESTABLISHED 7430/sshd: lifatov  
tcp        0    200 10.22.192.14:22         10.10.160.195:55001     ESTABLISHED 4117/sshd: ameshkov 
tcp6       0      0 :::22                   :::*                    LISTEN      3931/sshd           
udp        0      0 10.22.192.14:37336      10.22.192.3:9009        ESTABLISHED -                   
raw        0      0 0.0.0.0:1               0.0.0.0:*               7           19680/ping          
raw        0      0 0.0.0.0:89              0.0.0.0:*               7           3988/ospfd          
raw6       0      0 :::58                   :::*                    7           19680/ping          
raw6       0      0 :::58                   :::*                    7           3969/zebra          
 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 14.09.2018 в 13:23, mewoq сказал:

Что делать, ума не приложу... 

Разобрались?

Я вот думаю, не связано ли это как то с power save.

 

Покажите чего там показывает.

cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor

если powersave то сделайте для каждого ядра

echo performance >/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu1/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu2/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu3/cpufreq/scaling_governor

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Добрый день!

стоит performance

 

Включил:

echo 1 > /proc/sys/net/ipv4/conf/all/arp_filter

 

3 недели полёт нормальный, наблюдаем.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.