Kernel panic Debian 4.9.30-2+deb9u5

Вся активность

Ответить

mewoq

Опубликовано 14 сентября, 2018 (изменено)

Добрый день, коллеги!

Помогите, пожалуйста, разобраться с проблемой:

Имеем сервер HP DL380G6

Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux

Периодически раз в неделю, а может и через день ложится сеть (даже в часы наименьшей загрузки, среди ночи), не могу разобраться в чем проблема.

Из сервисов: accel-ppp(pppoe 1500 сессий) + NAT (iptables) + ipt_NETFLOW + tc + OSPF (quagga)

Трафика около 1,5 Гбит/с примерно 100 тыс. PPS

В ядре по рекомендации Intel включены: nox2apic intremap=off intel_idle.max_cstate=0 processor.max_cstate=1

Сетевая карта: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)

Скрытый текст

driver: ixgbe
version: 5.3.4
firmware-version: 0x800003af, 1.1853.0
expansion-rom-version:
bus-info: 0000:0d:00.1
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: yes

/sbin/ethtool -G eth2 rx 2048 tx 2048 
/sbin/ethtool -A eth2 autoneg off rx off tx off
/sbin/ifconfig eth2 txqueuelen 10000
/sbin/ethtool -K eth2 tso off gso off gro off rxvlan off txvlan off

/sbin/ethtool -G eth0 rx 2048 tx 2048 
/sbin/ethtool -A eth0 autoneg off rx off tx off
/sbin/ifconfig eth0 txqueuelen 10000
/sbin/ethtool -K eth0 tso off gso off gro off rxvlan off txvlan off

Прерывания раскиданы следующим образом:

eth0 (uplink) = 0 2 4 6 8 10

eth2 (pppoe) = 1 3 5 7 9 11

Для eth2 rx-0 включен RPS:

#!/bin/bash
DEV=eth2

echo 32768 > /proc/sys/net/core/rps_sock_flow_entries
echo 2048 > /sys/class/net/$DEV/queues/rx-0/rps_flow_cnt
echo aaa > /sys/class/net/$DEV/queues/rx-0/rps_cpus
echo 8192 > /proc/sys/net/core/flow_limit_table_len
echo ffff > /proc/sys/net/core/flow_limit_cpu_bitmap

Лог с последней паники:

Скрытый текст

Sep 14 03:53:45 nas kernel: [576373.703909] INFO: rcu_sched self-detected stall on CPU
Sep 14 03:53:45 nas kernel: [576373.705175] 5-...: (981 ticks this GP) idle=2f5/140000000000001/0 softirq=68543340/68543340 fqs=3
Sep 14 03:53:45 nas kernel: [576373.706615] (t=5250 jiffies g=35865711 c=35865710 q=69345)
Sep 14 03:53:45 nas kernel: [576373.708038] rcu_sched kthread starved for 1575 jiffies! g35865711 c35865710 f0x0 RCU_GP_WAIT_FQS(3) ->state=0x0
Sep 14 03:53:45 nas kernel: [576373.709614] rcu_sched R running task 0 8 2 0x00000000
Sep 14 03:53:45 nas kernel: [576373.709617] ffff9bfac4c4a400 0000000000000000 ffff9bfacda58e40 ffff9bfedf718240
Sep 14 03:53:45 nas kernel: [576373.709619] ffff9bfecd19a040 ffffbabac316fdb0 ffffffff984016d3 ffffbabac316fde0
Sep 14 03:53:45 nas kernel: [576373.709621] 0000000108959fc1 ffff9bfedf718240 0000000000000009 ffff9bfacda58e40
Sep 14 03:53:45 nas kernel: [576373.709623] Call Trace:
Sep 14 03:53:45 nas kernel: [576373.709630] [<ffffffff984016d3>] ? __schedule+0x233/0x6d0
Sep 14 03:53:45 nas kernel: [576373.709632] [<ffffffff98401ba2>] ? schedule+0x32/0x80
Sep 14 03:53:45 nas kernel: [576373.709633] [<ffffffff98404eae>] ? schedule_timeout+0x17e/0x310
Sep 14 03:53:45 nas kernel: [576373.709637] [<ffffffff97ee3e50>] ? del_timer_sync+0x50/0x50
Sep 14 03:53:45 nas kernel: [576373.709639] [<ffffffff97edd605>] ? rcu_gp_kthread+0x505/0x850
Sep 14 03:53:45 nas kernel: [576373.709642] [<ffffffff97eb8799>] ? __wake_up_common+0x49/0x80
Sep 14 03:53:45 nas kernel: [576373.709643] [<ffffffff97edd100>] ? rcu_note_context_switch+0xe0/0xe0
Sep 14 03:53:45 nas kernel: [576373.709645] [<ffffffff97e965d7>] ? kthread+0xd7/0xf0
Sep 14 03:53:45 nas kernel: [576373.709647] [<ffffffff97e96500>] ? kthread_park+0x60/0x60
Sep 14 03:53:45 nas kernel: [576373.709648] [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30
Sep 14 03:53:45 nas kernel: [576373.709650] Task dump for CPU 5:
Sep 14 03:53:45 nas kernel: [576373.709650] kworker/5:0 R running task 0 3413 2 0x00000008
Sep 14 03:53:45 nas kernel: [576373.709661] Workqueue: events_long gc_worker [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709662] ffffffff98b13580 ffffffff97ea3bcb 0000000000000005 ffffffff98b13580
Sep 14 03:53:45 nas kernel: [576373.709664] ffffffff97f7a4b6 ffff9bfedf698fc0 ffffffff98a4a6c0 0000000000000000
Sep 14 03:53:45 nas kernel: [576373.709665] ffffffff98b13580 00000000ffffffff ffffffff97edee04 0000000000a2b6d1
Sep 14 03:53:45 nas kernel: [576373.709667] Call Trace:
Sep 14 03:53:45 nas kernel: [576373.709667] <IRQ>
Sep 14 03:53:45 nas kernel: [576373.709670] [<ffffffff97ea3bcb>] ? sched_show_task+0xcb/0x130
Sep 14 03:53:45 nas kernel: [576373.709672] [<ffffffff97f7a4b6>] ? rcu_dump_cpu_stacks+0x92/0xb2
Sep 14 03:53:45 nas kernel: [576373.709673] [<ffffffff97edee04>] ? rcu_check_callbacks+0x754/0x8a0
Sep 14 03:53:45 nas kernel: [576373.709675] [<ffffffff97eed0c3>] ? update_wall_time+0x473/0x790
Sep 14 03:53:45 nas kernel: [576373.709677] [<ffffffff97ef48c0>] ? tick_sched_handle.isra.12+0x50/0x50
Sep 14 03:53:45 nas kernel: [576373.709678] [<ffffffff97ee5718>] ? update_process_times+0x28/0x50
Sep 14 03:53:45 nas kernel: [576373.709679] [<ffffffff97ef4890>] ? tick_sched_handle.isra.12+0x20/0x50
Sep 14 03:53:45 nas kernel: [576373.709680] [<ffffffff97ef48f8>] ? tick_sched_timer+0x38/0x70
Sep 14 03:53:45 nas kernel: [576373.709682] [<ffffffff97ee60fc>] ? __hrtimer_run_queues+0xdc/0x240
Sep 14 03:53:45 nas kernel: [576373.709683] [<ffffffff97ee67cc>] ? hrtimer_interrupt+0x9c/0x1a0
Sep 14 03:53:45 nas kernel: [576373.709684] [<ffffffff98408ca9>] ? smp_apic_timer_interrupt+0x39/0x50
Sep 14 03:53:45 nas kernel: [576373.709687] [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709688] [<ffffffff98407fc2>] ? apic_timer_interrupt+0x82/0x90
Sep 14 03:53:45 nas kernel: [576373.709689] <EOI>
Sep 14 03:53:45 nas kernel: [576373.709691] [<ffffffffc04928e0>] ? nf_nat_l3proto_register+0x70/0x70 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709693] [<ffffffff97ec0f02>] ? native_queued_spin_lock_slowpath+0x112/0x190
Sep 14 03:53:45 nas kernel: [576373.709694] [<ffffffff98406018>] ? _raw_spin_lock_bh+0x28/0x30
Sep 14 03:53:45 nas kernel: [576373.709696] [<ffffffffc0492a64>] ? nf_nat_cleanup_conntrack+0xb4/0x1e0 [nf_nat]
Sep 14 03:53:45 nas kernel: [576373.709701] [<ffffffffc07d96b3>] ? __nf_ct_ext_destroy+0x43/0x60 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709704] [<ffffffffc07d02d0>] ? nf_conntrack_free+0x20/0x50 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709707] [<ffffffffc07d10da>] ? gc_worker+0xba/0x190 [nf_conntrack]
Sep 14 03:53:45 nas kernel: [576373.709709] [<ffffffff97e90384>] ? process_one_work+0x184/0x410
Sep 14 03:53:45 nas kernel: [576373.709710] [<ffffffff97e9065d>] ? worker_thread+0x4d/0x480
Sep 14 03:53:45 nas kernel: [576373.709711] [<ffffffff97e90610>] ? process_one_work+0x410/0x410
Sep 14 03:53:45 nas kernel: [576373.709714] [<ffffffff97e7bb0a>] ? do_group_exit+0x3a/0xa0
Sep 14 03:53:45 nas kernel: [576373.709715] [<ffffffff97e965d7>] ? kthread+0xd7/0xf0
Sep 14 03:53:45 nas kernel: [576373.709716] [<ffffffff97e96500>] ? kthread_park+0x60/0x60
Sep 14 03:53:45 nas kernel: [576373.709718] [<ffffffff984065f5>] ? ret_from_fork+0x25/0x30

Что делать, ума не приложу...

Изменено 14 сентября, 2018 пользователем mewoq
Добавление информации

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

rm_

Опубликовано 14 сентября, 2018

42 minutes ago, mewoq said:

Linux nas 4.9.0-3-amd64 #1 SMP Debian 4.9.30-2+deb9u5 (2017-09-19) x86_64 GNU/Linux

Можно попробовать обновить ядро.

Текущая версия https://packages.debian.org/stretch/linux-image-4.9.0-8-amd64

4.9.110 - на 80 релизов новее вашего.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

TriKS

Опубликовано 14 сентября, 2018

1 час назад, mewoq сказал:

Периодически раз в неделю, а может и через день ложится сеть

Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

ne-vlezay80

Опубликовано 14 сентября, 2018 (изменено)

Можешь поставить это ядро

linux-image-4.18.4_4.18.4-1_amd64.deb

.linux-headers-4.18.4_4.18.4-1_amd64.deb

Изменено 14 сентября, 2018 пользователем ne-vlezay80

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mewoq

Опубликовано 14 сентября, 2018

7 минут назад, TriKS сказал:

Понятие абстрактное. Отвалисвается сетевуха? Пропадает линк? падает маршрутизация? В момент отвала моник подкидывали, пробывали пингануть пиринг?

Линк не падает, в момент "Ч" возникают огромные потери на всех eth интерфейсах

На eth2 перестают прилетать PADI пакеты, также теряется связь с радиусом через eth0, лог accel-ppp (начало потерь в 2018-09-14 03:46:43)

Обычно раз в секунду по 1-2 запроса PADI

Скрытый текст

[2018-09-14 03:46:42]: info: eth2.301: sirea56: authentication failed
[2018-09-14 03:46:42]: info: sirea56: authentication failed
[2018-09-14 03:46:43]: info: eth2.301: disconnected
[2018-09-14 03:46:51]: warn: ppp789: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:53]: warn: ppp927: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:53]: warn: ppp308: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:55]: warn: ppp883: radius: server(1) not responding, terminating session...
[2018-09-14 03:46:57]: warn: ppp1186: radius: server(1) not responding, terminating session...

К сожалению дома спал и не смог посмотреть perf top

Так его штормит минут 5 и всё восстанавливается, только после этого приходится перезапускать accel-ppp

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

default_vlan

Опубликовано 16 сентября, 2018

netstat -Lan ?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mewoq

Опубликовано 17 сентября, 2018

13 часов назад, default_vlan сказал:

netstat -Lan ?

Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name
tcp 0 0 127.0.0.1:2604 0.0.0.0:* LISTEN 3988/ospfd
tcp 0 0 127.0.0.1:2000 0.0.0.0:* LISTEN 12610/accel-pppd
tcp 0 0 127.0.0.1:2001 0.0.0.0:* LISTEN 12610/accel-pppd
tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN 3931/sshd
tcp 0 0 127.0.0.1:2601 0.0.0.0:* LISTEN 3969/zebra
tcp 0 0 10.22.192.14:22 10.10.160.200:33688 ESTABLISHED 7430/sshd: lifatov
tcp 0 200 10.22.192.14:22 10.10.160.195:55001 ESTABLISHED 4117/sshd: ameshkov
tcp6 0 0 :::22 :::* LISTEN 3931/sshd
udp 0 0 10.22.192.14:37336 10.22.192.3:9009 ESTABLISHED -
raw 0 0 0.0.0.0:1 0.0.0.0:* 7 19680/ping
raw 0 0 0.0.0.0:89 0.0.0.0:* 7 3988/ospfd
raw6 0 0 :::58 :::* 7 19680/ping
raw6 0 0 :::58 :::* 7 3969/zebra

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Dimka88

Опубликовано 16 октября, 2018

В 14.09.2018 в 13:23, mewoq сказал:

Что делать, ума не приложу...

Разобрались?

Я вот думаю, не связано ли это как то с power save.

Покажите чего там показывает.

cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor

если powersave то сделайте для каждого ядра

echo performance >/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu1/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu2/cpufreq/scaling_governor
echo performance >/sys/devices/system/cpu/cpu3/cpufreq/scaling_governor

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mewoq

Опубликовано 16 октября, 2018

Добрый день!

стоит performance

Включил:

echo 1 > /proc/sys/net/ipv4/conf/all/arp_filter

3 недели полёт нормальный, наблюдаем.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Ответить в тему...

× Вставлено в виде отформатированного текста. Вставить в виде обычного текста

Разрешено не более 75 смайлов.

× Ваша ссылка была автоматически встроена. Отобразить как ссылку

× Ваш предыдущий контент был восстановлен. Очистить редактор

× Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Изображение по ссылке

Подписчики 2

Перейти к списку тем Программное обеспечение, биллинг и *unix системы

Войти

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Join the conversation