Jump to content
Калькуляторы

Ubuntu + accel-ppp + упало сразу три сервера

Коллеги Доброго времени суток.

 

Ситуация такая, 3.16.0-43-generik,bonding,accel последний.

 

Абонов на каждом сервере порядка 1к, тип доступа pppoe. Подключено все это дело к 3750. Утром были запланированы работы, по смене профиля на 3750.

 

Ребут каталисты привел, к зависанию всех серверов. Скрин прилагается, везде одно и тоже на всех трех.

 

Или же, мне надо было для начала потушить аксель, потом bond Интерфейс, и только потом ребутить каталисту?

 

 

sysctl.conf

net.ipv4.ip_forward=1

net.ipv4.neigh.default.gc_thresh1=16384

net.ipv4.neigh.default.gc_thresh2=32768

net.ipv4.neigh.default.gc_thresh3=32768

net.ipv4.conf.default.rp_filter=0

net.ipv4.conf.all.rp_filter=0

net.ipv4.tcp_sack=0

net.ipv4.tcp_timestamps=0

net.core.rmem_max=524287

net.core.wmem_max=524287

net.core.rmem_default=524287

net.core.wmem_default=524287

net.core.optmem_max=524287

net.core.netdev_max_backlog=300000

net.netfilter.nf_conntrack_max=1048576

12345.jpg

Share this post


Link to post
Share on other sites

У меня был баг с похожими симптомами (зависание при пропадании линка на интерфейсе где запущен accel-ppp либо при удалении этого интерфейса либо при ручном его отключении при помощи "ip link set ... down" в момент когда там есть подключенные по pppoe пользователи).

 

Сообщение в логе было другим:

 

[   80.277042] BUG: unable to handle kernel NULL pointer dereference at 0000000000000398
[   80.278132] IP: [<ffffffffa023ec67>] pppoe_release+0x157/0x1a0 [pppoe]

 

Решилось применением патча в pppoe_flush_dev, предложенного здесь:

 

http://www.spinics.net/lists/netdev/msg342607.html

 

Хотя, судя по всему в указанном по ссылке топике зависания происходят по какой-то другой причине.

 

У меня CentOS 7, ядро 3.10.0-229.14.1

Edited by avb1987

Share this post


Link to post
Share on other sites

У меня был баг с похожими симптомами (зависание при пропадании линка на интерфейсе где запущен accel-ppp либо при удалении этого интерфейса).

Сообщения в логе было другим:

 

[   80.277042] BUG: unable to handle kernel NULL pointer dereference at 0000000000000398
[   80.278132] IP: [<ffffffffa023ec67>] pppoe_release+0x157/0x1a0 [pppoe]

 

Решилось применением патча в pppoe_flush_dev, предложенного здесь:

 

http://www.spinics.net/lists/netdev/msg342607.html

 

Хотя, судя по всему в указанном по ссылке топике зависания происходят по какой-то другой причине.

 

 

при удалении интерфейса(вилана) тоже все виснет, но выходит уже другое.... про патч, читал но пока не применял.

 

Кажется, читал ваш пост, на форуме акселя.

Share this post


Link to post
Share on other sites

Падают два сервера pptp + l2tp + нат + шейп + ipt_netflow.

 

Аптайм - 1 час - неделя. Сделал, чтобы сразу перезагружался. Пока не разбирался с причинами, не нахожусь в серверной.

 

Ubuntu 14.04 ядра 3.13.0-63-generic 3.19.0-28-generic

 

accel-ppp version 1.9.0

 

Не железо.

1.8.0 + 3.2 ядро (Ubuntu 12.04) работает без сбоев.

Edited by sanyasi

Share this post


Link to post
Share on other sites

Падают два сервера pptp + l2tp + нат + шейп + ipt_netflow.

 

Аптайм - 1 час - неделя. Сделал, чтобы сразу перезагружался. Пока не разбирался с причинами, не нахожусь в серверной.

 

Ubuntu 14.04 ядра 3.13.0-63-generic 3.19.0-28-generic

 

accel-ppp version 1.9.0

 

Не железо.

1.8.0 + 3.2 ядро (Ubuntu 12.04) работает без сбоев.

за всё время танцев с бубном accel-ppp добились максимального аптайма 1 месяц, плюнули, купили микротик CCR и забыли навсегда!

Edited by alexaaa

Share this post


Link to post
Share on other sites

Могу поделиться противоположным опытом - имеется несколько CCR1036-12G-4S и каждый глючит по-своему.

Одно устройство просто зависает в среднем 1-2 раза в месяц, второе иногда перезагружается без причины,

иногда не дает новым абонентам подключаться до перезагрузки. Вчера при удалении старого неиспользуемого бондинг-интерфейса

перестала работать RIP-маршрутизация (при запуске роутер посылает один раз маршруты, потом обновления не посылает и через 3 минуты половина сети ложится).

 

Третий агрегат просто иногда зависает если в него вставить SFP модуль, который нормально работает в коммутаторе.

Так же пробовали нарисовать PCQ-шейпер, и при загрузке до 300 мегабит все было нормально (загрузка процессора до 30-40% суммарно),

при большей нагрузке резко уходит в 100% и зависает.

 

Сегодня один из роутеров просто перезагрузился по причине "System rebooted because of kernel failure" при этом нагрузка была почти по нулям.

 

В одной из последних версий они внезапно сломали traffic-flow.

 

Техподдержка всегда запрашивает supout.rif а после его получения морозится.

 

И самое главное - почитаешь их changelog и такое впечатление что они в каждой версии исправляют один баг и добавляют 10. Обновляешься и каждый раз нужно гадать - "что перестанет работать в этот раз?"...

 

В общем мне самому в какой то мере нравятся микротики за их удобство настройки и простоту, но надежными их назвать нельзя. Даже близко. ИМХО.

Edited by avb1987

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.