zlolotus Posted September 28, 2015 Posted September 28, 2015 Коллеги Доброго времени суток. Ситуация такая, 3.16.0-43-generik,bonding,accel последний. Абонов на каждом сервере порядка 1к, тип доступа pppoe. Подключено все это дело к 3750. Утром были запланированы работы, по смене профиля на 3750. Ребут каталисты привел, к зависанию всех серверов. Скрин прилагается, везде одно и тоже на всех трех. Или же, мне надо было для начала потушить аксель, потом bond Интерфейс, и только потом ребутить каталисту? sysctl.conf net.ipv4.ip_forward=1 net.ipv4.neigh.default.gc_thresh1=16384 net.ipv4.neigh.default.gc_thresh2=32768 net.ipv4.neigh.default.gc_thresh3=32768 net.ipv4.conf.default.rp_filter=0 net.ipv4.conf.all.rp_filter=0 net.ipv4.tcp_sack=0 net.ipv4.tcp_timestamps=0 net.core.rmem_max=524287 net.core.wmem_max=524287 net.core.rmem_default=524287 net.core.wmem_default=524287 net.core.optmem_max=524287 net.core.netdev_max_backlog=300000 net.netfilter.nf_conntrack_max=1048576 Вставить ник Quote
avb1987 Posted September 28, 2015 Posted September 28, 2015 (edited) У меня был баг с похожими симптомами (зависание при пропадании линка на интерфейсе где запущен accel-ppp либо при удалении этого интерфейса либо при ручном его отключении при помощи "ip link set ... down" в момент когда там есть подключенные по pppoe пользователи). Сообщение в логе было другим: [ 80.277042] BUG: unable to handle kernel NULL pointer dereference at 0000000000000398 [ 80.278132] IP: [<ffffffffa023ec67>] pppoe_release+0x157/0x1a0 [pppoe] Решилось применением патча в pppoe_flush_dev, предложенного здесь: http://www.spinics.net/lists/netdev/msg342607.html Хотя, судя по всему в указанном по ссылке топике зависания происходят по какой-то другой причине. У меня CentOS 7, ядро 3.10.0-229.14.1 Edited September 28, 2015 by avb1987 Вставить ник Quote
zlolotus Posted September 28, 2015 Author Posted September 28, 2015 У меня был баг с похожими симптомами (зависание при пропадании линка на интерфейсе где запущен accel-ppp либо при удалении этого интерфейса). Сообщения в логе было другим: [ 80.277042] BUG: unable to handle kernel NULL pointer dereference at 0000000000000398 [ 80.278132] IP: [<ffffffffa023ec67>] pppoe_release+0x157/0x1a0 [pppoe] Решилось применением патча в pppoe_flush_dev, предложенного здесь: http://www.spinics.net/lists/netdev/msg342607.html Хотя, судя по всему в указанном по ссылке топике зависания происходят по какой-то другой причине. при удалении интерфейса(вилана) тоже все виснет, но выходит уже другое.... про патч, читал но пока не применял. Кажется, читал ваш пост, на форуме акселя. Вставить ник Quote
sanyasi Posted September 29, 2015 Posted September 29, 2015 (edited) Падают два сервера pptp + l2tp + нат + шейп + ipt_netflow. Аптайм - 1 час - неделя. Сделал, чтобы сразу перезагружался. Пока не разбирался с причинами, не нахожусь в серверной. Ubuntu 14.04 ядра 3.13.0-63-generic 3.19.0-28-generic accel-ppp version 1.9.0 Не железо. 1.8.0 + 3.2 ядро (Ubuntu 12.04) работает без сбоев. Edited September 29, 2015 by sanyasi Вставить ник Quote
alexaaa Posted September 29, 2015 Posted September 29, 2015 (edited) Падают два сервера pptp + l2tp + нат + шейп + ipt_netflow. Аптайм - 1 час - неделя. Сделал, чтобы сразу перезагружался. Пока не разбирался с причинами, не нахожусь в серверной. Ubuntu 14.04 ядра 3.13.0-63-generic 3.19.0-28-generic accel-ppp version 1.9.0 Не железо. 1.8.0 + 3.2 ядро (Ubuntu 12.04) работает без сбоев. за всё время танцев с бубном accel-ppp добились максимального аптайма 1 месяц, плюнули, купили микротик CCR и забыли навсегда! Edited September 29, 2015 by alexaaa Вставить ник Quote
avb1987 Posted September 29, 2015 Posted September 29, 2015 (edited) Могу поделиться противоположным опытом - имеется несколько CCR1036-12G-4S и каждый глючит по-своему. Одно устройство просто зависает в среднем 1-2 раза в месяц, второе иногда перезагружается без причины, иногда не дает новым абонентам подключаться до перезагрузки. Вчера при удалении старого неиспользуемого бондинг-интерфейса перестала работать RIP-маршрутизация (при запуске роутер посылает один раз маршруты, потом обновления не посылает и через 3 минуты половина сети ложится). Третий агрегат просто иногда зависает если в него вставить SFP модуль, который нормально работает в коммутаторе. Так же пробовали нарисовать PCQ-шейпер, и при загрузке до 300 мегабит все было нормально (загрузка процессора до 30-40% суммарно), при большей нагрузке резко уходит в 100% и зависает. Сегодня один из роутеров просто перезагрузился по причине "System rebooted because of kernel failure" при этом нагрузка была почти по нулям. В одной из последних версий они внезапно сломали traffic-flow. Техподдержка всегда запрашивает supout.rif а после его получения морозится. И самое главное - почитаешь их changelog и такое впечатление что они в каждой версии исправляют один баг и добавляют 10. Обновляешься и каждый раз нужно гадать - "что перестанет работать в этот раз?"... В общем мне самому в какой то мере нравятся микротики за их удобство настройки и простоту, но надежными их назвать нельзя. Даже близко. ИМХО. Edited September 29, 2015 by avb1987 Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.