zlolotus Posted September 28, 2015 · Report post Коллеги Доброго времени суток. Ситуация такая, 3.16.0-43-generik,bonding,accel последний. Абонов на каждом сервере порядка 1к, тип доступа pppoe. Подключено все это дело к 3750. Утром были запланированы работы, по смене профиля на 3750. Ребут каталисты привел, к зависанию всех серверов. Скрин прилагается, везде одно и тоже на всех трех. Или же, мне надо было для начала потушить аксель, потом bond Интерфейс, и только потом ребутить каталисту? sysctl.conf net.ipv4.ip_forward=1 net.ipv4.neigh.default.gc_thresh1=16384 net.ipv4.neigh.default.gc_thresh2=32768 net.ipv4.neigh.default.gc_thresh3=32768 net.ipv4.conf.default.rp_filter=0 net.ipv4.conf.all.rp_filter=0 net.ipv4.tcp_sack=0 net.ipv4.tcp_timestamps=0 net.core.rmem_max=524287 net.core.wmem_max=524287 net.core.rmem_default=524287 net.core.wmem_default=524287 net.core.optmem_max=524287 net.core.netdev_max_backlog=300000 net.netfilter.nf_conntrack_max=1048576 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
avb1987 Posted September 28, 2015 (edited) · Report post У меня был баг с похожими симптомами (зависание при пропадании линка на интерфейсе где запущен accel-ppp либо при удалении этого интерфейса либо при ручном его отключении при помощи "ip link set ... down" в момент когда там есть подключенные по pppoe пользователи). Сообщение в логе было другим: [ 80.277042] BUG: unable to handle kernel NULL pointer dereference at 0000000000000398 [ 80.278132] IP: [<ffffffffa023ec67>] pppoe_release+0x157/0x1a0 [pppoe] Решилось применением патча в pppoe_flush_dev, предложенного здесь: http://www.spinics.net/lists/netdev/msg342607.html Хотя, судя по всему в указанном по ссылке топике зависания происходят по какой-то другой причине. У меня CentOS 7, ядро 3.10.0-229.14.1 Edited September 28, 2015 by avb1987 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zlolotus Posted September 28, 2015 · Report post У меня был баг с похожими симптомами (зависание при пропадании линка на интерфейсе где запущен accel-ppp либо при удалении этого интерфейса). Сообщения в логе было другим: [ 80.277042] BUG: unable to handle kernel NULL pointer dereference at 0000000000000398 [ 80.278132] IP: [<ffffffffa023ec67>] pppoe_release+0x157/0x1a0 [pppoe] Решилось применением патча в pppoe_flush_dev, предложенного здесь: http://www.spinics.net/lists/netdev/msg342607.html Хотя, судя по всему в указанном по ссылке топике зависания происходят по какой-то другой причине. при удалении интерфейса(вилана) тоже все виснет, но выходит уже другое.... про патч, читал но пока не применял. Кажется, читал ваш пост, на форуме акселя. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
sanyasi Posted September 29, 2015 (edited) · Report post Падают два сервера pptp + l2tp + нат + шейп + ipt_netflow. Аптайм - 1 час - неделя. Сделал, чтобы сразу перезагружался. Пока не разбирался с причинами, не нахожусь в серверной. Ubuntu 14.04 ядра 3.13.0-63-generic 3.19.0-28-generic accel-ppp version 1.9.0 Не железо. 1.8.0 + 3.2 ядро (Ubuntu 12.04) работает без сбоев. Edited September 29, 2015 by sanyasi Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alexaaa Posted September 29, 2015 (edited) · Report post Падают два сервера pptp + l2tp + нат + шейп + ipt_netflow. Аптайм - 1 час - неделя. Сделал, чтобы сразу перезагружался. Пока не разбирался с причинами, не нахожусь в серверной. Ubuntu 14.04 ядра 3.13.0-63-generic 3.19.0-28-generic accel-ppp version 1.9.0 Не железо. 1.8.0 + 3.2 ядро (Ubuntu 12.04) работает без сбоев. за всё время танцев с бубном accel-ppp добились максимального аптайма 1 месяц, плюнули, купили микротик CCR и забыли навсегда! Edited September 29, 2015 by alexaaa Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
avb1987 Posted September 29, 2015 (edited) · Report post Могу поделиться противоположным опытом - имеется несколько CCR1036-12G-4S и каждый глючит по-своему. Одно устройство просто зависает в среднем 1-2 раза в месяц, второе иногда перезагружается без причины, иногда не дает новым абонентам подключаться до перезагрузки. Вчера при удалении старого неиспользуемого бондинг-интерфейса перестала работать RIP-маршрутизация (при запуске роутер посылает один раз маршруты, потом обновления не посылает и через 3 минуты половина сети ложится). Третий агрегат просто иногда зависает если в него вставить SFP модуль, который нормально работает в коммутаторе. Так же пробовали нарисовать PCQ-шейпер, и при загрузке до 300 мегабит все было нормально (загрузка процессора до 30-40% суммарно), при большей нагрузке резко уходит в 100% и зависает. Сегодня один из роутеров просто перезагрузился по причине "System rebooted because of kernel failure" при этом нагрузка была почти по нулям. В одной из последних версий они внезапно сломали traffic-flow. Техподдержка всегда запрашивает supout.rif а после его получения морозится. И самое главное - почитаешь их changelog и такое впечатление что они в каждой версии исправляют один баг и добавляют 10. Обновляешься и каждый раз нужно гадать - "что перестанет работать в этот раз?"... В общем мне самому в какой то мере нравятся микротики за их удобство настройки и простоту, но надежными их назвать нельзя. Даже близко. ИМХО. Edited September 29, 2015 by avb1987 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...