zlolotus Опубликовано 28 сентября, 2015 Коллеги Доброго времени суток. Ситуация такая, 3.16.0-43-generik,bonding,accel последний. Абонов на каждом сервере порядка 1к, тип доступа pppoe. Подключено все это дело к 3750. Утром были запланированы работы, по смене профиля на 3750. Ребут каталисты привел, к зависанию всех серверов. Скрин прилагается, везде одно и тоже на всех трех. Или же, мне надо было для начала потушить аксель, потом bond Интерфейс, и только потом ребутить каталисту? sysctl.conf net.ipv4.ip_forward=1 net.ipv4.neigh.default.gc_thresh1=16384 net.ipv4.neigh.default.gc_thresh2=32768 net.ipv4.neigh.default.gc_thresh3=32768 net.ipv4.conf.default.rp_filter=0 net.ipv4.conf.all.rp_filter=0 net.ipv4.tcp_sack=0 net.ipv4.tcp_timestamps=0 net.core.rmem_max=524287 net.core.wmem_max=524287 net.core.rmem_default=524287 net.core.wmem_default=524287 net.core.optmem_max=524287 net.core.netdev_max_backlog=300000 net.netfilter.nf_conntrack_max=1048576 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
avb1987 Опубликовано 28 сентября, 2015 (изменено) У меня был баг с похожими симптомами (зависание при пропадании линка на интерфейсе где запущен accel-ppp либо при удалении этого интерфейса либо при ручном его отключении при помощи "ip link set ... down" в момент когда там есть подключенные по pppoe пользователи). Сообщение в логе было другим: [ 80.277042] BUG: unable to handle kernel NULL pointer dereference at 0000000000000398 [ 80.278132] IP: [<ffffffffa023ec67>] pppoe_release+0x157/0x1a0 [pppoe] Решилось применением патча в pppoe_flush_dev, предложенного здесь: http://www.spinics.net/lists/netdev/msg342607.html Хотя, судя по всему в указанном по ссылке топике зависания происходят по какой-то другой причине. У меня CentOS 7, ядро 3.10.0-229.14.1 Изменено 28 сентября, 2015 пользователем avb1987 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zlolotus Опубликовано 28 сентября, 2015 У меня был баг с похожими симптомами (зависание при пропадании линка на интерфейсе где запущен accel-ppp либо при удалении этого интерфейса). Сообщения в логе было другим: [ 80.277042] BUG: unable to handle kernel NULL pointer dereference at 0000000000000398 [ 80.278132] IP: [<ffffffffa023ec67>] pppoe_release+0x157/0x1a0 [pppoe] Решилось применением патча в pppoe_flush_dev, предложенного здесь: http://www.spinics.net/lists/netdev/msg342607.html Хотя, судя по всему в указанном по ссылке топике зависания происходят по какой-то другой причине. при удалении интерфейса(вилана) тоже все виснет, но выходит уже другое.... про патч, читал но пока не применял. Кажется, читал ваш пост, на форуме акселя. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sanyasi Опубликовано 29 сентября, 2015 (изменено) Падают два сервера pptp + l2tp + нат + шейп + ipt_netflow. Аптайм - 1 час - неделя. Сделал, чтобы сразу перезагружался. Пока не разбирался с причинами, не нахожусь в серверной. Ubuntu 14.04 ядра 3.13.0-63-generic 3.19.0-28-generic accel-ppp version 1.9.0 Не железо. 1.8.0 + 3.2 ядро (Ubuntu 12.04) работает без сбоев. Изменено 29 сентября, 2015 пользователем sanyasi Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alexaaa Опубликовано 29 сентября, 2015 (изменено) Падают два сервера pptp + l2tp + нат + шейп + ipt_netflow. Аптайм - 1 час - неделя. Сделал, чтобы сразу перезагружался. Пока не разбирался с причинами, не нахожусь в серверной. Ubuntu 14.04 ядра 3.13.0-63-generic 3.19.0-28-generic accel-ppp version 1.9.0 Не железо. 1.8.0 + 3.2 ядро (Ubuntu 12.04) работает без сбоев. за всё время танцев с бубном accel-ppp добились максимального аптайма 1 месяц, плюнули, купили микротик CCR и забыли навсегда! Изменено 29 сентября, 2015 пользователем alexaaa Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
avb1987 Опубликовано 29 сентября, 2015 (изменено) Могу поделиться противоположным опытом - имеется несколько CCR1036-12G-4S и каждый глючит по-своему. Одно устройство просто зависает в среднем 1-2 раза в месяц, второе иногда перезагружается без причины, иногда не дает новым абонентам подключаться до перезагрузки. Вчера при удалении старого неиспользуемого бондинг-интерфейса перестала работать RIP-маршрутизация (при запуске роутер посылает один раз маршруты, потом обновления не посылает и через 3 минуты половина сети ложится). Третий агрегат просто иногда зависает если в него вставить SFP модуль, который нормально работает в коммутаторе. Так же пробовали нарисовать PCQ-шейпер, и при загрузке до 300 мегабит все было нормально (загрузка процессора до 30-40% суммарно), при большей нагрузке резко уходит в 100% и зависает. Сегодня один из роутеров просто перезагрузился по причине "System rebooted because of kernel failure" при этом нагрузка была почти по нулям. В одной из последних версий они внезапно сломали traffic-flow. Техподдержка всегда запрашивает supout.rif а после его получения морозится. И самое главное - почитаешь их changelog и такое впечатление что они в каждой версии исправляют один баг и добавляют 10. Обновляешься и каждый раз нужно гадать - "что перестанет работать в этот раз?"... В общем мне самому в какой то мере нравятся микротики за их удобство настройки и простоту, но надежными их назвать нельзя. Даже близко. ИМХО. Изменено 29 сентября, 2015 пользователем avb1987 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...