Перейти к содержимому
Калькуляторы

Самопроизвольная перезагeрзка CCR1016-12S-1S+

Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут 

маршрутизатора.  Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !!    После ребута в логах появляется сообщение "critical out of memory condition was detected ", и мы не можем понять, что это ?

Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. 

Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich какие сервисы используются, сколько памяти свободно в чнн?

Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

2 часа назад, EShirokiy сказал:

@rdmitrich какие сервисы используются, сколько памяти свободно в чнн?

Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий.

NAT + PPPoE сервер, BGP нет, память в чнн - 1500. Что касается Conntrack - нужно ли ?? Загрузка процессоров в 50%

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

16 минут назад, EShirokiy сказал:

@rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR.

Сейчас уcтановили CCR1009-7G-1S+ из ЗИПа, пока все работает, 400+ мегабит, аптайм 2.21

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min).

 

Изменено пользователем nkusnetsov

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

13 минут назад, nkusnetsov сказал:

При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min).

 

 

Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ???

Изменено пользователем rdmitrich

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 08.03.2020 в 05:28, rdmitrich сказал:

Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут 

маршрутизатора.  Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !!    После ребута в логах появляется сообщение "critical out of memory condition was detected ", и мы не можем понять, что это ?

Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. 

Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !!

Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах.

Изменено пользователем msdt

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich 

Так чисто поржать. 

В сетевом оборудование есть таблицы.

Пример: таблица маршрутизации, таблица арп, таблица коммутации и т.д.

У всех таблиц есть ограничение.

 

Вот в микротике есть таблица conntrack отвечающая за нат у нее то же есть ограничения, зачем держать в таблицы 24 часа запись если она была полезна 5-20 минут? 

 

Когда у вас маршрутизатор перезагружался таблица чистилась. 


Так же стоит отключить ip dns  allow-remote-requests 

 

Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036, можно больше, но любой чих появляется головная бол

 

З.Ы. Я бы рекомендовал скинуть настройки в дефолт в 0 и настроить заново. 

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1 час назад, msdt сказал:

Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах.

в консоли так и пишет - "critical out of memory condition was detected "

 

 

13 минут назад, pingz сказал:

Так чисто поржать. 

Нам нифига не до смеха, купили новую железку, а она е@ет мозги....

 

13 минут назад, pingz сказал:

Так же стоит отключить ip dns  allow-remote-requests

отключили сразу

 

13 минут назад, pingz сказал:

Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036

не маловато для 1036 ??? Вы какие тарифы отдаете ?? 200 мегабит на абонента ??    У нас сейчас 1009 жует 350 абонентов, траф в пике 500 мег, тарифы 30-50 мегабит

Изменено пользователем rdmitrich

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich тарифы до 100 мб\с. 

Еще раз повторяю можно и 1000+ запустить, если есть желание разбираться и тюнить конфиг. 

В моем случае поставил и забыл да и населенных пунктов у меня нет более 500 пользователей. 

Так же стоит затюнить шейпер

name="default-small" kind=pfifo pfifo-limit=50 

 

Попробуйте через микротик в локальном тесте iperf погонять посмотрите нагрузку под синтетикой. 

ИМХО 850 mb\s на порт это потолок. 

 

40 минут назад, rdmitrich сказал:

Нам нифига не до смеха, купили новую железку, а она е@ет мозги....

Это микротик, его нужно уметь готовить. Самое главное не нужно ждать от него производительности как от Cicso и т.д. 

 

Обновляюсь только из-за нужды, что бы закрыть дыры самой ROS. В данный момент 6.43.2 (stable) мой выбор. 

 

При нагрузке стоит обратить внимание на tool profile

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70%  (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

2 минуты назад, VolanD666 сказал:

Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70%  (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть?

ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д.     Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.  Тюнинг, а на мой взгляд более подходит слово " оптимизация" ресурсов - это безусловно правильно, но я думаю это не та причина, по которой CCR1016  уходит в ребут при 45% загрузке

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

6 минут назад, rdmitrich сказал:

ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д.     Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.  Тюнинг, а на мой взгляд более подходит слово " оптимизация" ресурсов - это безусловно правильно, но я думаю это не та причина, по которой CCR1016  уходит в ребут при 45% загрузке

А зачем вы пытаетесь гадать? Железка мониторится? График загрузки памяти приложить можете сюда? :)

 

7 минут назад, rdmitrich сказал:

Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.

Это вообще ни о чем не говорит.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

7 hours ago, rdmitrich said:

Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ???

 

Таймаут в данном случае - это отсутствие активности сессии(отсутствие ACK-пакетов). Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :-)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich Была подобная ошибка от нехватки оперативной памяти при многих динамических адреслистов. Сейчас 500 абонентов pppoe с Simple Queues и свободно 1200 МБ оперативы при оптайме 202 дня, до того как почистил правила которые создавали динамические адреслисты, раз в пару дней была утечка. Прошивка старая 6.42.3. ip dns  allow-remote-requests включено и использую статик днс для блокировки некоторых сайтов, с заворотом 53 порта на микрот. Conntrack  в дефолте.

Изменено пользователем jora_1

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

10 часов назад, rdmitrich сказал:

Будет обрывать tcp сессии через 20 минут

Сессии обрывать не будет.
Таймаут применяется для сессий, в которых не передаются пакеты. Например, когда клиент отключился не передав TCP-Fin или момент завершения не удалось отследить трекингом, соединение считается условно "работающим" и хранится в таблице в течение указанного таймаута.

 

2 часа назад, Pinkbyte сказал:

Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :

Там вообще 1 день (24 часа) по-умолчанию. 20 минут предложенные мной, это тоже с некоторым избытком. но уж чтобы человек был уверен, что не навредит.

Изменено пользователем nkusnetsov

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.