Jump to content

Recommended Posts

Posted

Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут 

маршрутизатора.  Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !!    После ребута в логах появляется сообщение "critical out of memory condition was detected ", и мы не можем понять, что это ?

Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. 

Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !!

Posted

@rdmitrich какие сервисы используются, сколько памяти свободно в чнн?

Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий.

Posted
2 часа назад, EShirokiy сказал:

@rdmitrich какие сервисы используются, сколько памяти свободно в чнн?

Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий.

NAT + PPPoE сервер, BGP нет, память в чнн - 1500. Что касается Conntrack - нужно ли ?? Загрузка процессоров в 50%

Posted

@rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR.

Posted
16 минут назад, EShirokiy сказал:

@rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR.

Сейчас уcтановили CCR1009-7G-1S+ из ЗИПа, пока все работает, 400+ мегабит, аптайм 2.21

Posted (edited)

При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min).

 

Edited by nkusnetsov
Posted (edited)
13 минут назад, nkusnetsov сказал:

При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min).

 

 

Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ???

Edited by rdmitrich
Posted (edited)
В 08.03.2020 в 05:28, rdmitrich сказал:

Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут 

маршрутизатора.  Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !!    После ребута в логах появляется сообщение "critical out of memory condition was detected ", и мы не можем понять, что это ?

Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. 

Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !!

Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах.

Edited by msdt
Posted

@rdmitrich 

Так чисто поржать. 

В сетевом оборудование есть таблицы.

Пример: таблица маршрутизации, таблица арп, таблица коммутации и т.д.

У всех таблиц есть ограничение.

 

Вот в микротике есть таблица conntrack отвечающая за нат у нее то же есть ограничения, зачем держать в таблицы 24 часа запись если она была полезна 5-20 минут? 

 

Когда у вас маршрутизатор перезагружался таблица чистилась. 


Так же стоит отключить ip dns  allow-remote-requests 

 

Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036, можно больше, но любой чих появляется головная бол

 

З.Ы. Я бы рекомендовал скинуть настройки в дефолт в 0 и настроить заново. 

 

Posted (edited)
1 час назад, msdt сказал:

Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах.

в консоли так и пишет - "critical out of memory condition was detected "

 

 

13 минут назад, pingz сказал:

Так чисто поржать. 

Нам нифига не до смеха, купили новую железку, а она е@ет мозги....

 

13 минут назад, pingz сказал:

Так же стоит отключить ip dns  allow-remote-requests

отключили сразу

 

13 минут назад, pingz сказал:

Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036

не маловато для 1036 ??? Вы какие тарифы отдаете ?? 200 мегабит на абонента ??    У нас сейчас 1009 жует 350 абонентов, траф в пике 500 мег, тарифы 30-50 мегабит

Edited by rdmitrich
Posted

@rdmitrich тарифы до 100 мб\с. 

Еще раз повторяю можно и 1000+ запустить, если есть желание разбираться и тюнить конфиг. 

В моем случае поставил и забыл да и населенных пунктов у меня нет более 500 пользователей. 

Так же стоит затюнить шейпер

name="default-small" kind=pfifo pfifo-limit=50 

 

Попробуйте через микротик в локальном тесте iperf погонять посмотрите нагрузку под синтетикой. 

ИМХО 850 mb\s на порт это потолок. 

 

40 минут назад, rdmitrich сказал:

Нам нифига не до смеха, купили новую железку, а она е@ет мозги....

Это микротик, его нужно уметь готовить. Самое главное не нужно ждать от него производительности как от Cicso и т.д. 

 

Обновляюсь только из-за нужды, что бы закрыть дыры самой ROS. В данный момент 6.43.2 (stable) мой выбор. 

 

При нагрузке стоит обратить внимание на tool profile

Posted

Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70%  (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть?

Posted
2 минуты назад, VolanD666 сказал:

Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70%  (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть?

ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д.     Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.  Тюнинг, а на мой взгляд более подходит слово " оптимизация" ресурсов - это безусловно правильно, но я думаю это не та причина, по которой CCR1016  уходит в ребут при 45% загрузке

Posted
6 минут назад, rdmitrich сказал:

ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д.     Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.  Тюнинг, а на мой взгляд более подходит слово " оптимизация" ресурсов - это безусловно правильно, но я думаю это не та причина, по которой CCR1016  уходит в ребут при 45% загрузке

А зачем вы пытаетесь гадать? Железка мониторится? График загрузки памяти приложить можете сюда? :)

 

7 минут назад, rdmitrich сказал:

Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.

Это вообще ни о чем не говорит.

Posted
7 hours ago, rdmitrich said:

Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ???

 

Таймаут в данном случае - это отсутствие активности сессии(отсутствие ACK-пакетов). Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :-)

Posted (edited)

@rdmitrich Была подобная ошибка от нехватки оперативной памяти при многих динамических адреслистов. Сейчас 500 абонентов pppoe с Simple Queues и свободно 1200 МБ оперативы при оптайме 202 дня, до того как почистил правила которые создавали динамические адреслисты, раз в пару дней была утечка. Прошивка старая 6.42.3. ip dns  allow-remote-requests включено и использую статик днс для блокировки некоторых сайтов, с заворотом 53 порта на микрот. Conntrack  в дефолте.

Edited by jora_1
Posted (edited)
10 часов назад, rdmitrich сказал:

Будет обрывать tcp сессии через 20 минут

Сессии обрывать не будет.
Таймаут применяется для сессий, в которых не передаются пакеты. Например, когда клиент отключился не передав TCP-Fin или момент завершения не удалось отследить трекингом, соединение считается условно "работающим" и хранится в таблице в течение указанного таймаута.

 

2 часа назад, Pinkbyte сказал:

Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :

Там вообще 1 день (24 часа) по-умолчанию. 20 минут предложенные мной, это тоже с некоторым избытком. но уж чтобы человек был уверен, что не навредит.

Edited by nkusnetsov

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.