rdmitrich Posted March 8, 2020 Posted March 8, 2020 Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут маршрутизатора. Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !! После ребута в логах появляется сообщение "critical out of memory condition was detected ", и мы не можем понять, что это ? Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !! Вставить ник Quote
EShirokiy Posted March 8, 2020 Posted March 8, 2020 @rdmitrich какие сервисы используются, сколько памяти свободно в чнн? Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий. Вставить ник Quote
rdmitrich Posted March 8, 2020 Author Posted March 8, 2020 2 часа назад, EShirokiy сказал: @rdmitrich какие сервисы используются, сколько памяти свободно в чнн? Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий. NAT + PPPoE сервер, BGP нет, память в чнн - 1500. Что касается Conntrack - нужно ли ?? Загрузка процессоров в 50% Вставить ник Quote
EShirokiy Posted March 8, 2020 Posted March 8, 2020 @rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR. Вставить ник Quote
rdmitrich Posted March 8, 2020 Author Posted March 8, 2020 16 минут назад, EShirokiy сказал: @rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR. Сейчас уcтановили CCR1009-7G-1S+ из ЗИПа, пока все работает, 400+ мегабит, аптайм 2.21 Вставить ник Quote
nkusnetsov Posted March 10, 2020 Posted March 10, 2020 (edited) При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min). Edited March 10, 2020 by nkusnetsov Вставить ник Quote
rdmitrich Posted March 10, 2020 Author Posted March 10, 2020 (edited) 13 минут назад, nkusnetsov сказал: При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min). Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ??? Edited March 10, 2020 by rdmitrich Вставить ник Quote
msdt Posted March 10, 2020 Posted March 10, 2020 (edited) В 08.03.2020 в 05:28, rdmitrich сказал: Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут маршрутизатора. Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !! После ребута в логах появляется сообщение "critical out of memory condition was detected ", и мы не можем понять, что это ? Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !! Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах. Edited March 10, 2020 by msdt Вставить ник Quote
pingz Posted March 10, 2020 Posted March 10, 2020 @rdmitrich Так чисто поржать. В сетевом оборудование есть таблицы. Пример: таблица маршрутизации, таблица арп, таблица коммутации и т.д. У всех таблиц есть ограничение. Вот в микротике есть таблица conntrack отвечающая за нат у нее то же есть ограничения, зачем держать в таблицы 24 часа запись если она была полезна 5-20 минут? Когда у вас маршрутизатор перезагружался таблица чистилась. Так же стоит отключить ip dns allow-remote-requests Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036, можно больше, но любой чих появляется головная бол З.Ы. Я бы рекомендовал скинуть настройки в дефолт в 0 и настроить заново. Вставить ник Quote
rdmitrich Posted March 10, 2020 Author Posted March 10, 2020 (edited) 1 час назад, msdt сказал: Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах. в консоли так и пишет - "critical out of memory condition was detected " 13 минут назад, pingz сказал: Так чисто поржать. Нам нифига не до смеха, купили новую железку, а она е@ет мозги.... 13 минут назад, pingz сказал: Так же стоит отключить ip dns allow-remote-requests отключили сразу 13 минут назад, pingz сказал: Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036 не маловато для 1036 ??? Вы какие тарифы отдаете ?? 200 мегабит на абонента ?? У нас сейчас 1009 жует 350 абонентов, траф в пике 500 мег, тарифы 30-50 мегабит Edited March 10, 2020 by rdmitrich Вставить ник Quote
pingz Posted March 10, 2020 Posted March 10, 2020 @rdmitrich тарифы до 100 мб\с. Еще раз повторяю можно и 1000+ запустить, если есть желание разбираться и тюнить конфиг. В моем случае поставил и забыл да и населенных пунктов у меня нет более 500 пользователей. Так же стоит затюнить шейпер name="default-small" kind=pfifo pfifo-limit=50 Попробуйте через микротик в локальном тесте iperf погонять посмотрите нагрузку под синтетикой. ИМХО 850 mb\s на порт это потолок. 40 минут назад, rdmitrich сказал: Нам нифига не до смеха, купили новую железку, а она е@ет мозги.... Это микротик, его нужно уметь готовить. Самое главное не нужно ждать от него производительности как от Cicso и т.д. Обновляюсь только из-за нужды, что бы закрыть дыры самой ROS. В данный момент 6.43.2 (stable) мой выбор. При нагрузке стоит обратить внимание на tool profile Вставить ник Quote
VolanD666 Posted March 10, 2020 Posted March 10, 2020 Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70% (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть? Вставить ник Quote
rdmitrich Posted March 10, 2020 Author Posted March 10, 2020 2 минуты назад, VolanD666 сказал: Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70% (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть? ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д. Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня. Тюнинг, а на мой взгляд более подходит слово " оптимизация" ресурсов - это безусловно правильно, но я думаю это не та причина, по которой CCR1016 уходит в ребут при 45% загрузке Вставить ник Quote
VolanD666 Posted March 10, 2020 Posted March 10, 2020 6 минут назад, rdmitrich сказал: ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д. Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня. Тюнинг, а на мой взгляд более подходит слово " оптимизация" ресурсов - это безусловно правильно, но я думаю это не та причина, по которой CCR1016 уходит в ребут при 45% загрузке А зачем вы пытаетесь гадать? Железка мониторится? График загрузки памяти приложить можете сюда? :) 7 минут назад, rdmitrich сказал: Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня. Это вообще ни о чем не говорит. Вставить ник Quote
Pinkbyte Posted March 10, 2020 Posted March 10, 2020 7 hours ago, rdmitrich said: Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ??? Таймаут в данном случае - это отсутствие активности сессии(отсутствие ACK-пакетов). Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :-) Вставить ник Quote
Jora_1 Posted March 10, 2020 Posted March 10, 2020 (edited) @rdmitrich Была подобная ошибка от нехватки оперативной памяти при многих динамических адреслистов. Сейчас 500 абонентов pppoe с Simple Queues и свободно 1200 МБ оперативы при оптайме 202 дня, до того как почистил правила которые создавали динамические адреслисты, раз в пару дней была утечка. Прошивка старая 6.42.3. ip dns allow-remote-requests включено и использую статик днс для блокировки некоторых сайтов, с заворотом 53 порта на микрот. Conntrack в дефолте. Edited March 10, 2020 by jora_1 Вставить ник Quote
nkusnetsov Posted March 10, 2020 Posted March 10, 2020 (edited) 10 часов назад, rdmitrich сказал: Будет обрывать tcp сессии через 20 минут Сессии обрывать не будет. Таймаут применяется для сессий, в которых не передаются пакеты. Например, когда клиент отключился не передав TCP-Fin или момент завершения не удалось отследить трекингом, соединение считается условно "работающим" и хранится в таблице в течение указанного таймаута. 2 часа назад, Pinkbyte сказал: Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! : Там вообще 1 день (24 часа) по-умолчанию. 20 минут предложенные мной, это тоже с некоторым избытком. но уж чтобы человек был уверен, что не навредит. Edited March 10, 2020 by nkusnetsov Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.