rdmitrich Опубликовано 8 марта, 2020 · Жалоба Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут маршрутизатора. Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !! После ребута в логах появляется сообщение "critical out of memory condition was detected ", и мы не можем понять, что это ? Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !! Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
EShirokiy Опубликовано 8 марта, 2020 · Жалоба @rdmitrich какие сервисы используются, сколько памяти свободно в чнн? Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
rdmitrich Опубликовано 8 марта, 2020 · Жалоба 2 часа назад, EShirokiy сказал: @rdmitrich какие сервисы используются, сколько памяти свободно в чнн? Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий. NAT + PPPoE сервер, BGP нет, память в чнн - 1500. Что касается Conntrack - нужно ли ?? Загрузка процессоров в 50% Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
EShirokiy Опубликовано 8 марта, 2020 · Жалоба @rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
rdmitrich Опубликовано 8 марта, 2020 · Жалоба 16 минут назад, EShirokiy сказал: @rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR. Сейчас уcтановили CCR1009-7G-1S+ из ЗИПа, пока все работает, 400+ мегабит, аптайм 2.21 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nkusnetsov Опубликовано 10 марта, 2020 (изменено) · Жалоба При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min). Изменено 10 марта, 2020 пользователем nkusnetsov Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
rdmitrich Опубликовано 10 марта, 2020 (изменено) · Жалоба 13 минут назад, nkusnetsov сказал: При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min). Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ??? Изменено 10 марта, 2020 пользователем rdmitrich Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
msdt Опубликовано 10 марта, 2020 (изменено) · Жалоба В 08.03.2020 в 05:28, rdmitrich сказал: Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут маршрутизатора. Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !! После ребута в логах появляется сообщение "critical out of memory condition was detected ", и мы не можем понять, что это ? Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !! Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах. Изменено 10 марта, 2020 пользователем msdt Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
pingz Опубликовано 10 марта, 2020 · Жалоба @rdmitrich Так чисто поржать. В сетевом оборудование есть таблицы. Пример: таблица маршрутизации, таблица арп, таблица коммутации и т.д. У всех таблиц есть ограничение. Вот в микротике есть таблица conntrack отвечающая за нат у нее то же есть ограничения, зачем держать в таблицы 24 часа запись если она была полезна 5-20 минут? Когда у вас маршрутизатор перезагружался таблица чистилась. Так же стоит отключить ip dns allow-remote-requests Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036, можно больше, но любой чих появляется головная бол З.Ы. Я бы рекомендовал скинуть настройки в дефолт в 0 и настроить заново. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
rdmitrich Опубликовано 10 марта, 2020 (изменено) · Жалоба 1 час назад, msdt сказал: Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах. в консоли так и пишет - "critical out of memory condition was detected " 13 минут назад, pingz сказал: Так чисто поржать. Нам нифига не до смеха, купили новую железку, а она е@ет мозги.... 13 минут назад, pingz сказал: Так же стоит отключить ip dns allow-remote-requests отключили сразу 13 минут назад, pingz сказал: Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036 не маловато для 1036 ??? Вы какие тарифы отдаете ?? 200 мегабит на абонента ?? У нас сейчас 1009 жует 350 абонентов, траф в пике 500 мег, тарифы 30-50 мегабит Изменено 10 марта, 2020 пользователем rdmitrich Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
pingz Опубликовано 10 марта, 2020 · Жалоба @rdmitrich тарифы до 100 мб\с. Еще раз повторяю можно и 1000+ запустить, если есть желание разбираться и тюнить конфиг. В моем случае поставил и забыл да и населенных пунктов у меня нет более 500 пользователей. Так же стоит затюнить шейпер name="default-small" kind=pfifo pfifo-limit=50 Попробуйте через микротик в локальном тесте iperf погонять посмотрите нагрузку под синтетикой. ИМХО 850 mb\s на порт это потолок. 40 минут назад, rdmitrich сказал: Нам нифига не до смеха, купили новую железку, а она е@ет мозги.... Это микротик, его нужно уметь готовить. Самое главное не нужно ждать от него производительности как от Cicso и т.д. Обновляюсь только из-за нужды, что бы закрыть дыры самой ROS. В данный момент 6.43.2 (stable) мой выбор. При нагрузке стоит обратить внимание на tool profile Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
VolanD666 Опубликовано 10 марта, 2020 · Жалоба Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70% (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
rdmitrich Опубликовано 10 марта, 2020 · Жалоба 2 минуты назад, VolanD666 сказал: Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70% (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть? ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д. Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня. Тюнинг, а на мой взгляд более подходит слово " оптимизация" ресурсов - это безусловно правильно, но я думаю это не та причина, по которой CCR1016 уходит в ребут при 45% загрузке Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
VolanD666 Опубликовано 10 марта, 2020 · Жалоба 6 минут назад, rdmitrich сказал: ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д. Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня. Тюнинг, а на мой взгляд более подходит слово " оптимизация" ресурсов - это безусловно правильно, но я думаю это не та причина, по которой CCR1016 уходит в ребут при 45% загрузке А зачем вы пытаетесь гадать? Железка мониторится? График загрузки памяти приложить можете сюда? :) 7 минут назад, rdmitrich сказал: Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня. Это вообще ни о чем не говорит. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Pinkbyte Опубликовано 10 марта, 2020 · Жалоба 7 hours ago, rdmitrich said: Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ??? Таймаут в данном случае - это отсутствие активности сессии(отсутствие ACK-пакетов). Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :-) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Jora_1 Опубликовано 10 марта, 2020 (изменено) · Жалоба @rdmitrich Была подобная ошибка от нехватки оперативной памяти при многих динамических адреслистов. Сейчас 500 абонентов pppoe с Simple Queues и свободно 1200 МБ оперативы при оптайме 202 дня, до того как почистил правила которые создавали динамические адреслисты, раз в пару дней была утечка. Прошивка старая 6.42.3. ip dns allow-remote-requests включено и использую статик днс для блокировки некоторых сайтов, с заворотом 53 порта на микрот. Conntrack в дефолте. Изменено 10 марта, 2020 пользователем jora_1 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nkusnetsov Опубликовано 10 марта, 2020 (изменено) · Жалоба 10 часов назад, rdmitrich сказал: Будет обрывать tcp сессии через 20 минут Сессии обрывать не будет. Таймаут применяется для сессий, в которых не передаются пакеты. Например, когда клиент отключился не передав TCP-Fin или момент завершения не удалось отследить трекингом, соединение считается условно "работающим" и хранится в таблице в течение указанного таймаута. 2 часа назад, Pinkbyte сказал: Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! : Там вообще 1 день (24 часа) по-умолчанию. 20 минут предложенные мной, это тоже с некоторым избытком. но уж чтобы человек был уверен, что не навредит. Изменено 10 марта, 2020 пользователем nkusnetsov Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...