Jump to content

Частое зависание микротика / Выбор железа под микротик


Recommended Posts

Posted

Здравствуйте! Прошу помочь разобраться в сложившейся ситуациии, ибо идеи уже кончились.

 

В общем имеется сеть на 700 человек, постоянный онлайн 300-400 человек, канал 200 мбит (40-48 kp/ps в пике) в обе стороны. Используется шейпер pcq без QoS (4,8,12,16М), DHCP, RIP (маленькая часть сети) и простая маршрутизация. Всё это крутилось на микротике 5.24 (лицензия) и стареньком сокете 945 с процессором Intel 2,8 Ггц (Hyper-threading).

Месяца два назад микротик начал зависать намертво. Переодичности нет никакой. Может отработать две недели, а может зависнуть через 2 часа. Загрузка процессора в час пик держалась на уровне 50-60%. Решили обновить сервер на более мощный. Собрали систему на AM3+, AMD FX100 процессор, 2Гб оперативной памяти, сетевая плата встроенная RTL8111/8168B, но ничего не изменилось. Микротик так же виснет, нагрузка лежит только на 1 ядре из 6 (60-70%), остальные не грузятся вообще. В логах после зависания нет ничего.

 

Для того чтобы были задействаны остальные ядра, как я понял, нужно поставить другую сетевую карту. Что-то вроде этого: Intel_E1G42ET_Gigabit_Adapter_Dual_PCIE_x4_1000Mbps.

А вот с чем связаны зависания, мне выяснить не удалось. Я перепробовал всё: сбрасывал микротик, настраивал всё заново, пробовал использовать ломаный микротик и т.д

 

Подскажите кто чем может =)

post-101104-053635400 1374416785_thumb.jpg

post-101104-064851800 1374416792_thumb.jpg

Posted

Вам нужно искать проблему в сети на участке между микротиком и клиентами, возможно где-то коммутатор флудит, может в оптике или витухе плохой контакт и т.п.

Posted (edited)

Вам нужно искать проблему в сети на участке между микротиком и клиентами, возможно где-то коммутатор флудит, может в оптике или витухе плохой контакт и т.п.

 

перед микротико стоит Dlink DGS-3612G в который заходит DGS-3120-24SC (собирает многоэтажные дома), DES-3828 (собирает близлежащие маленькие дома по витой паре), Edge-Core 4612 2 штуки (кольцо, RIP), DGS-3120-24SC (собирает частный сектор). Есть подозрение на DES-3828, он часто ребутится даже с включенным Safeguard Engine. Остальная часть с настроенным ACL.

Ещё бывает в DHCP появляется по 4 ip с одинаковым маком, которые пытаются получить ip адрес с разных DHCP одновременно. Как такое отловить не знаю. MAC не знакомый, его нет в базе микротика и ARP свичей.

 

А загрузка процессора из-за чего? Однопотоковой сетевой?

post-101104-020786500 1374421890_thumb.jpg

Edited by AKim
Posted

Железо тут не при чем, с вашей нагрузкой и 1 ядра достаточно с любой гигабитной сетевухой за 300р. Ищите проблему в сети, например глючные порты на коммутаторах, глючные абонентские роутеры. Естественно нужно проверить и коммутаторы на предмет не правильно настроенных вланов, бывает по ошибке один и тот же влан на 2 интерфейса пропишут, и получается 1 порт верный, а второй сразу в 2 влана заворачивается.

Posted

сомневаюсь про любую гигабитную сетевуху, по ппс занётся сетевая, я бы начал с сетевых интела их можно и по 1500р. найти, 2 штуки, каждая содним портом гиг и вперёд

Posted

Железо тут не при чем, с вашей нагрузкой и 1 ядра достаточно с любой гигабитной сетевухой за 300р. Ищите проблему в сети, например глючные порты на коммутаторах, глючные абонентские роутеры. Естественно нужно проверить и коммутаторы на предмет не правильно настроенных вланов, бывает по ошибке один и тот же влан на 2 интерфейса пропишут, и получается 1 порт верный, а второй сразу в 2 влана заворачивается.

 

Вланы проверил. Ошибок нет. Буду влан разгребать из 240 человек, раскинутый по городу, а там видно станет.

 

Одноядерный процессор справится, если брать в расчёт, что будет загружен постоянно до 60-70%. У нас расширение на днях до 300 мбит, каждый день растёт абон. база и т.д. Если ставить 6 ядерный процессор, то с запасом, а не как на картинке. А это ведь всего 200 мегабит и немножко правил в фаерволе с простой маршрутизацией.

 

Вероятно, вы переросли микротырк.

 

Я пока что в него верю.

post-101104-036064900 1374515918_thumb.jpg

post-101104-054292400 1374515923_thumb.jpg

post-101104-066119000 1374515928_thumb.jpg

Posted

Была похожая проблема, точь в точь))))

 

Железо тут не при чем, с вашей нагрузкой и 1 ядра достаточно с любой гигабитной сетевухой за 300р.

Согласен полностью. Мы что только не делали с железом, ставили дорогущие Интеловые сервера, ничего не помогало.

 

Ищите проблему в сети, например глючные порты на коммутаторах, глючные абонентские роутеры.

Можно конечно, и по этому пути пойти, но клиенты разбегутся, пока вы будете очередной глюк в сети отлавливать (а они будут неизбежно).

А можно пойти по нашему пути, заменили Микротик на CentOS, настроили все

и уже два года молотит без проблем на том же железе!

 

Вероятно, вы переросли микротырк.

Согласен полностью. Есть у него какой-то невидимый предел, после которого все его плюшки становятся ничтожными по сравнению с непонятными и ничем не обоснованными глюками.

Posted (edited)

- сменить сетевуху

- отключить всякую херню в биос - гипер трединг, всякую неведомую хрень с питанием и прочие неведомые плюшки

- защитить от ддос и прочего тлетворного влияния Запада )

- не юзать RIP (потому что RIP - это "покойся с миром" http://ru.wikipedia.org/wiki/Requiescat_in_pace)

- не юзать ssh (но в каких-то сборках работает)

- не юзать graphing

- не юзать опенВПН

 

либо (как правильно подсказывают из зала)

 

- не юзать микротик на таких задачах и объемах :)

 

P.S. Хотя сам исторически юзаю в разных местах и с бОльшей нагрузкой.

По ядрам нормально размазывается нагрузка.

Но таки да - некторые машины ребутятся иногда (не часто) и не все.

А, например, разные роутерборды не ребутяться - но и нагрузка у них гораздо меньше.

Пока не разбирался с ребутами на писюках - ибо редко (например может работать полгода, а потом крякнуться, а может 2 раза за месяц)

то ли конкретные сборки 5.x бажные, толи с конкретным железом "несовместимость" то ли просто микротик такой микротик )

Надеюсь на чудо (имею право)- вдруг 6 тик они за год доведут до ума и он будет стабильно пахать на свежем железе.

Edited by nobody4097
Posted

сменить сетевуху

 

Это уже понял. Сменю в ближайшее время.

 

не юзать RIP

 

Попробую.

- не юзать ssh (но в каких-то сборках работает)

- не юзать graphing

- не юзать опенВПН

 

Ничего из этого не используется.

 

 

Еще дело в том, что в сети не заблокирована виндовая шара и не используется изоляция портов. Все клиенты в пределах влана видят друг друга. Наверно стоит прикрыть это.

 

Вчера поставил микротик 5.25. Пока что не зависал. Если проработает больше 2 недель, то уже какое то улучшение.

Posted

У меня есть основания думать, что RIP падает

например года три назад (на 5.x RC) анонсил на бордер с брасов /32 роуты - под тыщу штук

часто падало - перешел на iBGP - перестало падать.

Может дело было в релиз кандидате, но выбора не было - ибо 4-й Тик не заводился на том железе....

 

Да и просто RIP - де факто - устаревший протокол, не расчитанный на большие нагрузки.

Хотя вижу в Тике еще и RIP-ng (new generation ?) - но не разбирался - что за оно...

Posted (edited)

Еще дело в том, что в сети не заблокирована виндовая шара и не используется изоляция портов. Все клиенты в пределах влана видят друг друга. Наверно стоит прикрыть это.

Т.е. на сервер с микротиком сыпится весь L2 мусор с сети?

Я хз, может это и пофиг - но предпочитаю между юзерами и "программным брасом" - умный L3 свич ставить - разруливать L2 и VLANы, причесать трафик и прочие фишки заюзать - ведь именно для этого свичи и нужны.

Т.е. L3 Connected так сказать )

 

Причесать - это значит подробить на более мелкие вланы (уменьшить широковещательные домены), арп инспекшн, фильтры на теже виндовые шары, шторм контрол, dhcp снупинг, луп детект и тд. и т.п.

Edited by nobody4097
Posted

Т.е. на сервер с микротиком сыпится весь L2 мусор с сети?

Я хз, может это и пофиг - но предпочитаю между юзерами и "программным брасом" - умный L3 свич ставить - разруливать L2 и VLANы, причесать трафик и прочие фишки заюзать - ведь именно для этого свичи и нужны.

Т.е. L3 Connected так сказать )

 

Причесать - это значит подробить на более мелкие вланы (уменьшить широковещательные домены), арп инспекшн, фильтры на теже виндовые шары, шторм контрол, dhcp снупинг, луп детект и тд. и т.п.

 

Свичи доступа собираются свичами D-Link DGS-3120-24SC, а дальше они идут на D-Link DGS-3612G (L3). Но так как острой необходимости в маршрутах на L3 не было, то L3 используется как L2 и стоит на всякий случай. Локалкой пользуеются единицы, трафик максимум 50 мбит вечером в течении пары часов. Поэтому вопрос о нагрузке тика локалкой не стоял.

 

На свичах доступа настроен Storm Control (Broadcast + Multicast), но шторма не было не разу.

DHCP Server Screening, Loopback Detection, management отдельный.

 

Вланы нарезаны на /24 в каждом от 30 до 150 человек. Есть один не красивый VLAN 1, в котором 240 человек. Его в ближайшее время разберу.

 

У меня есть основания думать, что RIP падает

например года три назад (на 5.x RC) анонсил на бордер с брасов /32 роуты - под тыщу штук

часто падало - перешел на iBGP - перестало падать.

Может дело было в релиз кандидате, но выбора не было - ибо 4-й Тик не заводился на том железе....

 

Работа всей сети начиналась с 4x узлов агрегации в кольце с RIP + DHCP Relay. Сейчас осталось 3 маленьких узла на которых в общей сложности человек 100. Руки не доходят всё перестроить. Так вот, за почти 2 года проблем с RIPom не было никаких. Были только с релеем, но ничего не висло. Тем более что роутов там не под 1000, а всего 22.

Posted

вы про RIP только моим брасам не говорите... А то они узнают, что на большие нагрузки не рассчитаны, и работать перестанут..

(в RIP сейчас около 30к /32 маршрутов)

Правда у меня не микротик

Posted

Я бы попробовал поставить между Микротиком и локалкой Линукс-сервер и перевесить на него все обязанности Микротика, кроме PCQ.

А также фильтрацию и учёт необычного трафика из локалки на Микротик.

 

Рекомендуемые сетевые карты - Intel EXPI9301CT на чипе 82574L.

Posted

Обновление микротика до 5.25 вроде как помогло. 8 дней без сбоев работает.

Posted

Было подобное. Начал перегружаться сервак с микротиком, последний серьезный аптайм которого был около 400 дней. Перегружался раз в час-два. обновление софта не помогло, откатил до прежней версии. Поменял железо на точно такое же - попустило, перегружаться перестало. Проработало полгода. В какой-то момент вернул все как было изначально на прежнее железо - работает уже третий месяц.

барабашка....

Posted (edited)

плохой контакт/кондёры/память/отвал пайки

 

исключено. проверяли на 2х разных системниках. Один был только из магазина и на нём крутился убунта сервер.

Так же думали, что флешка умирает. Ставили микротик на HDD хороший, тоже новый. Всё равно.

 

Обновление, в котором по логам было исправлено то, чего мы не используем, исправило ситуацию.

 

Вот 9 день всё хорошо. С учётом, что загрузка процессора 80-90%, ничего не висло.

Edited by AKim

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.