AKim Posted July 21, 2013 Posted July 21, 2013 Здравствуйте! Прошу помочь разобраться в сложившейся ситуациии, ибо идеи уже кончились. В общем имеется сеть на 700 человек, постоянный онлайн 300-400 человек, канал 200 мбит (40-48 kp/ps в пике) в обе стороны. Используется шейпер pcq без QoS (4,8,12,16М), DHCP, RIP (маленькая часть сети) и простая маршрутизация. Всё это крутилось на микротике 5.24 (лицензия) и стареньком сокете 945 с процессором Intel 2,8 Ггц (Hyper-threading). Месяца два назад микротик начал зависать намертво. Переодичности нет никакой. Может отработать две недели, а может зависнуть через 2 часа. Загрузка процессора в час пик держалась на уровне 50-60%. Решили обновить сервер на более мощный. Собрали систему на AM3+, AMD FX100 процессор, 2Гб оперативной памяти, сетевая плата встроенная RTL8111/8168B, но ничего не изменилось. Микротик так же виснет, нагрузка лежит только на 1 ядре из 6 (60-70%), остальные не грузятся вообще. В логах после зависания нет ничего. Для того чтобы были задействаны остальные ядра, как я понял, нужно поставить другую сетевую карту. Что-то вроде этого: Intel_E1G42ET_Gigabit_Adapter_Dual_PCIE_x4_1000Mbps. А вот с чем связаны зависания, мне выяснить не удалось. Я перепробовал всё: сбрасывал микротик, настраивал всё заново, пробовал использовать ломаный микротик и т.д Подскажите кто чем может =) Вставить ник Quote
Saab95 Posted July 21, 2013 Posted July 21, 2013 Вам нужно искать проблему в сети на участке между микротиком и клиентами, возможно где-то коммутатор флудит, может в оптике или витухе плохой контакт и т.п. Вставить ник Quote
AKim Posted July 21, 2013 Author Posted July 21, 2013 (edited) Вам нужно искать проблему в сети на участке между микротиком и клиентами, возможно где-то коммутатор флудит, может в оптике или витухе плохой контакт и т.п. перед микротико стоит Dlink DGS-3612G в который заходит DGS-3120-24SC (собирает многоэтажные дома), DES-3828 (собирает близлежащие маленькие дома по витой паре), Edge-Core 4612 2 штуки (кольцо, RIP), DGS-3120-24SC (собирает частный сектор). Есть подозрение на DES-3828, он часто ребутится даже с включенным Safeguard Engine. Остальная часть с настроенным ACL. Ещё бывает в DHCP появляется по 4 ip с одинаковым маком, которые пытаются получить ip адрес с разных DHCP одновременно. Как такое отловить не знаю. MAC не знакомый, его нет в базе микротика и ARP свичей. А загрузка процессора из-за чего? Однопотоковой сетевой? Edited July 21, 2013 by AKim Вставить ник Quote
Saab95 Posted July 21, 2013 Posted July 21, 2013 Железо тут не при чем, с вашей нагрузкой и 1 ядра достаточно с любой гигабитной сетевухой за 300р. Ищите проблему в сети, например глючные порты на коммутаторах, глючные абонентские роутеры. Естественно нужно проверить и коммутаторы на предмет не правильно настроенных вланов, бывает по ошибке один и тот же влан на 2 интерфейса пропишут, и получается 1 порт верный, а второй сразу в 2 влана заворачивается. Вставить ник Quote
Liner's Posted July 22, 2013 Posted July 22, 2013 сомневаюсь про любую гигабитную сетевуху, по ппс занётся сетевая, я бы начал с сетевых интела их можно и по 1500р. найти, 2 штуки, каждая содним портом гиг и вперёд Вставить ник Quote
Ivan_83 Posted July 22, 2013 Posted July 22, 2013 Вероятно, вы переросли микротырк. Вставить ник Quote
AKim Posted July 22, 2013 Author Posted July 22, 2013 Железо тут не при чем, с вашей нагрузкой и 1 ядра достаточно с любой гигабитной сетевухой за 300р. Ищите проблему в сети, например глючные порты на коммутаторах, глючные абонентские роутеры. Естественно нужно проверить и коммутаторы на предмет не правильно настроенных вланов, бывает по ошибке один и тот же влан на 2 интерфейса пропишут, и получается 1 порт верный, а второй сразу в 2 влана заворачивается. Вланы проверил. Ошибок нет. Буду влан разгребать из 240 человек, раскинутый по городу, а там видно станет. Одноядерный процессор справится, если брать в расчёт, что будет загружен постоянно до 60-70%. У нас расширение на днях до 300 мбит, каждый день растёт абон. база и т.д. Если ставить 6 ядерный процессор, то с запасом, а не как на картинке. А это ведь всего 200 мегабит и немножко правил в фаерволе с простой маршрутизацией. Вероятно, вы переросли микротырк. Я пока что в него верю. Вставить ник Quote
Liner's Posted July 23, 2013 Posted July 23, 2013 если 60-70% я бы искал уже расширение пара клиентов с атакой положат сервак Вставить ник Quote
telecom Posted July 23, 2013 Posted July 23, 2013 Была похожая проблема, точь в точь)))) Железо тут не при чем, с вашей нагрузкой и 1 ядра достаточно с любой гигабитной сетевухой за 300р. Согласен полностью. Мы что только не делали с железом, ставили дорогущие Интеловые сервера, ничего не помогало. Ищите проблему в сети, например глючные порты на коммутаторах, глючные абонентские роутеры. Можно конечно, и по этому пути пойти, но клиенты разбегутся, пока вы будете очередной глюк в сети отлавливать (а они будут неизбежно). А можно пойти по нашему пути, заменили Микротик на CentOS, настроили все и уже два года молотит без проблем на том же железе! Вероятно, вы переросли микротырк. Согласен полностью. Есть у него какой-то невидимый предел, после которого все его плюшки становятся ничтожными по сравнению с непонятными и ничем не обоснованными глюками. Вставить ник Quote
BETEPAH Posted July 23, 2013 Posted July 23, 2013 Ставьте нормальную сетевуху, например на 82576, потом ручками прерывания. Должна получиться вот такая картина: Вставить ник Quote
nobody4097 Posted July 23, 2013 Posted July 23, 2013 (edited) - сменить сетевуху - отключить всякую херню в биос - гипер трединг, всякую неведомую хрень с питанием и прочие неведомые плюшки - защитить от ддос и прочего тлетворного влияния Запада ) - не юзать RIP (потому что RIP - это "покойся с миром" http://ru.wikipedia.org/wiki/Requiescat_in_pace) - не юзать ssh (но в каких-то сборках работает) - не юзать graphing - не юзать опенВПН либо (как правильно подсказывают из зала) - не юзать микротик на таких задачах и объемах :) P.S. Хотя сам исторически юзаю в разных местах и с бОльшей нагрузкой. По ядрам нормально размазывается нагрузка. Но таки да - некторые машины ребутятся иногда (не часто) и не все. А, например, разные роутерборды не ребутяться - но и нагрузка у них гораздо меньше. Пока не разбирался с ребутами на писюках - ибо редко (например может работать полгода, а потом крякнуться, а может 2 раза за месяц) то ли конкретные сборки 5.x бажные, толи с конкретным железом "несовместимость" то ли просто микротик такой микротик ) Надеюсь на чудо (имею право)- вдруг 6 тик они за год доведут до ума и он будет стабильно пахать на свежем железе. Edited July 23, 2013 by nobody4097 Вставить ник Quote
AKim Posted July 23, 2013 Author Posted July 23, 2013 сменить сетевуху Это уже понял. Сменю в ближайшее время. не юзать RIP Попробую. - не юзать ssh (но в каких-то сборках работает) - не юзать graphing - не юзать опенВПН Ничего из этого не используется. Еще дело в том, что в сети не заблокирована виндовая шара и не используется изоляция портов. Все клиенты в пределах влана видят друг друга. Наверно стоит прикрыть это. Вчера поставил микротик 5.25. Пока что не зависал. Если проработает больше 2 недель, то уже какое то улучшение. Вставить ник Quote
srg555 Posted July 23, 2013 Posted July 23, 2013 - не юзать RIP (потому что RIP - это "покойся с миром" http://ru.wikipedia....uiescat_in_pace) И как это влияет на наличие проблем, описанных топикстартером? Вставить ник Quote
nobody4097 Posted July 23, 2013 Posted July 23, 2013 У меня есть основания думать, что RIP падает например года три назад (на 5.x RC) анонсил на бордер с брасов /32 роуты - под тыщу штук часто падало - перешел на iBGP - перестало падать. Может дело было в релиз кандидате, но выбора не было - ибо 4-й Тик не заводился на том железе.... Да и просто RIP - де факто - устаревший протокол, не расчитанный на большие нагрузки. Хотя вижу в Тике еще и RIP-ng (new generation ?) - но не разбирался - что за оно... Вставить ник Quote
nobody4097 Posted July 23, 2013 Posted July 23, 2013 (edited) Еще дело в том, что в сети не заблокирована виндовая шара и не используется изоляция портов. Все клиенты в пределах влана видят друг друга. Наверно стоит прикрыть это. Т.е. на сервер с микротиком сыпится весь L2 мусор с сети? Я хз, может это и пофиг - но предпочитаю между юзерами и "программным брасом" - умный L3 свич ставить - разруливать L2 и VLANы, причесать трафик и прочие фишки заюзать - ведь именно для этого свичи и нужны. Т.е. L3 Connected так сказать ) Причесать - это значит подробить на более мелкие вланы (уменьшить широковещательные домены), арп инспекшн, фильтры на теже виндовые шары, шторм контрол, dhcp снупинг, луп детект и тд. и т.п. Edited July 23, 2013 by nobody4097 Вставить ник Quote
AKim Posted July 23, 2013 Author Posted July 23, 2013 Т.е. на сервер с микротиком сыпится весь L2 мусор с сети? Я хз, может это и пофиг - но предпочитаю между юзерами и "программным брасом" - умный L3 свич ставить - разруливать L2 и VLANы, причесать трафик и прочие фишки заюзать - ведь именно для этого свичи и нужны. Т.е. L3 Connected так сказать ) Причесать - это значит подробить на более мелкие вланы (уменьшить широковещательные домены), арп инспекшн, фильтры на теже виндовые шары, шторм контрол, dhcp снупинг, луп детект и тд. и т.п. Свичи доступа собираются свичами D-Link DGS-3120-24SC, а дальше они идут на D-Link DGS-3612G (L3). Но так как острой необходимости в маршрутах на L3 не было, то L3 используется как L2 и стоит на всякий случай. Локалкой пользуеются единицы, трафик максимум 50 мбит вечером в течении пары часов. Поэтому вопрос о нагрузке тика локалкой не стоял. На свичах доступа настроен Storm Control (Broadcast + Multicast), но шторма не было не разу. DHCP Server Screening, Loopback Detection, management отдельный. Вланы нарезаны на /24 в каждом от 30 до 150 человек. Есть один не красивый VLAN 1, в котором 240 человек. Его в ближайшее время разберу. У меня есть основания думать, что RIP падает например года три назад (на 5.x RC) анонсил на бордер с брасов /32 роуты - под тыщу штук часто падало - перешел на iBGP - перестало падать. Может дело было в релиз кандидате, но выбора не было - ибо 4-й Тик не заводился на том железе.... Работа всей сети начиналась с 4x узлов агрегации в кольце с RIP + DHCP Relay. Сейчас осталось 3 маленьких узла на которых в общей сложности человек 100. Руки не доходят всё перестроить. Так вот, за почти 2 года проблем с RIPom не было никаких. Были только с релеем, но ничего не висло. Тем более что роутов там не под 1000, а всего 22. Вставить ник Quote
nobody4097 Posted July 24, 2013 Posted July 24, 2013 ну тогда все ок - остается только микротик сменить ) Вставить ник Quote
martin74 Posted July 24, 2013 Posted July 24, 2013 вы про RIP только моим брасам не говорите... А то они узнают, что на большие нагрузки не рассчитаны, и работать перестанут.. (в RIP сейчас около 30к /32 маршрутов) Правда у меня не микротик Вставить ник Quote
nobody4097 Posted July 24, 2013 Posted July 24, 2013 я рад, что у вас RIP работает. Я просто как версию человеку предложил - проверить. Ведь есть разные реализации этого протокола. Вставить ник Quote
Ilya Evseev Posted July 29, 2013 Posted July 29, 2013 Я бы попробовал поставить между Микротиком и локалкой Линукс-сервер и перевесить на него все обязанности Микротика, кроме PCQ. А также фильтрацию и учёт необычного трафика из локалки на Микротик. Рекомендуемые сетевые карты - Intel EXPI9301CT на чипе 82574L. Вставить ник Quote
AKim Posted August 2, 2013 Author Posted August 2, 2013 Обновление микротика до 5.25 вроде как помогло. 8 дней без сбоев работает. Вставить ник Quote
rsst Posted August 2, 2013 Posted August 2, 2013 Было подобное. Начал перегружаться сервак с микротиком, последний серьезный аптайм которого был около 400 дней. Перегружался раз в час-два. обновление софта не помогло, откатил до прежней версии. Поменял железо на точно такое же - попустило, перегружаться перестало. Проработало полгода. В какой-то момент вернул все как было изначально на прежнее железо - работает уже третий месяц. барабашка.... Вставить ник Quote
Ivan_83 Posted August 2, 2013 Posted August 2, 2013 плохой контакт/кондёры/память/отвал пайки Вставить ник Quote
AKim Posted August 3, 2013 Author Posted August 3, 2013 (edited) плохой контакт/кондёры/память/отвал пайки исключено. проверяли на 2х разных системниках. Один был только из магазина и на нём крутился убунта сервер. Так же думали, что флешка умирает. Ставили микротик на HDD хороший, тоже новый. Всё равно. Обновление, в котором по логам было исправлено то, чего мы не используем, исправило ситуацию. Вот 9 день всё хорошо. С учётом, что загрузка процессора 80-90%, ничего не висло. Edited August 3, 2013 by AKim Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.