swelf Posted April 25, 2015 Posted April 25, 2015 Появилось желание уйти, хотя бы частично с линукса на нормальное железо, появилось оно пару часов назад, когда линукс в очередной раз упал. Нет копаться в нем может и интересно, настраивать, тестировать, играться, но людям сервис нужен. Сейчас, NAT, шейпер, терминация(IPoE, vlan на клиента), BGP, все в одной коробке. 2 аплинка с fv, по 500мбит, в часы пик загружены на 350-400 оба. Готов nat и шейпер оставить на линуксе, так как не сильно критично, если вдруг упадет. Нужна железка под BGP и под терминацию. В соседней теме упоминалось интересное оборудование Brocade NetIron CER-2024C-RT под BGP, думаю неплохой вариант, с большим запасом. На терминацию можно рассмотреть c4849 c 10G портами. Есть ли на ней ip unnumbered? Есть ли фильтрация по вланам при сливе в SPAN порт? Все оборудование б/у. т.к. бюджет сильно ограничен. Может есть какие еще варианты? Вставить ник Quote
taf_321 Posted April 26, 2015 Posted April 26, 2015 В вашем случае проблема не в линуксе, а дизайне. И в авторе этого дизайна. В первом приближении у вас проблемы решатся разнесением пограничного маршрутизатора и BRAS-а в отдельные устройства. Вдруг неожиданно выяснится, что BRAS-ов может быть больше одного, и они вдруг могут без проблем друг друга резервировать. Вставить ник Quote
YuryD Posted April 26, 2015 Posted April 26, 2015 В соседней теме упоминалось интересное оборудование Brocade NetIron CER-2024C-RT под BGP, думаю неплохой вариант, с большим запасом. Порты 1Г, но их 24. оставшиеся от аплинков использую как обычный коммутатор с vlan или для подключения серверов тмс. Зеркалить с него не пробовал, хотя думаю что заработает. и еще он отлично пережевал различные sfp, одноглазые и двуглазые. Вставить ник Quote
Умник Posted April 26, 2015 Posted April 26, 2015 Интересно, почему это разнесение пограничного маршрутизатора и BRAS-а в отдельные устройства должно сразу решить проблему "падения линукса"? Вставить ник Quote
sol Posted April 26, 2015 Posted April 26, 2015 появилось оно пару часов назад, когда линукс в очередной раз упал. Что значит "упал" ? Вставить ник Quote
dignity Posted April 26, 2015 Posted April 26, 2015 Интересно, почему это разнесение taf_321 (Сегодня, 06:04) писал: пограничного маршрутизатора и BRAS-а в отдельные устройства должно сразу решить проблему "падения линукса"? Тут как бы между строк... Вдруг неожиданно выяснится, что BRAS-ов может быть больше одного, и они вдруг могут без проблем друг друга резервировать. Вставить ник Quote
swelf Posted April 26, 2015 Author Posted April 26, 2015 (edited) В принципе их и сейчас 2, и как бы резервировали некоторое время друг друга. Нагрузку они держат не напрягаясь, но есть некоторые ньюансы, например: 1)Недавно прилетело на клиента 100kpps мелких udp на порт 68, типа dhcp, с абсолютно разных адресов, что привело в ступор линукс, проблема была именно с количество соединения, а не количестве пакетов. Больше 1 миллиона conntrack соединений в таблице. Что привело машину в ступор, пока я на свиче, в который приходят аплинки не нарисовал acl блокирующий этот трафик, тут резервирование не поможет, а железный роутрер я так понял, без проблем бы с этим справился. Что значит "упал"? Удаленно ни на что не реагировал, человек, который перегрузил его по питанию, не сфотографировал экран, и не посмотрел, что там происходит, в логах ничего нету. Очевидно kernel panic по какой-то причине(ядро 3.19.5 самосбор). Вобщем не спорю, что линукс за меньшие деньги может предложить, тоже, что и железные решения, но кто будет терпеть эксперименты? Edited April 26, 2015 by swelf Вставить ник Quote
sol Posted April 26, 2015 Posted April 26, 2015 , а железный роутрер я так понял, без проблем бы с этим справился. Дело в том, что железный роутер не такой уж и железный. Есть просто чисто софтовые решения, которые выглядят как "железный роутер". Пример - мелкие кошки типа 2811. Там ВСЁ делается процессором. Те железки, которые "типа железные" , например, классический 6500, также не всё делают железом. В них существует разделение на Data Plane (то, что перекладывает трафик из порта в порт "брутто") и Control Plane, которое отрабатывает все сетевые протоколы и говорит дата плану, как именно перекладывать пакеты. И это, как правило, совсем небольшой процессор масштаба PowerPC 300-700 мГц. В таких железных роутерах бывают другие "нюансы". Если по какой-то причине трафик лезет у контрол план, то всё умирает в 100 раз быстрее, чем на линуксе. )Недавно прилетело на клиента 100kpps мелких udp на порт 68, типа dhcp, с абсолютно разных адресов, что привело в ступор линукс, проблема была именно с количество соединения, а не количестве пакетов. Больше 1 миллиона conntrack соединений в таблице. Ну так не трекайте ненужные соединения. Оставьте этот трафик клиенту. Вставить ник Quote
NiTr0 Posted April 26, 2015 Posted April 26, 2015 Очевидно kernel panic по какой-то причине(ядро 3.19.5 самосбор). kernel.panic = 5 к примеру на ответственных серверах - не? :) Вставить ник Quote
Negator Posted April 26, 2015 Posted April 26, 2015 А по мне это проблема дизайна сети. Разделяйте задачи по разным железкам, думайте о резервировании. L2 по хорошему надо терминировать на отдельных железках. А вы туда и L2 и NAT и бордер и DHCP сервер судя по всему. А если кольцо в сети будет в каком либо сегменте? Или еще что типа описанного вами? У вас упадет все. Это неправильно. И железка тут не поможет. Вставить ник Quote
swelf Posted April 26, 2015 Author Posted April 26, 2015 А чем собственно поможет разделение по функциям? По производительности сейчас с запасом всего хватает, и резервирование сделаем на днях. Ну упал бы бордер у нас, работало бы все остальное, толку только ноль. Если это физ лица, то пофиг, потерпят и часок, но не хочется портить отношения с клиентами, которые платят больше чем 500р денег за интернет, из-за 5 минутных простоев, пока наш роутер перезагружается. kernel.panic = 5 к примеру на ответственных серверах - не? :) да это первый раз за несколько лет, все работало как часы, никто не ждал подставы, ядро правда обновили. Да и про панику я просто гадаю, но судя по тому, что в логах ни одной записи за полтора часа нету, там все подсистемы умерли, а не только сеть. Ну так не трекайте ненужные соединения. Оставьте этот трафик клиенту. ну как вариант, можно не трекать все реальные клиентские адреса. А если кольцо в сети будет в каком либо сегменте? а это тут вобще каким боком? В таких железных роутерах бывают другие "нюансы". вот потому тут и спрашиваю, есть ли смысл?) И железо побюджетней взять. Вставить ник Quote
GrandPr1de Posted April 26, 2015 Posted April 26, 2015 ну бжп можно и на л3 свич унести - а так по факту, очень дурной тон мешать всё в одном котле. если нат, шейп - в одной железке ещё более менее, то добавлять ещё и бжп - как-то не правильно. Вставить ник Quote
YuryD Posted April 26, 2015 Posted April 26, 2015 ну бжп можно и на л3 свич унести - а так по факту, очень дурной тон мешать всё в одном котле. если нат, шейп - в одной железке ещё более менее, то добавлять ещё и бжп - как-то не правильно. iBGP вполне себе у меня живёт между nas различного типа (cisco, mpd, accel-pptp c шейперами) и nat-сервером. Вставить ник Quote
dignity Posted April 26, 2015 Posted April 26, 2015 ssd boot device + ipmi watchdog и пусть себе перезагружается раз в год. У вас же все равно есть sla, который вы должны выполнять. Пока нет этому помех, проблем никаких. Ну ппоставьте резервирование для меньшего downtime. Вставить ник Quote
vop Posted April 26, 2015 Posted April 26, 2015 появилось оно пару часов назад, когда линукс в очередной раз упал. Что значит "упал" ? Тоже не слышал, что бы линукс вот так "падал" просто так. Вставить ник Quote
kayot Posted April 26, 2015 Posted April 26, 2015 Ну так не трекайте ненужные соединения. Оставьте этот трафик клиенту. ну как вариант, можно не трекать все реальные клиентские адреса. Это не "как вариант", а обязательный тюнинг. Сеть померла из-за забивания контрака, сами себе злые буратины. Вставить ник Quote
swelf Posted April 26, 2015 Author Posted April 26, 2015 У вас же все равно есть sla, который вы должны выполнять Мало с кем он есть, и даже не с самыми крупными клиентами, но уйти может же кто угодно, sla не sla. Тоже не слышал, что бы линукс вот так "падал" просто так. Это бывает редко, но метко, и всегда неприятно, особенно когда воспроизвести не можешь. вообщем, я же говорю, не спорю, что можно все настроить, но может лучше немного больше потратить, а потом уже с линуксом играться, тюнинговать. Вставить ник Quote
GrandPr1de Posted April 26, 2015 Posted April 26, 2015 имхо - с кем b2b - тех в софт роутеры не включают. на них и шейпер обычно не включают, для меня обычная практика на скорости порта - т.е. 10\100\1000, а физики могут и потерпеть. а собрать самовар, который должен ещё гладить и стирать, ну тут уже простите :) а коль самовар собран - нужно тогда резерв к нему, и это мусолится всю тему. По вашему начальному сообщению - берите брокаду для бжп и да в 4948 есть аннамберед. Вставить ник Quote
swelf Posted April 26, 2015 Author Posted April 26, 2015 а собрать самовар, который должен ещё гладить и стирать, ну тут уже простите :) проблема то не в этом, самовар справляется, если я разнесу все по разным машинам, то изначальная проблема нестабильности не уйдет. Так что будем думать по поводу покупки оборудования. Вставить ник Quote
GrandPr1de Posted April 26, 2015 Posted April 26, 2015 изначальная проблема - отсутствие резерва. уносите оттуда бжп, ставите рядом ещё одну такую железку + вррп(как вариант) или что угодно для резезвирования, максимум сбросятся нат трансляции. Вставить ник Quote
HackerDeath Posted April 26, 2015 Posted April 26, 2015 (edited) Обычно это решение redback se100 или подороже asr1002 нынче. В целом у нас se100 справлялся с ап 2х1гб бгп . Терминация pppoe, потом ipoe без проблем. Edited April 26, 2015 by HackerDeath Вставить ник Quote
taf_321 Posted April 27, 2015 Posted April 27, 2015 должно сразу решить проблему "падения линукса"? Такое дело, у большинства из здесь присуствующих линуксы работают месяцами-годами, с перерывами на плановые профилактики. Если линуксы "вдруг" начинают падать, то надо посмотреть что делала с ним прокладка между креслом и клавиатурой. В 99% случаев дело будет именно в ней. Оставшийся 1% делят между собой аппаратные сбои и глюки софта. Замена софтроутера на железку проблемы не решит, просто сменятся жалобы с "падает линукс" на "падает железка". Очевидно kernel panic по какой-то причине(ядро 3.19.5 самосбор). Вобщем не спорю, что линукс за меньшие деньги может предложить, тоже, что и железные решения, но кто будет терпеть эксперименты? Вам не кажется, что тут есть некоторый диссонанс? Ненужность экспериментов при наличии самосборного ведра не из стабильных? Вставить ник Quote
nuclearcat Posted April 27, 2015 Posted April 27, 2015 IMHO первая причина - при таких обьемах слишком много навешано на один тазик. Автор правильно написал - надо частично уходить на железо, другой вопрос, что уход на железо и прием fv вылетит в копеечку. Вставить ник Quote
Diman_xxxx Posted April 27, 2015 Posted April 27, 2015 Очевидно kernel panic по какой-то причине(ядро 3.19.5 самосбор). Вобщем не спорю, что линукс за меньшие деньги может предложить, тоже, что и железные решения, но кто будет терпеть эксперименты? Вам не кажется, что ЭКСперименты начнутся при переходе с linux на железо ? Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.