Timax Posted January 18, 2022 (edited) · Report post Добрый день! Прошу помочь разобраться в проблеме. Имеется CCR1009-7G-1C-1S+ в роли BRAS, на нём терминируются абоненты PPPoe, абонентов около 300. CCR1009-7G-1C-1S+ подключен к CCR1036 (бордер) через DGS-3620-28SC, маршрутизация между бордером и брасом OSPF, NAT не используется, вообщем типичная схема. Проблема такая, когда на аплинк интерфейсе CCR1009-7G-1C-1S+ трафик достигает 500 мбит/с, начинает зависать ОТТ телевидение "Смотрёшка", при этом ресурсы интернет работают нормально, другие сервисы к примеру IVI, Kinopoisk так же работают нормально, свободная ёмкость есть, тестами интерфейс спокойно нагружается до 950 мбит/с, полок по трафику на линках нет, загрузка CPU в момент проблемы не поднимается выше 30-40%, ядер которые загружены под 100% тоже нет. Рядом стоит rb1100AHx4, перекидываю абонента на него всё в порядке, OTT работает, загружаем аплинк интерфейс до 900 мбит/с, так же всё в порядке, зависаний нет. Что было сделано, меняли порты, меняли патчкорды, SFP. Прошивка на CCR1009-7G-1C-1S+ 6.45.8. Помогите пожалуйста, что можно посмотреть, куда копнуть. Спасибо. Edited January 21, 2022 by Timax Причина проблемы в другом Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
SUrov_IBM Posted January 18, 2022 · Report post Timax, здравствуйте. Посмотрите, чтобы TCP MSS соответствовал MTU (на -40 от максимального проходящего по каналу MTU) на абонентской стороне (за PPPoE). Вот пример правила, для задания значения MSS: /ip firewall mangle add chain=forward action=change-mss new-mss=clamp-to-pmtu passthrough=no tcp-flags=syn protocol=tcp out-interface=*название интерфеса* tcp-mss=1300-65535 log=no /ip firewall mangle add chain=forward action=change-mss new-mss=clamp-to-pmtu passthrough=no tcp-flags=syn protocol=tcp in-interface=*название интерфеса* tcp-mss=1300-65535 log=no On-line проверка MTU и MSS - http://www.speedguide.net:8080/ Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Timax Posted January 18, 2022 · Report post 49 минут назад, SUrov_IBM сказал: Timax, здравствуйте. Посмотрите, чтобы TCP MSS соответствовал MTU (на -40 от максимального проходящего по каналу MTU) на абонентской стороне (за PPPoE). Вот пример правила, для задания значения MSS: /ip firewall mangle add chain=forward action=change-mss new-mss=clamp-to-pmtu passthrough=no tcp-flags=syn protocol=tcp out-interface=*название интерфеса* tcp-mss=1300-65535 log=no /ip firewall mangle add chain=forward action=change-mss new-mss=clamp-to-pmtu passthrough=no tcp-flags=syn protocol=tcp in-interface=*название интерфеса* tcp-mss=1300-65535 log=no On-line проверка MTU и MSS - http://www.speedguide.net:8080/ Спасибо за ответ. Данный тест показывает MTU = 1480, MSS = 1440. Если не ошибаюсь для PPPoE это нормальные значения. На mikrotik включен change TCP mss. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
SUrov_IBM Posted January 18, 2022 · Report post Хм, просто мысли в слух – возможно, CCR1009-7G-1C-1S+ под нагрузкой не справляется с фрагментацией пакетов? Можно попробовать перед ним, на вышестоящем узле принудительно задать значения MTU = 1480 и MSS = 1440, а на нём наоборот убрать change TCP mss. Чтобы пакеты не фрагментировались при переходе с MTU = 1500 на MTU = 1480 непосредственно на CCR1009. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
DeLL Posted January 18, 2022 · Report post А что с QOS на портах? Сравните параметры на 1100 и 1009. У 1100 есть свитч-чип, а у 1009 нет, отсюда вопрос между какими портами (номера) на 1100 прокачиваете нагрузку и смотрите зависания? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Timax Posted January 18, 2022 · Report post 3 часа назад, SUrov_IBM сказал: Хм, просто мысли в слух – возможно, CCR1009-7G-1C-1S+ под нагрузкой не справляется с фрагментацией пакетов? Можно попробовать перед ним, на вышестоящем узле принудительно задать значения MTU = 1480 и MSS = 1440, а на нём наоборот убрать change TCP mss. Чтобы пакеты не фрагментировались при переходе с MTU = 1500 на MTU = 1480 непосредственно на CCR1009. Не помогло 1 час назад, DeLL сказал: А что с QOS на портах? Сравните параметры на 1100 и 1009. У 1100 есть свитч-чип, а у 1009 нет, отсюда вопрос между какими портами (номера) на 1100 прокачиваете нагрузку и смотрите зависания? Сейчас перекинули, подключили напрямую CCR1009 к CCR1036, исключив DGS-3620-28SC, проблема ушла, вот теперь думаем что не так с DGS Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
fractal Posted January 18, 2022 · Report post 47 минут назад, Timax сказал: исключив DGS-3620-28SC Видимо буфера забивают я, а может с физикой что Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Saab95 Posted January 18, 2022 · Report post В 18.01.2022 в 11:45, Timax сказал: Помогите пожалуйста, что можно посмотреть, куда копнуть. Спасибо. Сделайте на PPPoE мту = 1500. Уйдет фрагментация, обычно все роутеры, даже тплинки, такое поддерживают. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 21, 2022 · Report post В 18.01.2022 в 18:13, Timax сказал: Сейчас перекинули, подключили напрямую CCR1009 к CCR1036, исключив DGS-3620-28SC, проблема ушла, вот теперь думаем что не так с DGS линки с микротиков 1009 и 1036 в дгс у вас оба были одинаковой скорости? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Timax Posted January 21, 2022 · Report post 5 часов назад, nixx сказал: линки с микротиков 1009 и 1036 в дгс у вас оба были одинаковой скорости? Добрый день! Как оказлось проблема в том что 1036 включен в дгс на 10г линк, а 1009 включен в 1г линк. Начал гуглить нашел, что это болячка у 3620, что там с буфером. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Timax Posted January 21, 2022 · Report post 7 часов назад, nixx сказал: линки с микротиков 1009 и 1036 в дгс у вас оба были одинаковой скорости? Я так понимаю раз Вы задали такой вопрос, Вам что то известно о данной проблеме? Расскажите. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 21, 2022 · Report post В 21.01.2022 в 15:51, Timax сказал: Я так понимаю раз Вы задали такой вопрос, Вам что то известно о данной проблеме? Расскажите. ну вы сами написали то, что мне известно ) точно так же стоял DGS-3420 (они с 3620 почти одинаковы), вход 10гбит, выход 1гбит, потери пакетов начинались на 400 мбитах. путем ковыряний и исследований выяснилось, что на длинке расчет счетчик HOL Drops при пропаданиях. выключение hol prevention дало еще мегабит 200, а потом резко стало совсем плохо. лучше не выключать, а просто убрать линки с разной скоростью. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Timax Posted January 21, 2022 · Report post Сейчас поставили Eltex 3324f, потерь нет. Я думаю тему можно переименовать на DGS-3620 и дропы, перенести в другой раздел. Модераторы, поправьте пожалуйста. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 21, 2022 · Report post В 21.01.2022 в 18:47, Timax сказал: Сейчас поставили Eltex 3324f, потерь нет. у него буфер еще меньше, чем у длинка )) значит, проблема в днк длинка. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Timax Posted January 22, 2022 · Report post 11 часов назад, nixx сказал: у него буфер еще меньше, чем у длинка )) значит, проблема в днк длинка. Да, я знаю, у него всего 1.5 мб, а у длинк 2 мб))) Говорят в DGS-3630, не проблем там 4 мб буфер Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Saab95 Posted January 22, 2022 · Report post В 21.01.2022 в 12:59, Timax сказал: Начал гуглить нашел, что это болячка у 3620, что там с буфером. А писали что микротик коммутаторы только дропы дают. Хотя у нас 6 портов 1г собираются в 10Г порт без проблем, по мегабит 500-800 через каждый порт сливается, дропов вообще нет. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
SUrov_IBM Posted January 22, 2022 · Report post Timax, здравствуйте. В 21.01.2022 в 18:47, Timax сказал: Я думаю тему можно переименовать на DGS-3620 и дропы В своё время, посчастливилось мне быть обладателем DGS-3120-24SC. Ничего особенного от коммутатора не требовалось, он служил медиаконвертером для единственного Native VLAN. Простая задача, правда на канале была высокая нагрузка PPS, из-за прохождения iSCSI. На оптическом порту наблюдался постоянный рост Drop Pkts и как следствие, осень низкая производительность iSCSI. Коммутатор был практически новым (до меня, его не использовали). К сожалению, никакие танцы с бубном вокруг прошивки не помогли, Drop Pkts продолжали нарастать. Было принято решение, выкинуть его нафиг отдать в хорошие руки просто так. После этого, на форуме увидел, что это может быть связано с малым Traffic Control Threshold - Но проверить что либо, возможности уже не было, коммутатор ушёл в маленькую сеть к товарищу, где его всё устроило. С того момента, к коммутаторам D-Link, у меня окончательно сложилось какое-то отвращение очень осторожное отношение и воспринимаются они исключительно как access switches для доступа офисных компьютеров в сеть. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 · Report post В 22.01.2022 в 21:22, SUrov_IBM сказал: на форуме увидел, что это может быть связано с малым Traffic Control Threshold а вы использовали traffic control на проблемных портах? ) так-то да, может (и даже должен, если настроен на drop), но если он выключен? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
SUrov_IBM Posted January 22, 2022 · Report post Nixx, здравствуйте. В 22.01.2022 в 23:46, nixx сказал: а вы использовали traffic control на проблемных портах? ) Честно? Не знаю, специально я его не настраивал. ;) Если Traffic Control включен на DGS-3120-24SC по умолчанию, то получается использовал и зря грешу на железку. В той схеме, была абсолютно дефолтовая конфигурация, никаких дополнительных настроек не производилось, кроме IP адреса управления и VLAN растегировался, потом просто (для проверки) уже был native vlan ID 1. Там на самом деле, всё достаточно курьёзно произошло, у дружественной компании вышел из строя СХД, компания в которой я работаю, пошла на помощь и разрешила использовать дисковое пространство нашего СХД, а вот связать эту "ниточку iSCSI" по дороге, через условное место где я располагался, возложили на меня. Поэтому я и схватил первое попавшееся, что мог - DGS-3120-24SC. ;) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
NiTr0 Posted January 22, 2022 · Report post В 21.01.2022 в 17:30, nixx сказал: точно так же стоял DGS-3420 (они с 3620 почти одинаковы), вход 10гбит, выход 1гбит, потери пакетов начинались на 400 мбитах. 400 мбит даже для DGS-3100 ископаемых (где нет десяток но есть LACP) мало. у нас 3420 вполне себе 10>1G переливают с трафиком под 900 мбит и не жужжат. правда, не в некротики. мож там у вас flow control вкючен?... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Timax Posted January 23, 2022 · Report post Здравствуйте. Оказывается много людей сталкивались с такой проблемой, странно что я не нашёл подобные темы касательно DGS-3620. У нас на 3620 очень простая конфигурация, молотит только L2 трафик. Traffic Control и Flow control, всё это не используется. Штук 30 вланов, влан управления и snmp, на этом всё. Трафика не много в райне 6 гигабит и тот бежит через 10г порты. Как и говорил выше пока поставили mes3324, хотя по буферу он хуже, работает нормально. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Negator Posted January 25, 2022 · Report post Проблема у них будет только при переходе из 10г в 1г. Просто 10г линки между собой работают нормально. Включите hol prevention, будет лучше. Ну и красить трафик надо нужный. До 2-3 гигов терпимо, дальше хуже. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...