Sergey R. Posted December 29, 2014 Добрый день! Имеется маршрутизатор ASR1002-X. Терминирует порядка ~10К pppoe абонентов. Подключен 3мя линками по 10G, собранными в Port-channel. При достижении трафика ~11-12G на графике вырисовывается явный потолок. Начинаются задержки и потери. На всех трёх портах растёт счётчик ошибок overrun. При этом памяти свободной много, процессор занят всего на 6-10%. Все три линка загружены равномерно, 3-4G каждый. Не могу понять, откуда берётся этот затык. Лицензия на 36G. Может кто-то сталкивался с подобной проблемой? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted December 29, 2014 netflow снимаете? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
i.dimitriev Posted December 29, 2014 а свежей прошивочкой для него не поделитесь? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Sergey R. Posted December 29, 2014 да, netflow используется Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
uxcr Posted December 29, 2014 А по графикам трафик по интерфейсам раскладывается равномерно? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Sergey R. Posted December 29, 2014 да, равномерно. каждый загружен на ~3-4G Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
uxcr Posted December 29, 2014 sh lacp neighbor detail Ну и с другой стороны скиньте состояние агрегированного линка. Если h3c/hp/huawei - убедиться что на портах нет bpdu-drop any. В общем сильно похоже что линк не собрался Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Butch3r Posted December 29, 2014 для теста уберите одну десятку - сделайте 20г Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
atdp03 Posted December 29, 2014 (edited) sh lacp neighbor detail Ну и с другой стороны скиньте состояние агрегированного линка. Если h3c/hp/huawei - убедиться что на портах нет bpdu-drop any. В общем сильно похоже что линк не собрался ТС стукнулся в лимит соощений на форуме. На ASR: sh lacp neighbor detail Flags: S - Device is requesting Slow LACPDUs F - Device is requesting Fast LACPDUs A - Device is in Active mode P - Device is in Passive mode Channel group 1 neighbors Partner's information: Partner Partner Partner Port System ID Port Number Age Flags Te0/3/0 32768,f866.f2d2.f280 0x903 23s SA LACP Partner Partner Partner Port Priority Oper Key Port State 32768 0x38 0x3D Port State Flags Decode: Activity: Timeout: Aggregation: Synchronization: Active Long Yes Yes Collecting: Distributing: Defaulted: Expired: Yes Yes No No Partner Partner Partner Port System ID Port Number Age Flags Te0/2/0 32768,f866.f2d2.f280 0x902 24s SA LACP Partner Partner Partner Port Priority Oper Key Port State 32768 0x38 0x3D Port State Flags Decode: Activity: Timeout: Aggregation: Synchronization: Active Long Yes Yes Collecting: Distributing: Defaulted: Expired: Yes Yes No No Partner Partner Partner Port System ID Port Number Age Flags Te0/1/0 32768,f866.f2d2.f280 0x906 4s SA LACP Partner Partner Partner Port Priority Oper Key Port State 32768 0x38 0x3D Port State Flags Decode: Activity: Timeout: Aggregation: Synchronization: Active Long Yes Yes Collecting: Distributing: Defaulted: Expired: Yes Yes No No С другой стороны (7609, RSP720-3CXL-10GE, WS-X6708-10GE): Channel group 56 neighbors Partner's information: Partner Partner Partner Port System ID Port Number Age Flags Te9/1 32768,6412.25d2.cc00 0x81 10s SA LACP Partner Partner Partner Port Priority Oper Key Port State 32768 0x1 0x3D Port State Flags Decode: Activity: Timeout: Aggregation: Synchronization: Active Long Yes Yes Collecting: Distributing: Defaulted: Expired: Yes Yes No No Partner Partner Partner Port System ID Port Number Age Flags Te9/2 32768,6412.25d2.cc00 0xC1 3s SA LACP Partner Partner Partner Port Priority Oper Key Port State 32768 0x1 0x3D Port State Flags Decode: Activity: Timeout: Aggregation: Synchronization: Active Long Yes Yes Collecting: Distributing: Defaulted: Expired: Yes Yes No No Partner Partner Partner Port System ID Port Number Age Flags Te9/5 32768,6412.25d2.cc00 0x41 14s SA LACP Partner Partner Partner Port Priority Oper Key Port State 32768 0x1 0x3D Port State Flags Decode: Activity: Timeout: Aggregation: Synchronization: Active Long Yes Yes Collecting: Distributing: Defaulted: Expired: Yes Yes No No #sh hw-module slot 9 oversubscription module 9 oversubscription-mode: disabled #sh hw-module slot 9 port-group-mapping port-group ports 1 1, 4, 2 2, 3, 3 5, 7, 4 6, 8, Работает 3 линка с ASR по одному линку на группу, плюс тестовый линк на сервак в 4й группе, с ~1Г мультикаста на вход, и до 3Г юникаста на выход. Полка наблюдалась и без него. для теста уберите одну десятку - сделайте 20г Один из линков из lacp выдёргивать пытались, эффект стабильный. Edited December 29, 2014 by atdp03 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alks Posted December 29, 2014 покажите show platform hardware capacity fabric на 7609 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
atdp03 Posted December 29, 2014 #show platform hardware capacity fabric Switch Fabric Resources Bus utilization: current: 11%, peak was 20% at 20:04:33 Moscow Fri Dec 26 2014 Fabric utilization: Ingress Egress Module Chanl Speed rate peak rate peak 1 0 20G 14% 34% @23:18 28Dec14 13% 35% @20:04 26Dec14 1 1 20G 13% 38% @21:32 28Dec14 15% 39% @19:47 28Dec14 2 0 20G 13% 26% @17:53 25Dec14 9% 31% @20:04 26Dec14 2 1 20G 7% 39% @22:38 26Dec14 10% 33% @20:04 26Dec14 3 0 20G 26% 42% @23:18 24Dec14 7% 28% @20:04 26Dec14 3 1 20G 17% 45% @22:41 26Dec14 16% 48% @19:52 26Dec14 5 0 20G 22% 49% @21:17 28Dec14 33% 66% @20:06 28Dec14 5 1 20G 0% 4% @23:01 28Dec14 0% 4% @23:01 28Dec14 7 0 20G 15% 38% @20:18 28Dec14 33% 66% @23:03 27Dec14 7 1 20G 20% 47% @21:27 28Dec14 45% 90% @21:45 28Dec14 8 0 20G 4% 9% @22:04 28Dec14 7% 36% @20:04 26Dec14 8 1 20G 10% 16% @21:17 28Dec14 5% 18% @23:47 26Dec14 9 0 20G 22% 79% @21:03 27Dec14 21% 52% @21:03 27Dec14 9 1 20G 23% 90% @00:17 27Dec14 22% 65% @21:43 27Dec14 Switching mode: Module Switching mode 1 compact 2 compact 3 compact 5 compact 7 compact 8 compact 9 compact При этом тот самый тестовый сервак во время проблем с ASR никаких задержек и потерь не испытывал. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
uxcr Posted December 29, 2014 Это смотрели? http://www.cisco.com/c/en/us/support/docs/routers/asr-1000-series-aggregation-services-routers/110531-asr-packet-drop.html Ну и что-нибудь страшное в любимом sh ip traffic ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted December 29, 2014 уберите временно нетфлоу. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alks Posted December 29, 2014 7 модуль что за лайн карта стоит? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
atdp03 Posted December 29, 2014 Это смотрели? http://www.cisco.com...acket-drop.html Не вижу там аномальных дропов. Основная масса - qos, на пару порядков ниже - acl, null0, остальное ещё на порядок-два ниже. Ну и что-нибудь страшное в любимом sh ip traffic Тоже не вижу криминала. Но сенькс, будем вдумчиво туда смотреть в момент повторения проблемы. уберите временно нетфлоу. Будем, когда снова наступим на грабли. 7 модуль что за лайн карта стоит? WS-X6716-10GE В ней занято 8 портов, с учётом oversubcsription. Но asr не там. Но появилась мысль попробовать убрать множественное хождение трафика по шине, ибо в 7-м модуле есть пара линков сверху, суммарно гиг на 10, уходящие в т.ч. на ASR, плюс линки вниз, на аггрегацию, в т.ч. с ASR. Есть мысль попробовать размазать нагрузку ровнее, вынеся часть как аплинков так и даунлинков в 9-й, и уведя оттуда в 7й часть линков на ASR. Хотя бы часть лишнего трафика с фабрики должна уйти. Хотя по графикам, несмотря на вышеуказанные 90% пиковой загрузки фабричных каналов как 7го так и 9го модулей, нет настолько ровной полки на фабрике как полка трафика на port-channel ASR. И да - ТС забыл указать что там всё-в-одном. PPPoE, netflow, полисинг. Ната нет. Точнее на virtual-template и внешнем интерфейсах конфиг есть, но юзеры работают исключительно на реальниках. Конфиг тоже снесём, от греха. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
uxcr Posted December 30, 2014 Кстати, pause-фреймы никто не шлёт? flowcontrol отключен на 7600? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
atdp03 Posted December 30, 2014 Кстати, pause-фреймы никто не шлёт? flowcontrol отключен на 7600? Да. Выключили неиспользуемый nat. Задержки до самой asr упали на порядок. После праздников попробуем снова пригрузить её. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
atdp03 Posted January 27, 2015 Выключили неиспользуемый nat. Резюмирую: это было оно. Жуёт 18-20г без проблем. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
corlovito Posted January 28, 2015 nat не использовался а 18-20г тогда откуда было? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...