buckethead Posted February 6, 2017 Доброго времени суток! Есть непонятная ситуация с нагрузкой фабрик на сабжевой циске. Не известно, насколько она оказывает влияние на сервис, но хотелось бы разобраться в её природе. На скриншоте с Zabbix графики, на которых перечислены значения утилизации нескольких фабрик. 4 порта на картах, с которых рисуются графики фабрик, собраны в port-channel (40G). Это основной и единственный подозреваемый. Максимальная egress нагрузка всего port-channel в пике 8G. Если разделить её пропорционально между каналами фабрик, должно выходить по 10% на каждую при равной балансировке, а по факту Cisco показывает (и в CLI, и по SNMP) совершенно нереальные цифры. Например, на 3 линейной карте из 8 занято всего 2 порта, и оба в этом лаге. Нагрузка на этих портах на in/out разная, (in сильно, в три раза, выше чем out), но при этом графики ingress/egress нагрузки фабрик на этой линейной карте совпадают, как-будто бы in/out трафик на этих портах 1:1. Другой странный момент, это одновременные провалы на графиках. Иногда провалы как бы задерживаются в нижней мёртвой точке, и тогда утилизация всех фабрик соответствует актуальной утилизации интерфейсов. Отсюда можно сделать вывод, что при провалах на графиках ситуация нормальная, при возврате нагрузки -- подозрительная. Что это может быть такое, куда капнуть? c7609-s#show moduleMod Ports Card Type Model --- ----- -------------------------------------- ------------------ 1 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX 3 8 CEF720 8 port 10GE with DFC WS-X6708-10GE 5 2 Route Switch Processor 720 (Active) RSP720-3C-GE 6 8 CEF720 8 port 10GE with DFC WS-X6708-10GE 7 8 CEF720 8 port 10GE with DFC WS-X6708-10GE 8 4 CEF720 4 port 10-Gigabit Ethernet WS-X6704-10GE 9 4 CEF720 4 port 10-Gigabit Ethernet WS-X6704-10GE Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Butch3r Posted February 6, 2017 show platform hardware capacity fabric Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
buckethead Posted February 6, 2017 (edited) show platform hardware capacity fabric c7609-s#show platform hardware capacity fabric Switch Fabric Resources Bus utilization: current: 10%, peak was 17% at 21:24:05 SKH Thu Feb 2 2017 Fabric utilization: Ingress Egress Module Chanl Speed rate peak rate peak 1 0 20G 3% 9% @18:53 02Feb17 4% 13% @12:27 02Feb17 1 1 20G 0% 5% @03:08 06Feb17 2% 11% @12:40 02Feb17 3 0 20G 15% 61% @21:44 03Feb17 17% 73% @20:27 03Feb17 3 1 20G 18% 61% @21:34 02Feb17 17% 72% @20:36 02Feb17 5 0 20G 2% 4% @16:49 02Feb17 0% 5% @21:13 05Feb17 6 0 20G 30% 51% @21:32 03Feb17 42% 82% @20:05 03Feb17 6 1 20G 17% 47% @21:29 02Feb17 37% 99% @19:56 02Feb17 7 0 20G 38% 76% @21:31 03Feb17 17% 74% @21:05 02Feb17 7 1 20G 23% 86% @21:37 03Feb17 3% 13% @21:22 03Feb17 8 0 20G 5% 49% @22:12 02Feb17 18% 41% @21:27 03Feb17 8 1 20G 0% 42% @21:49 03Feb17 0% 13% @21:01 03Feb17 9 0 20G 9% 21% @22:37 04Feb17 43% 72% @20:42 02Feb17 9 1 20G 2% 4% @20:31 02Feb17 4% 14% @20:16 02Feb17 Switching mode: Module Switching mode 1 compact 3 compact 5 compact 6 compact 7 compact 8 compact 9 compact c7609-s# Статистика актуальна после 3 февраля, до этого интерфейсы были расположены иначе и с другой нагрузкой, часть которой вынесли 3 числа с 7609 из-за перегрузки одной фабрики. Edited February 6, 2017 by buckethead Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 6, 2017 show platform hardware capacity rewrite-engine performance rate | i RECI ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
buckethead Posted February 6, 2017 show platform hardware capacity rewrite-engine performance rate | i RECI ? К сожалению, такой команды нет, видимо, IOS староват: Version 12.2(33r)SRD2 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 6, 2017 а monitor session не настроено?:) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
buckethead Posted February 6, 2017 Нет, SPAN не используется, NetFlow тоже. Об этих замечательных инструментах и их воздействии на 65/76 известно на собственном опыте) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 6, 2017 может еще какие подробности? что за трафик на ПЧ? Нагрузка на этих портах на in/out разная, (in сильно, в три раза, выше чем out), но при этом графики ingress/egress нагрузки фабрик на этой линейной карте совпадают, как-будто бы in/out трафик на этих портах 1:1. конкретные цифры можете привести, что бы понять в какую сторону "перекос"? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
buckethead Posted February 6, 2017 Конечно. На ПЧ простой преимущественно unicast tcp/udp абонентский трафик к различным внешним и внутренним ресурсам. Mcast'а нет кроме, возможно, служебного. Что-то ещё более конкретное сказать тяжело, всё best effort, qos не используем, не знаю, что ещё.. Прикрепляю графики нагрузки всех четырёх интерфейсов. Можно соотносить к графикам загрузки фабрик, например, на третей линейной карте всего два порта заняты, оба из этого ПЧ и графика. А вот, для сравнения графики всех каналов третей фабрики. Трафик на двух портах in/out разный по объёму, это видно по графикам нагрузки портов, а на фабрике всё один в один, и это меня удивляет. Input утилизация совпадает и не проваливается, output -- оба канала (порты на разных каналах, разумеется) чертовщина. И так на каждой LC, где есть порты из этого LAG. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 6, 2017 а модули 3,6,7 с какими DFC? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
artplanet Posted February 6, 2017 Мы нашли способ сделать одинаковую нагрузку на всех модулях. Просто соберите портчанел из 1ых портов на каждом модуле. Но условия сборки такого портчанела - все модули одинаковые и одинаковые DFC. Тогда нагрузка будет расползаться равномерно по каждому модулю то есть 3,6,7 модули. И порты возьмите все первые и все 5ые например. Чтобы все было равномерно и красиво. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
buckethead Posted February 6, 2017 Mod Sub-Module Model Hw Status ---- --------------------------- ------------------ ------- ------- 1 Centralized Forwarding Card WS-F6700-CFC 4.1 Ok 3 Distributed Forwarding Card WS-F6700-DFC3C 1.6 Ok 5 Policy Feature Card 3 7600-PFC3C 1.2 Ok 5 C7600 MSFC4 Daughterboard 7600-MSFC4 1.4 Ok 6 Distributed Forwarding Card WS-F6700-DFC3C 1.5 Ok 7 Distributed Forwarding Card WS-F6700-DFC3C 1.0 Ok 8 Centralized Forwarding Card WS-F6700-CFC 4.1 Ok 9 Centralized Forwarding Card WS-F6700-CFC 4.1 Ok Все модули одинаковые и DFC к ним -- тоже. На разных картах LAG не собирается. Мы нашли способ сделать одинаковую нагрузку на всех модулях. Просто соберите портчанел из 1ых портов на каждом модуле. Но условия сборки такого портчанела - все модули одинаковые и одинаковые DFC. Тогда нагрузка будет расползаться равномерно по каждому модулю то есть 3,6,7 модули. И порты возьмите все первые и все 5ые например. Чтобы все было равномерно и красиво. У меня пока идея -- всё в третью линейную карту вставить, смущает меньшее redundancy, но хотя бы в качестве теста. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Butch3r Posted February 7, 2017 Все модули одинаковые и DFC к ним -- тоже. На разных картах LAG не собирается. эт ещё почему? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
buckethead Posted February 7, 2017 Все модули одинаковые и DFC к ним -- тоже. На разных картах LAG не собирается. эт ещё почему? Ну наверное потому, что одни карты CFC, другие DFC. Serious traffic problems can result if an EtherChannel forms from ports that pass data through the switch in significantly different ways. For example, ports on modules with and without DFCs, or when enabled with the no mls qos channel-consistency port-channel interface command, ports that have significantly different QoS port parameters (buffers sizes and queue types). Be prepared to disable such EtherChannels. http://www.cisco.com/c/en/us/td/docs/switches/lan/catalyst6500/ios/12-2SX/configuration/guide/book/channel.html На практике это даже не всегда собирается, появляются Port-channel X и Port-channel XA или XB. Иногда собирается, но убивает фабрику SUP'а. В общем я бы не рекомендовал такой сетап. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 7, 2017 У меня пока идея -- всё в третью линейную карту вставить, смущает меньшее redundancy, но хотя бы в качестве теста. хорошая идея, ну и стандартно - обновиться ) хотя бы что бы расширить перечень команд для диагностики. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
artplanet Posted February 7, 2017 нуну = не собираются show int Po1A Port-channel1A is up, line protocol is up (connected) Hardware is EtherChannel, address is 0025.84f1.4e6b (bia 0025.84f1.4e6b) MTU 1500 bytes, BW 40000000 Kbit, DLY 10 usec, reliability 255/255, txload 6/255, rxload 8/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 10Gb/s Transport mode LAN (10GBASE-R, 10.3125Gb/s), media type is unknown input flow-control is on, output flow-control is off Members in this channel: Te3/4 Te3/8 Te4/4 Te4/8 ARP type: ARPA, ARP Timeout 04:00:00 Last input never, output never, output hang never внимание на строчку Members in this channel: Te3/4 Te3/8 Te4/4 Te4/8 тем самым мы равномерно используем по два канала у двух модулей. System image file is "sup-bootdisk:/s72033-adventerprisek9_wan-mz.122-33.SXJ10.bin" Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
buckethead Posted February 7, 2017 И что вы этим хотите мне показать? У меня в первом посте lag, собранный на картах, расположенных в разных слотах 7609. Но это всё одни и те же карты -- WS-X6708-DFC3C. тем самым мы равномерно используем по два канала у двух модулей. Мы тоже не собираем lag на подряд идущих портах и о расположении каналов на картах осведомлены. Из 8 используются лишь 4, для карты жёстко задан no hw-module slot X oversubscription, используются лишь 1,2 и 5,6 порты. Так что дело явно не этом. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
artplanet Posted February 8, 2017 а можете показать нагрузку на каждом индивидуальном порту в тот промежуток времени - когда было: 6 1 20G 17% 47% @21:29 02Feb17 37% 99% @19:56 02Feb17 и самый главный вопрос - 100% нету monitor session или vlan filter ???? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Butch3r Posted February 8, 2017 Te3/4 Te3/8 Te4/4 Te4/8 А это разве не разные слоты? 3 и 4? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
buckethead Posted February 8, 2017 Te3/4 Te3/8 Te4/4 Te4/8 А это разве не разные слоты? 3 и 4? Если вопрос ко мне, то ещё раз внимательнее читаем, что я написал -- на разных картах, а не слотах. Речь о моделях, а не номерах карт. а можете показать нагрузку на каждом индивидуальном порту в тот промежуток времени - когда было: 6 1 20G 17% 47% @21:29 02Feb17 37% 99% @19:56 02Feb17 На эти 99% можно не обращать внимание. Мы разнесли эту нагрузку на другое оборудование. и самый главный вопрос - 100% нету monitor session или vlan filter ???? 100% нет, я бы заметил. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Butch3r Posted February 8, 2017 Если вопрос ко мне, то ещё раз внимательнее читаем, что я написал -- на разных картах, а не слотах. Речь о моделях, а не номерах карт. всё, я понял. извиняюсь Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...