Jump to content
Калькуляторы

Cisco 7609 странная утилизация фабрик Загрузка выше актуальной

Доброго времени суток!

 

Есть непонятная ситуация с нагрузкой фабрик на сабжевой циске. Не известно, насколько она оказывает влияние на сервис, но хотелось бы разобраться в её природе.

На скриншоте с Zabbix графики, на которых перечислены значения утилизации нескольких фабрик. 4 порта на картах, с которых рисуются графики фабрик, собраны в port-channel (40G). Это основной и единственный подозреваемый.

Максимальная egress нагрузка всего port-channel в пике 8G. Если разделить её пропорционально между каналами фабрик, должно выходить по 10% на каждую при равной балансировке, а по факту Cisco показывает (и в CLI, и по SNMP) совершенно нереальные цифры.

Например, на 3 линейной карте из 8 занято всего 2 порта, и оба в этом лаге. Нагрузка на этих портах на in/out разная, (in сильно, в три раза, выше чем out), но при этом графики ingress/egress нагрузки фабрик на этой линейной карте совпадают, как-будто бы in/out трафик на этих портах 1:1.

Другой странный момент, это одновременные провалы на графиках. Иногда провалы как бы задерживаются в нижней мёртвой точке, и тогда утилизация всех фабрик соответствует актуальной утилизации интерфейсов. Отсюда можно сделать вывод, что при провалах на графиках ситуация нормальная, при возврате нагрузки -- подозрительная.

 

Что это может быть такое, куда капнуть?

 

c7609-s#show module

Mod Ports Card Type Model

--- ----- -------------------------------------- ------------------

1 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX

3 8 CEF720 8 port 10GE with DFC WS-X6708-10GE

5 2 Route Switch Processor 720 (Active) RSP720-3C-GE

6 8 CEF720 8 port 10GE with DFC WS-X6708-10GE

7 8 CEF720 8 port 10GE with DFC WS-X6708-10GE

8 4 CEF720 4 port 10-Gigabit Ethernet WS-X6704-10GE

9 4 CEF720 4 port 10-Gigabit Ethernet WS-X6704-10GE

post-135792-069337700 1486352244_thumb.png

Share this post


Link to post
Share on other sites

show platform hardware capacity fabric

 

c7609-s#show platform hardware capacity fabric 
Switch Fabric Resources
 Bus utilization: current: 10%, peak was 17% at 21:24:05 SKH Thu Feb 2 2017
 Fabric utilization:     Ingress                    Egress
   Module  Chanl  Speed  rate  peak                 rate  peak               
   1       0        20G    3%    9% @18:53 02Feb17    4%   13% @12:27 02Feb17
   1       1        20G    0%    5% @03:08 06Feb17    2%   11% @12:40 02Feb17
   3       0        20G   15%   61% @21:44 03Feb17   17%   73% @20:27 03Feb17
   3       1        20G   18%   61% @21:34 02Feb17   17%   72% @20:36 02Feb17
   5       0        20G    2%    4% @16:49 02Feb17    0%    5% @21:13 05Feb17
   6       0        20G   30%   51% @21:32 03Feb17   42%   82% @20:05 03Feb17
   6       1        20G   17%   47% @21:29 02Feb17   37%   99% @19:56 02Feb17
   7       0        20G   38%   76% @21:31 03Feb17   17%   74% @21:05 02Feb17
   7       1        20G   23%   86% @21:37 03Feb17    3%   13% @21:22 03Feb17
   8       0        20G    5%   49% @22:12 02Feb17   18%   41% @21:27 03Feb17
   8       1        20G    0%   42% @21:49 03Feb17    0%   13% @21:01 03Feb17
   9       0        20G    9%   21% @22:37 04Feb17   43%   72% @20:42 02Feb17
   9       1        20G    2%    4% @20:31 02Feb17    4%   14% @20:16 02Feb17
 Switching mode: Module                                        Switching mode
                 1                                                    compact
                 3                                                    compact
                 5                                                    compact
                 6                                                    compact
                 7                                                    compact
                 8                                                    compact
                 9                                                    compact
c7609-s#

 

Статистика актуальна после 3 февраля, до этого интерфейсы были расположены иначе и с другой нагрузкой, часть которой вынесли 3 числа с 7609 из-за перегрузки одной фабрики.

Edited by buckethead

Share this post


Link to post
Share on other sites

show platform hardware capacity rewrite-engine performance rate | i RECI

?

К сожалению, такой команды нет, видимо, IOS староват:

Version 12.2(33r)SRD2

Share this post


Link to post
Share on other sites

Нет, SPAN не используется, NetFlow тоже. Об этих замечательных инструментах и их воздействии на 65/76 известно на собственном опыте)

Share this post


Link to post
Share on other sites

может еще какие подробности? что за трафик на ПЧ?

Нагрузка на этих портах на in/out разная, (in сильно, в три раза, выше чем out), но при этом графики ingress/egress нагрузки фабрик на этой линейной карте совпадают, как-будто бы in/out трафик на этих портах 1:1.

конкретные цифры можете привести, что бы понять в какую сторону "перекос"?

Share this post


Link to post
Share on other sites

Конечно.

 

На ПЧ простой преимущественно unicast tcp/udp абонентский трафик к различным внешним и внутренним ресурсам. Mcast'а нет кроме, возможно, служебного. Что-то ещё более конкретное сказать тяжело, всё best effort, qos не используем, не знаю, что ещё..

 

Прикрепляю графики нагрузки всех четырёх интерфейсов. Можно соотносить к графикам загрузки фабрик, например, на третей линейной карте всего два порта заняты, оба из этого ПЧ и графика.

 

А вот, для сравнения графики всех каналов третей фабрики. Трафик на двух портах in/out разный по объёму, это видно по графикам нагрузки портов, а на фабрике всё один в один, и это меня удивляет.

 

Input утилизация совпадает и не проваливается, output -- оба канала (порты на разных каналах, разумеется) чертовщина. И так на каждой LC, где есть порты из этого LAG.

post-135792-007917500 1486366859_thumb.png

post-135792-096671800 1486367221_thumb.png

Share this post


Link to post
Share on other sites

Мы нашли способ сделать одинаковую нагрузку на всех модулях.

Просто соберите портчанел из 1ых портов на каждом модуле.

Но условия сборки такого портчанела - все модули одинаковые и одинаковые DFC. Тогда нагрузка будет расползаться равномерно по каждому модулю

то есть 3,6,7 модули. И порты возьмите все первые и все 5ые например. Чтобы все было равномерно и красиво.

Share this post


Link to post
Share on other sites

Mod  Sub-Module                  Model          Hw     Status 
---- --------------------------- ------------------  ------- -------
 1  Centralized Forwarding Card WS-F6700-CFC         4.1    Ok
 3  Distributed Forwarding Card WS-F6700-DFC3C       1.6    Ok
 5  Policy Feature Card 3       7600-PFC3C           1.2    Ok
 5  C7600 MSFC4 Daughterboard   7600-MSFC4           1.4    Ok
 6  Distributed Forwarding Card WS-F6700-DFC3C       1.5    Ok
 7  Distributed Forwarding Card WS-F6700-DFC3C       1.0    Ok
 8  Centralized Forwarding Card WS-F6700-CFC         4.1    Ok
 9  Centralized Forwarding Card WS-F6700-CFC         4.1    Ok

 

Все модули одинаковые и DFC к ним -- тоже. На разных картах LAG не собирается.

 

Мы нашли способ сделать одинаковую нагрузку на всех модулях.

Просто соберите портчанел из 1ых портов на каждом модуле.

Но условия сборки такого портчанела - все модули одинаковые и одинаковые DFC. Тогда нагрузка будет расползаться равномерно по каждому модулю

то есть 3,6,7 модули. И порты возьмите все первые и все 5ые например. Чтобы все было равномерно и красиво.

У меня пока идея -- всё в третью линейную карту вставить, смущает меньшее redundancy, но хотя бы в качестве теста.

Share this post


Link to post
Share on other sites

Все модули одинаковые и DFC к ним -- тоже. На разных картах LAG не собирается.

эт ещё почему?

Share this post


Link to post
Share on other sites

Все модули одинаковые и DFC к ним -- тоже. На разных картах LAG не собирается.

эт ещё почему?

Ну наверное потому, что одни карты CFC, другие DFC.

 

Serious traffic problems can result if an EtherChannel forms from ports that pass data through the switch in significantly different ways. For example, ports on modules with and without DFCs, or when enabled with the no mls qos channel-consistency port-channel interface command, ports that have significantly different QoS port parameters (buffers sizes and queue types). Be prepared to disable such EtherChannels.

http://www.cisco.com/c/en/us/td/docs/switches/lan/catalyst6500/ios/12-2SX/configuration/guide/book/channel.html

 

На практике это даже не всегда собирается, появляются Port-channel X и Port-channel XA или XB. Иногда собирается, но убивает фабрику SUP'а. В общем я бы не рекомендовал такой сетап.

Share this post


Link to post
Share on other sites

У меня пока идея -- всё в третью линейную карту вставить, смущает меньшее redundancy, но хотя бы в качестве теста.

 

хорошая идея,

 

ну и стандартно - обновиться ) хотя бы что бы расширить перечень команд для диагностики.

Share this post


Link to post
Share on other sites

нуну = не собираются

show int Po1A
Port-channel1A is up, line protocol is up (connected)
 Hardware is EtherChannel, address is 0025.84f1.4e6b (bia 0025.84f1.4e6b)
 MTU 1500 bytes, BW 40000000 Kbit, DLY 10 usec, 
    reliability 255/255, txload 6/255, rxload 8/255
 Encapsulation ARPA, loopback not set
 Keepalive set (10 sec)
 Full-duplex, 10Gb/s
 Transport mode LAN (10GBASE-R, 10.3125Gb/s), media type is unknown
 input flow-control is on, output flow-control is off
 Members in this channel: Te3/4 Te3/8 Te4/4 Te4/8 
 ARP type: ARPA, ARP Timeout 04:00:00
 Last input never, output never, output hang never

 

внимание на строчку Members in this channel: Te3/4 Te3/8 Te4/4 Te4/8

тем самым мы равномерно используем по два канала у двух модулей.

 

System image file is "sup-bootdisk:/s72033-adventerprisek9_wan-mz.122-33.SXJ10.bin"

Share this post


Link to post
Share on other sites

И что вы этим хотите мне показать? У меня в первом посте lag, собранный на картах, расположенных в разных слотах 7609. Но это всё одни и те же карты -- WS-X6708-DFC3C.

 

тем самым мы равномерно используем по два канала у двух модулей.

Мы тоже не собираем lag на подряд идущих портах и о расположении каналов на картах осведомлены. Из 8 используются лишь 4, для карты жёстко задан no hw-module slot X oversubscription, используются лишь 1,2 и 5,6 порты. Так что дело явно не этом.

Share this post


Link to post
Share on other sites

а можете показать нагрузку на каждом индивидуальном порту в тот промежуток времени - когда было:

 

   6       1        20G   17%   47% @21:29 02Feb17   37%   99% @19:56 02Feb17

 

и самый главный вопрос - 100% нету monitor session или vlan filter ????

Share this post


Link to post
Share on other sites

Te3/4 Te3/8 Te4/4 Te4/8

А это разве не разные слоты? 3 и 4?

Share this post


Link to post
Share on other sites

Te3/4 Te3/8 Te4/4 Te4/8

А это разве не разные слоты? 3 и 4?

Если вопрос ко мне, то ещё раз внимательнее читаем, что я написал -- на разных картах, а не слотах. Речь о моделях, а не номерах карт.

 

а можете показать нагрузку на каждом индивидуальном порту в тот промежуток времени - когда было:

 

   6       1        20G   17%   47% @21:29 02Feb17   37%   99% @19:56 02Feb17

На эти 99% можно не обращать внимание. Мы разнесли эту нагрузку на другое оборудование.

 

и самый главный вопрос - 100% нету monitor session или vlan filter ????

100% нет, я бы заметил.

Share this post


Link to post
Share on other sites

Если вопрос ко мне, то ещё раз внимательнее читаем, что я написал -- на разных картах, а не слотах. Речь о моделях, а не номерах карт.

всё, я понял. извиняюсь

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this