Jump to content
Калькуляторы

Cisco 6500, скачки при трафике 500+ мбит

Добрый день.

Имеем следующее cisco 6500 / sup2 / pfc2 / msfc2 / 2 карты WS-X6516-GBIC

Она выступает агрегацией ~110 виланов. Статическая маршрутизация.

ACL нет. PBR простенький (по ацлу из ~200 правил), болтается на _всех_ вилан интерфейсах.

qos в режиме queueing-only mode

Вечером наблюдаем картинку (в аттаче). Данная картинка наблюдается на _аплинке_

Почитал вот тут http://www.cisco.com/en/US/products/hw/swi...0807347ab.shtml

Оказалось что pfc2 не умеет mac-address-table synchronize

Всё остальное пытался проделывать. Безрезультатно.

Для клиентов эти перебои видны в виде примерно 15-20% потерь. Причём перебои идут интервалами, то есть 300 пакетов может пройти без потерь, а потом 50 подряд потеряются.

sh proc cpu показывает примерно следующее

CPU utilization for five seconds: 13%/3%; one minute: 14%; five minutes: 13%
PID Runtime(ms)   Invoked      uSecs   5Sec   1Min   5Min TTY Process
   9    12180624  20019761        608  5.43%  5.68%  5.62%   0 ARP Input
167     4330144  13483388        321  1.75%  2.00%  1.55%   0 SNMP ENGINE
116     3416540  28660688        119  0.87%  0.86%  0.78%   0 IP Input
134     2214860  24864773         89  0.79%  0.70%  0.52%   0 IP SNMP
  26     1145544     82877      13822  0.39%  0.38%  0.39%   0 HC Counter Timer
155      367356    477310        769  0.31%  0.14%  0.15%   0 DHCPD Receive
261      897076   5629709        159  0.31%  0.21%  0.20%   0 Port manager per
  76     1657644     98301      16862  0.23%  0.21%  0.17%   0 Compute load avg
157      361956     73091       4952  0.23%  0.18%  0.16%   0 Adj Manager
162      281840    125446       2246  0.07%  0.07%  0.06%   0 IPC LC Message H
163      610836  12442306         49  0.07%  0.20%  0.16%   0 PDU DISPATCHER
166      224476    586077        383  0.07%  0.07%  0.07%   0 CEF process
  44          36        62        580  0.07%  0.00%  0.00%   1 Virtual Exec

 

Не подскажите ли куда смотреть и как отмониторить проблему ?

post-56053-1283192867_thumb.png

Edited by pchol

Share this post


Link to post
Share on other sites

PBR попробовать убрать. Ибо без него аналогичный кот жует 2 аплинка по 4г и не давится на 14К юзерах, терминированным на нем в 120 вланах.

Share this post


Link to post
Share on other sites

вообще график который на аттаче - он очень напоминает банальное переполнение счетчиков в какти/мртг, а не реальные проблемы с трафиком.

 

можно попробовать иос поменять, если реально проблемы 300 пакетов ок, 50 пролетели мимо.

можно STP отключить или, наоборот, включить - такое поведение от него может быть или из-за колечка

Share this post


Link to post
Share on other sites

STP включено. UDLD по портам тоже.

В логах по поводу колец ничего не заметно.

ИОС вроде бы как "ходовой".

Router#sh ver
Cisco Internetwork Operating System Software
IOS (tm) s222_rp Software (s222_rp-IPSERVICESK9_WAN-M), Version 12.2(18)SXF17, RELEASE SOFTWARE (fc1)

На какти не грешу потому что я реально вижу перебои просто напросто пингуя удалённую машину.

По поводу STP опять же...

Router#sh spanning-tree summary totals
.....
Name                   Blocking Listening Learning Forwarding STP Active
---------------------- -------- --------- -------- ---------- ----------
115 vlans                    0         0        0       2990       2990

То есть вроде бы нигде ничего не перестраивается.

Edited by pchol

Share this post


Link to post
Share on other sites

первый вопрос - после чего у вас начались такие проблемы? Меняли оборудование/конфигурацию?

можно потраблшутить пару вещей - qos & stp, на qos не очень похоже, т.к там более равномерные дропы, поэтому лучше начать с stp.

Было бы неплохо увидеть конфиг еще :) и sh proc cpu hist

Share this post


Link to post
Share on other sites

Router#sh proc cpu hist

           11111     11111               1111111111111111111111
     9777770000055555222229999988888999991111144444999991111100
100
90
80
70
60
50
40
30
20                                                *****
10  **********************************************************
    0....5....1....1....2....2....3....3....4....4....5....5....
              0    5    0    5    0    5    0    5    0    5

               CPU% per second (last 60 seconds)


     1211 1 111212211111112111221211111121111111211112112211121
     9488938145071331969371965397012544344472574213345443094709
100
90
80
70
60
50
40
30                            *                     *
20  ****     *****  *** *********  *   *  * ** *    *  *** ***
10  ##########################################################
    0....5....1....1....2....2....3....3....4....4....5....5....
              0    5    0    5    0    5    0    5    0    5

               CPU% per minute (last 60 minutes)
              * = maximum CPU%   # = average CPU%

                   1
     2222223332389204322222232232221111222233222232222222223212222222989822
     7487985259184605486545942642637879035842364106495217473690100485062827
100                *
90             ** *                                                 ****
80             ** *                                                 ****
70             ** *                                                 ****
60             ** *                                                 ****
50             ** **                                                ****
40        * *  ** **                                                ****
30  * ****************** *** ** *       **** *  ** **  * ***      ****** *
20  **************##*********************###******************************
10  ######################################################################
    0....5....1....1....2....2....3....3....4....4....5....5....6....6....7.
              0    5    0    5    0    5    0    5    0    5    0    5    0

                   CPU% per hour (last 72 hours)
                  * = maximum CPU%   # = average CPU%

 

Конфиг http://pastebin.com/vCXsPhFG

 

Share this post


Link to post
Share on other sites

у вас высокая загрузка cpu, надо попробовать убрать udld или если не поможет aggregate-policer

надо выяснить что у вас попадает на cpu

почитайте http://www.cisco.com/en/US/products/hw/swi...html#situations

 

Share this post


Link to post
Share on other sites

aggregate-policer объявлен но не используется.

удлд попробую отключить.

Share this post


Link to post
Share on other sites

а покажите еще плз

sh ip inspect statistics

Share this post


Link to post
Share on other sites

Убрал pbr / udld / stp. тож самое. Стало чуть красивее но не суть.

Router#sh proc cpu hist

     111122222     1111111111222221111111111     11111111111111
     4444333337777733333444440000000000000007777733333111112222
100
90
80
70
60
50
40
30
20      *****               *****
10  **********************************************************
    0....5....1....1....2....2....3....3....4....4....5....5....
              0    5    0    5    0    5    0    5    0    5

               CPU% per second (last 60 seconds)


     2111111111111111111111111111111111111 15122111111216112211
     0023564403332327445556562322293484640928477366222952880332
100
90
80
70
60                                         *           *
50                                         *           *
40                                         *           *
30                                         * **      * *
20  *   **         *  ******     *  * *    # ** **   **#****
10  ##########################################################
    0....5....1....1....2....2....3....3....4....4....5....5....
              0    5    0    5    0    5    0    5    0    5

               CPU% per minute (last 60 minutes)
              * = maximum CPU%   # = average CPU%


     612222679
     261410150
100
90          *
80         **
70         **
60  *     ***
50  *     ***
40  *     ***
30  *     ***
20  *********
10  #########
    0....5....1....1....2....2....3....3....4....4....5....5....6....6....7.
              0    5    0    5    0    5    0    5    0    5    0    5    0

                   CPU% per hour (last 72 hours)
                  * = maximum CPU%   # = average CPU%

Share this post


Link to post
Share on other sites

Однако ! После отключения всей этой бодяги в логах замечены следующие записи.

03:01:01: %MCAST-SP-6-IGMP_PKT_DROPPED: IGMP: IGMP Queue full (high packet rate/CPU busy), dropped 5021 packet(s) in las
t 5 minutes
06:51:46: %SPANTREE-SP-2-RECV_PVID_ERR: Received BPDU with inconsistent peer vlan id 331 on GigabitEthernet1/2 VLAN364.
06:51:46: %SPANTREE-SP-2-BLOCK_PVID_PEER: Blocking GigabitEthernet1/2 on VLAN0331. Inconsistent peer vlan.
06:51:46: %SPANTREE-SP-2-BLOCK_PVID_LOCAL: Blocking GigabitEthernet1/2 on VLAN0364. Inconsistent local vlan.
06:51:47: %SPANTREE-SP-2-RECV_PVID_ERR: Received BPDU with inconsistent peer vlan id 1111 on GigabitEthernet8/11 VLAN331
.
06:51:47: %SPANTREE-SP-2-BLOCK_PVID_PEER: Blocking GigabitEthernet8/11 on VLAN1111. Inconsistent peer vlan.
06:51:47: %SPANTREE-SP-2-BLOCK_PVID_LOCAL: Blocking GigabitEthernet8/11 on VLAN0331. Inconsistent local vlan.
06:51:47: %SPANTREE-SP-2-RECV_PVID_ERR: Received BPDU with inconsistent peer vlan id 1 on GigabitEthernet1/2 VLAN364.
06:51:47: %SPANTREE-SP-2-BLOCK_PVID_PEER: Blocking GigabitEthernet1/2 on VLAN0001. Inconsistent peer vlan.
06:52:01: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet1/2 on VLAN0331. Port consistency restored.
06:52:02: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet8/11 on VLAN1111. Port consistency restored.
06:52:02: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet8/11 on VLAN0331. Port consistency restored.
06:52:02: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet1/2 on VLAN0001. Port consistency restored.
06:52:02: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet1/2 on VLAN0364. Port consistency restored.

Share this post


Link to post
Share on other sites

STP то stp. Но оно же отключено =)

Router#sh spanning-tree

No spanning tree instance exists.

Router#sh spanning-tree summary
Switch is in pvst mode
Root bridge for: none
EtherChannel misconfig guard is disabled
Extended system ID           is enabled
Portfast Default             is disabled
PortFast BPDU Guard Default  is disabled
Portfast BPDU Filter Default is disabled
Loopguard Default            is disabled
UplinkFast                   is disabled
BackboneFast                 is disabled
Pathcost method used is short

Name                   Blocking Listening Learning Forwarding STP Active
---------------------- -------- --------- -------- ---------- ----------
Total                        0         0        0          0          0

чудеса ?

Share this post


Link to post
Share on other sites

Наверно Вы правы. =)

Спасибо, попробую.

Share this post


Link to post
Share on other sites

bpdufilter поможет, но проблема не в stp, а в неверной конфигурации транков, точнее у вас напутано с транками и нативными виланами, если выставите фильтр, потом можете схватить еще каких нибуть непредвиденных глюков))

Share this post


Link to post
Share on other sites

Но почему тогда проблема возникает только вечермо когда трафик достигает порога в 500-600мбит ?

Транки если имеете ввиду link agregation не настраивал. native vlan действительно присутствует на некоторых портах. Но что я не так мог указать ?

Share this post


Link to post
Share on other sites

хомячки могут кольцеваться.

могут дома свитч ставить с включенным STP

и прочая-прочая-прочая

Share this post


Link to post
Share on other sites

И каковы же должны быть мои "правильные" дейсвтия ?

Настроить логирование в режиме info / debug именно для stp (если возможно) и помотреть где же корни проблемы ?

Настроить таки нормально до конца stp на этом узле с учётом совместимости с другими версиями (не юзать к примеру pvst ) ?

Или есть каие то альтерантивные действия которые стоит совершить ?

Кстати при включенном bpdu filter проблема не исчезла и sh proc cpu hist показывает скачки нагрузки.

 

Share this post


Link to post
Share on other sites
И каковы же должны быть мои "правильные" дейсвтия ?

Настроить логирование в режиме info / debug именно для stp (если возможно) и помотреть где же корни проблемы ?

Настроить таки нормально до конца stp на этом узле с учётом совместимости с другими версиями (не юзать к примеру pvst ) ?

Или есть каие то альтерантивные действия которые стоит совершить ?

Кстати при включенном bpdu filter проблема не исчезла и sh proc cpu hist показывает скачки нагрузки.

ищите кольца на доступе...

Share this post


Link to post
Share on other sites

Да нет их там я более чем уверен

Share this post


Link to post
Share on other sites

pchol

Попадались Linux-based WiFi точки доступа, где вайрлесный интерфейс сбриджеван с езернетом, но STP на бридже не выключен. Вот оно и рассылает bpdu'хи. Очень прикольно, когда оно начинает "свистеть" между вланами на свитчах, где не убито явно. Теперь в доме два пользователя в разных виланах кидают друг к другу витую пару, и каждый ее, кончено, втыкает в свой свитч, куда, конечно, подключается и провайдер. С соседнего дома прилетает BPDU и "крутится" пока ее не съест broadcast storm control. Надо полагать, что в это время (кроме того, что чуть ли не вся сеть лежит) каталисту весь этот праздник попадает на CPU.

 

Share this post


Link to post
Share on other sites

Да нет их там я более чем уверен

по вашим логам видно что кольцуются

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this