pchol Posted August 30, 2010 (edited) · Report post Добрый день. Имеем следующее cisco 6500 / sup2 / pfc2 / msfc2 / 2 карты WS-X6516-GBIC Она выступает агрегацией ~110 виланов. Статическая маршрутизация. ACL нет. PBR простенький (по ацлу из ~200 правил), болтается на _всех_ вилан интерфейсах. qos в режиме queueing-only mode Вечером наблюдаем картинку (в аттаче). Данная картинка наблюдается на _аплинке_ Почитал вот тут http://www.cisco.com/en/US/products/hw/swi...0807347ab.shtml Оказалось что pfc2 не умеет mac-address-table synchronize Всё остальное пытался проделывать. Безрезультатно. Для клиентов эти перебои видны в виде примерно 15-20% потерь. Причём перебои идут интервалами, то есть 300 пакетов может пройти без потерь, а потом 50 подряд потеряются. sh proc cpu показывает примерно следующее CPU utilization for five seconds: 13%/3%; one minute: 14%; five minutes: 13% PID Runtime(ms) Invoked uSecs 5Sec 1Min 5Min TTY Process 9 12180624 20019761 608 5.43% 5.68% 5.62% 0 ARP Input 167 4330144 13483388 321 1.75% 2.00% 1.55% 0 SNMP ENGINE 116 3416540 28660688 119 0.87% 0.86% 0.78% 0 IP Input 134 2214860 24864773 89 0.79% 0.70% 0.52% 0 IP SNMP 26 1145544 82877 13822 0.39% 0.38% 0.39% 0 HC Counter Timer 155 367356 477310 769 0.31% 0.14% 0.15% 0 DHCPD Receive 261 897076 5629709 159 0.31% 0.21% 0.20% 0 Port manager per 76 1657644 98301 16862 0.23% 0.21% 0.17% 0 Compute load avg 157 361956 73091 4952 0.23% 0.18% 0.16% 0 Adj Manager 162 281840 125446 2246 0.07% 0.07% 0.06% 0 IPC LC Message H 163 610836 12442306 49 0.07% 0.20% 0.16% 0 PDU DISPATCHER 166 224476 586077 383 0.07% 0.07% 0.07% 0 CEF process 44 36 62 580 0.07% 0.00% 0.00% 1 Virtual Exec Не подскажите ли куда смотреть и как отмониторить проблему ? Edited August 30, 2010 by pchol Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
cmhungry Posted August 30, 2010 · Report post PBR попробовать убрать. Ибо без него аналогичный кот жует 2 аплинка по 4г и не давится на 14К юзерах, терминированным на нем в 120 вланах. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 30, 2010 · Report post Не помогает. Уже пробовал. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
cmhungry Posted August 30, 2010 · Report post вообще график который на аттаче - он очень напоминает банальное переполнение счетчиков в какти/мртг, а не реальные проблемы с трафиком. можно попробовать иос поменять, если реально проблемы 300 пакетов ок, 50 пролетели мимо. можно STP отключить или, наоборот, включить - такое поведение от него может быть или из-за колечка Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 30, 2010 (edited) · Report post STP включено. UDLD по портам тоже. В логах по поводу колец ничего не заметно. ИОС вроде бы как "ходовой". Router#sh ver Cisco Internetwork Operating System Software IOS (tm) s222_rp Software (s222_rp-IPSERVICESK9_WAN-M), Version 12.2(18)SXF17, RELEASE SOFTWARE (fc1) На какти не грешу потому что я реально вижу перебои просто напросто пингуя удалённую машину. По поводу STP опять же... Router#sh spanning-tree summary totals ..... Name Blocking Listening Learning Forwarding STP Active ---------------------- -------- --------- -------- ---------- ---------- 115 vlans 0 0 0 2990 2990 То есть вроде бы нигде ничего не перестраивается. Edited August 30, 2010 by pchol Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Frau Posted August 31, 2010 · Report post первый вопрос - после чего у вас начались такие проблемы? Меняли оборудование/конфигурацию? можно потраблшутить пару вещей - qos & stp, на qos не очень похоже, т.к там более равномерные дропы, поэтому лучше начать с stp. Было бы неплохо увидеть конфиг еще :) и sh proc cpu hist Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 31, 2010 · Report post Router#sh proc cpu hist 11111 11111 1111111111111111111111 9777770000055555222229999988888999991111144444999991111100 100 90 80 70 60 50 40 30 20 ***** 10 ********************************************************** 0....5....1....1....2....2....3....3....4....4....5....5.... 0 5 0 5 0 5 0 5 0 5 CPU% per second (last 60 seconds) 1211 1 111212211111112111221211111121111111211112112211121 9488938145071331969371965397012544344472574213345443094709 100 90 80 70 60 50 40 30 * * 20 **** ***** *** ********* * * * ** * * *** *** 10 ########################################################## 0....5....1....1....2....2....3....3....4....4....5....5.... 0 5 0 5 0 5 0 5 0 5 CPU% per minute (last 60 minutes) * = maximum CPU% # = average CPU% 1 2222223332389204322222232232221111222233222232222222223212222222989822 7487985259184605486545942642637879035842364106495217473690100485062827 100 * 90 ** * **** 80 ** * **** 70 ** * **** 60 ** * **** 50 ** ** **** 40 * * ** ** **** 30 * ****************** *** ** * **** * ** ** * *** ****** * 20 **************##*********************###****************************** 10 ###################################################################### 0....5....1....1....2....2....3....3....4....4....5....5....6....6....7. 0 5 0 5 0 5 0 5 0 5 0 5 0 CPU% per hour (last 72 hours) * = maximum CPU% # = average CPU% Конфиг http://pastebin.com/vCXsPhFG Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Frau Posted August 31, 2010 · Report post у вас высокая загрузка cpu, надо попробовать убрать udld или если не поможет aggregate-policer надо выяснить что у вас попадает на cpu почитайте http://www.cisco.com/en/US/products/hw/swi...html#situations Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 31, 2010 · Report post aggregate-policer объявлен но не используется. удлд попробую отключить. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Frau Posted August 31, 2010 · Report post а покажите еще плз sh ip inspect statistics Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 31, 2010 · Report post Оно не включено. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 31, 2010 · Report post Убрал pbr / udld / stp. тож самое. Стало чуть красивее но не суть. Router#sh proc cpu hist 111122222 1111111111222221111111111 11111111111111 4444333337777733333444440000000000000007777733333111112222 100 90 80 70 60 50 40 30 20 ***** ***** 10 ********************************************************** 0....5....1....1....2....2....3....3....4....4....5....5.... 0 5 0 5 0 5 0 5 0 5 CPU% per second (last 60 seconds) 2111111111111111111111111111111111111 15122111111216112211 0023564403332327445556562322293484640928477366222952880332 100 90 80 70 60 * * 50 * * 40 * * 30 * ** * * 20 * ** * ****** * * * # ** ** **#**** 10 ########################################################## 0....5....1....1....2....2....3....3....4....4....5....5.... 0 5 0 5 0 5 0 5 0 5 CPU% per minute (last 60 minutes) * = maximum CPU% # = average CPU% 612222679 261410150 100 90 * 80 ** 70 ** 60 * *** 50 * *** 40 * *** 30 * *** 20 ********* 10 ######### 0....5....1....1....2....2....3....3....4....4....5....5....6....6....7. 0 5 0 5 0 5 0 5 0 5 0 5 0 CPU% per hour (last 72 hours) * = maximum CPU% # = average CPU% Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 31, 2010 · Report post Однако ! После отключения всей этой бодяги в логах замечены следующие записи. 03:01:01: %MCAST-SP-6-IGMP_PKT_DROPPED: IGMP: IGMP Queue full (high packet rate/CPU busy), dropped 5021 packet(s) in las t 5 minutes 06:51:46: %SPANTREE-SP-2-RECV_PVID_ERR: Received BPDU with inconsistent peer vlan id 331 on GigabitEthernet1/2 VLAN364. 06:51:46: %SPANTREE-SP-2-BLOCK_PVID_PEER: Blocking GigabitEthernet1/2 on VLAN0331. Inconsistent peer vlan. 06:51:46: %SPANTREE-SP-2-BLOCK_PVID_LOCAL: Blocking GigabitEthernet1/2 on VLAN0364. Inconsistent local vlan. 06:51:47: %SPANTREE-SP-2-RECV_PVID_ERR: Received BPDU with inconsistent peer vlan id 1111 on GigabitEthernet8/11 VLAN331 . 06:51:47: %SPANTREE-SP-2-BLOCK_PVID_PEER: Blocking GigabitEthernet8/11 on VLAN1111. Inconsistent peer vlan. 06:51:47: %SPANTREE-SP-2-BLOCK_PVID_LOCAL: Blocking GigabitEthernet8/11 on VLAN0331. Inconsistent local vlan. 06:51:47: %SPANTREE-SP-2-RECV_PVID_ERR: Received BPDU with inconsistent peer vlan id 1 on GigabitEthernet1/2 VLAN364. 06:51:47: %SPANTREE-SP-2-BLOCK_PVID_PEER: Blocking GigabitEthernet1/2 on VLAN0001. Inconsistent peer vlan. 06:52:01: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet1/2 on VLAN0331. Port consistency restored. 06:52:02: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet8/11 on VLAN1111. Port consistency restored. 06:52:02: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet8/11 on VLAN0331. Port consistency restored. 06:52:02: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet1/2 on VLAN0001. Port consistency restored. 06:52:02: %SPANTREE-SP-2-UNBLOCK_CONSIST_PORT: Unblocking GigabitEthernet1/2 on VLAN0364. Port consistency restored. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
cmhungry Posted August 31, 2010 · Report post STP =) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 31, 2010 · Report post STP то stp. Но оно же отключено =) Router#sh spanning-tree No spanning tree instance exists. Router#sh spanning-tree summary Switch is in pvst mode Root bridge for: none EtherChannel misconfig guard is disabled Extended system ID is enabled Portfast Default is disabled PortFast BPDU Guard Default is disabled Portfast BPDU Filter Default is disabled Loopguard Default is disabled UplinkFast is disabled BackboneFast is disabled Pathcost method used is short Name Blocking Listening Learning Forwarding STP Active ---------------------- -------- --------- -------- ---------- ---------- Total 0 0 0 0 0 чудеса ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
cmhungry Posted August 31, 2010 · Report post STP то stp. Но оно же отключено =) bpdufilter повесить на порты? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted August 31, 2010 · Report post Наверно Вы правы. =) Спасибо, попробую. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Frau Posted September 1, 2010 · Report post bpdufilter поможет, но проблема не в stp, а в неверной конфигурации транков, точнее у вас напутано с транками и нативными виланами, если выставите фильтр, потом можете схватить еще каких нибуть непредвиденных глюков)) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted September 1, 2010 · Report post Но почему тогда проблема возникает только вечермо когда трафик достигает порога в 500-600мбит ? Транки если имеете ввиду link agregation не настраивал. native vlan действительно присутствует на некоторых портах. Но что я не так мог указать ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
cmhungry Posted September 1, 2010 · Report post хомячки могут кольцеваться. могут дома свитч ставить с включенным STP и прочая-прочая-прочая Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted September 1, 2010 · Report post И каковы же должны быть мои "правильные" дейсвтия ? Настроить логирование в режиме info / debug именно для stp (если возможно) и помотреть где же корни проблемы ? Настроить таки нормально до конца stp на этом узле с учётом совместимости с другими версиями (не юзать к примеру pvst ) ? Или есть каие то альтерантивные действия которые стоит совершить ? Кстати при включенном bpdu filter проблема не исчезла и sh proc cpu hist показывает скачки нагрузки. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
cmhungry Posted September 1, 2010 · Report post И каковы же должны быть мои "правильные" дейсвтия ?Настроить логирование в режиме info / debug именно для stp (если возможно) и помотреть где же корни проблемы ? Настроить таки нормально до конца stp на этом узле с учётом совместимости с другими версиями (не юзать к примеру pvst ) ? Или есть каие то альтерантивные действия которые стоит совершить ? Кстати при включенном bpdu filter проблема не исчезла и sh proc cpu hist показывает скачки нагрузки. ищите кольца на доступе... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pchol Posted September 1, 2010 · Report post Да нет их там я более чем уверен Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vitalyb Posted September 2, 2010 · Report post pchol Попадались Linux-based WiFi точки доступа, где вайрлесный интерфейс сбриджеван с езернетом, но STP на бридже не выключен. Вот оно и рассылает bpdu'хи. Очень прикольно, когда оно начинает "свистеть" между вланами на свитчах, где не убито явно. Теперь в доме два пользователя в разных виланах кидают друг к другу витую пару, и каждый ее, кончено, втыкает в свой свитч, куда, конечно, подключается и провайдер. С соседнего дома прилетает BPDU и "крутится" пока ее не съест broadcast storm control. Надо полагать, что в это время (кроме того, что чуть ли не вся сеть лежит) каталисту весь этот праздник попадает на CPU. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Frau Posted September 2, 2010 · Report post Да нет их там я более чем уверен по вашим логам видно что кольцуются Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...