Jump to content
Калькуляторы

Помогите.., заменили SUP2 на SUP720-3B получили резкое падение производительности

Есть cisco 6506 с SUP2 и 3-мя модулями WS-X6516.

Заменили SUP2 на Sup720-3B, чтобы модули работали с Sup-ом через

свитч-фабрику, ну и заодно получить дополнительные вкусные плюшки от нового Sup'а

 

А в итоге получили пинги до самой циски и через нее (до ресурсов локальной сети и во внеший мир ) до 800 мс,

и жалобы абонентов на плохие пинги и скорость.

Что за траффик спокойно мог прожевывать Sup2 и от которого так плохо становится 720-му супу?

конфиг очень большой, не знаю есть ли смысл приводить весь,

скажу пока только, что используется

5 L2- etherchannel'ов по 2 гигабитных порта каждый, загружены на 50%,

около 100 простых ACL, роут-мапов, влияющих на траффик, нет (был один, сейчас убран для теста),

37000 маршрутов bgp, 200-300 ospf,

300 VLAN, на них включен PVST,

250 SVI + около 10 routed-портов, через которые маршрутизируется около 10Gbps траффика

SLB-балансировка pptp и dns-серверов

local SPAN-сессия около 500 Gbps

вот собственно и все из используемого функционала на данный момент.

дропов и ошибок на интерфейсах нет

TCAM по sh platform software tcam cou занят на 4%

6506#sh proc cpu sort
CPU utilization for five seconds: 82%/64%; one minute: 74%; five minutes: 69%
PID Runtime(ms)   Invoked	  uSecs   5Sec   1Min   5Min TTY Process
 11	 3161284   3663051		863  5.33%  5.61%  5.62%   0 ARP Input
272	 4018948  18733541		214  3.90%  3.89%  4.01%   0 IP Input
  8	  422076	 21290	  19825  3.26%  0.61%  0.53%   0 Check heaps
363	 1126420	161937	   6955  1.67%  1.71%  1.73%   0 CEF: IPv4 proces
563	 1168452	134969	   8657  1.11%  1.41%  1.45%   0 Net Serv Timer
341	  312288	 30224	  10332  1.03%  0.57%  0.53%   0 IPC LC Message H
274	  280272   1393359		201  0.63%  0.56%  0.52%   0 ADJ resolve proc
299	   25148   7855159		  3  0.23%  0.21%  0.23%   0 Ethernet Msec Ti
 63	   70148   2648593		 26  0.15%  0.13%  0.13%   0 Net Input
403	   13512   1904493		  7  0.07%  0.04%  0.05%   0 RADIUS
556	  144364	 78626	   1836  0.07%  2.10%  0.86%   1 SSH Process
384	   38048	 32100	   1185  0.07%  0.04%  0.05%   0 HIDDEN VLAN Proc
218	   88972	 18413	   4832  0.07%  0.10%  0.10%   0 Compute load avg
376	   21244	206898		102  0.07%  0.06%  0.07%   0 FM core
333	   10296	330870		 31  0.07%  0.02%  0.01%   0 TCP Timer
315	   31232	 12754	   2448  0.07%  0.03%  0.02%   0 QOS Stats Gather

6506#rem comm sw sh proc cpu sort

CPU utilization for five seconds: 34%/9%; one minute: 36%; five minutes: 36%
PID Runtime(ms)   Invoked	  uSecs   5Sec   1Min   5Min TTY Process
480	 1750000	810359	   2159  6.55%  6.55%  6.43%   0 NDE - IPV4
109	 4225888   7669810		550  5.19%  6.90%  7.23%   0 slcp process
317	  447644	 40284	  11112  2.39%  1.25%  1.20%   0 Hardware API bac
254	 1128264	 65693	  17174  1.83%  1.71%  1.75%   0 Vlan Statistics
 74	  585460	219586	   2666  1.67%  1.61%  1.61%   0 CEF: IPv4 proces
366	  207248	 59802	   3465  1.59%  0.41%  0.35%   0 Env Poll
270	 1430504  13102778		109  1.19%  1.25%  1.26%   0 Netflow Mgmt_Sta
287	  426912	876385		487  1.03%  1.09%  1.07%   0 Spanning Tree
491	   91856	261519		351  0.95%  0.16%  0.13%   0 DiagCard6/-1
 75	  197592   1043583		189  0.47%  0.22%  0.22%   0 SCP Download Lis
  3	  237008	226333	   1047  0.23%  0.33%  0.37%   0 DiagCard2/-1
380	  236596	225879	   1047  0.23%  0.33%  0.36%   0 DiagCard4/-1
379	  393984   2053091		191  0.23%  0.67%  0.66%   0 DiagCard3/-1
269	  262920   7042152		 37  0.15%  0.21%  0.23%   0 Task for pre-pro
490	  245224	265982		921  0.15%  0.34%  0.37%   0 DiagCard5/-1
304	   41884	644615		 64  0.15%  0.13%  0.13%   0 Mcast Hw Agent6
341	  105976	620007		170  0.07%  0.12%  0.10%   0 mls-gc Process
348	   28612	315785		 90  0.07%  0.05%  0.07%   0 mls-mld Process
237		2400	768778		  3  0.07%  0.02%  0.00%   0 EARL Intr Thrtl
494	   37268	526715		 70  0.07%  0.04%  0.02%   0 SCP async: LCP#6

6506#sh plat har cap sys
System Resources
 PFC operating mode: PFC3B
 Supervisor redundancy mode: administratively sso, operationally sso
 Switching resources: Module   Part number			   Series	  CEF mode
				   2		WS-X6516-GE-TX		CEF256	    CEF
				   4		WS-X6516-GE-TX		CEF256	    CEF
				   5		WS-X6516-GBIC		CEF256	    CEF
				   6		WS-SUP720-BASE		supervisor  CEF

6506#sh plat har cap fab
Switch Fabric Resources
 Bus utilization: not supported
 Fabric utilization:	 Ingress					Egress
Module  Chanl  Speed  rate  peak				 rate  peak
2	   0		 8G   33%   44% @21:48 21Mar11   27%   41% @21:31 21Mar11
4	   0		 8G   28%   36% @21:19 21Mar11   23%   36% @20:55 21Mar11
5	   0		 8G   13%   23% @21:43 21Mar11   25%   32% @21:41 21Mar11
6	   0		20G   2%     5% @15:44 21Mar11	 2%	6% @21:36 21Mar11
 Switching mode: Module			Switching mode
	  2				crossbar							
          4				crossbar
	  5			        crossbar
          6			        dcef
6506#sh vlan summ
Number of existing VLANs		 : 316
Number of existing VTP VLANs		 : 305
Number of existing extended VLANS	 : 11

6506#sh mls stat

Statistics for Earl in Module 6

L2 Forwarding Engine
 Total packets Switched		    : 62316758677

L3 Forwarding Engine
 Total packets Processed		     : 62316153665 @ 1904309 pps
 Total packets L3 Switched		     : 53253873347 @ 1658791 pps

 Total Packets Bridged			      : 1259182547
 Total Packets FIB Switched		     : 40689516251
 Total Packets ACL Routed		      : 374254902
 Total Packets Netflow Switched	     : 12190102194
 Total Mcast Packets Switched/Routed   : 25603946
 Total ip packets with TOS changed	 : 2
 Total ip packets with COS changed	 : 2
 Total non ip packets COS changed	  : 0
 Total packets dropped by ACL		  : 23766387
 Total packets dropped by Policing	 : 0
 Total packets exceeding CIR		: 0
 Total packets exceeding PIR		: 0

Errors
 MAC/IP length inconsistencies		 : 6085
 Short IP packets received		: 0
 IP header checksum errors		 : 262446
 TTL failures				: 12822917
 MTU failures				: 0

Total packets L3 Processed by all Modules: 62316153665 @ 1904309 pps

6506#sh fab util
slot	channel	  speed	Ingress %	 Egress %
2		  0		 8G		   37		   31
4		  0		 8G		   24		   30
5		  0		 8G		   16		   18
6		  0		20G		   3		    2

6506#sh ip cef summ
IPv4 CEF is enabled for distributed and running
VRF base:
37817 prefixes (37817/0 fwd/non-fwd)
Default network 0.0.0.0/0
Table id 0
Database epoch:		4 (37817 entries at this epoch)

Control-plane policing и cpu rate-limiters пока не настроены

попытки посмотреть, чем занят RP, через SPAN, заканчиваются неудачно:

6506-sp#test monitor add 1 ?
% Unrecognized command

6506-sp#test monitor ?
 crash  test crash

6506#sh mod
Mod Ports Card Type						     Model			  
--- ----- -------------------------------------- ------------------ -----------
 2   16  SFM-capable 16 port 10/100/1000mb RJ45                 WS-X6516-GE-TX	 
 4   16  SFM-capable 16 port 10/100/1000mb RJ45                 WS-X6516-GE-TX	 
 5   16  SFM-capable 16 port 1000mb GBIC		         WS-X6516-GBIC	  
 6	2  Supervisor Engine 720 (Active)		         WS-SUP720-BASE

System image file is "disk0:s72033-advipservicesk9_wan-mz.122-33.SXI4a.bin"

Edited by C@T

Share this post


Link to post
Share on other sites
Total Packets Netflow Switched : 12190102194
То есть железка функционирует на 25% как программный роутер? Тогда ничему не удивлюсь. Особенно при таком трафике...

 

Надо искать что мешает все Ваши желания обрабатывать на PFC

 

Edited by Tosha

Share this post


Link to post
Share on other sites
Надо искать что мешает все Ваши желания обрабатывать на PFC
спасибо, ищем...

Жаль команда типа test monitor add 1 rp-inband both не работает,

уже и IOS сменили, а все равно не работает

Edited by C@T

Share this post


Link to post
Share on other sites
Надо искать что мешает все Ваши желания обрабатывать на PFC
спасибо, ищем...

Жаль команда типа test monitor add 1 rp-inband both не работает,

уже и IOS сменили, а все равно не работает

sh tcam interface ****** acl in ip

для всех интерфейсов

 

permit, policy-route - умеет в PFC

 

А вот если, дай бог память, "punt" - то это правило проваливает подходящий трафик в MSFC4 со всеми последствиями...

 

Как минимум интерфейсы вычислите или даже конкретный тип трафика.

Edited by Tosha

Share this post


Link to post
Share on other sites

Tosha, большое спасибо за помощь

 

выяснилось, что убивает 720SUP фича под названием Server Load Balancing (SLB)

Хотя, в Cisco IOS IP Application Services Configuration Guide

"In dispatched mode hardware data packet acceleration is performed by the PFC"

 

И действительно, SUP2 жевал эти пакеты in hardware,

a SUP720 почему-то с ними справиться не может, и мне еще предстоит выяснить почему,

если это вообще возможно.

Share this post


Link to post
Share on other sites

выяснилось, что убивает 720SUP фича под названием Server Load Balancing (SLB)

Хотя, в Cisco IOS IP Application Services Configuration Guide

"In dispatched mode hardware data packet acceleration is performed by the PFC"

Я вот тоже подозревал что это с SLB но подтверждения не нагуглил.

Share this post


Link to post
Share on other sites

сап720 работает по фабрике с 65хх картами, но не на скорости своей фабрики. Эти карты для свич-фабрики сап2 делались.

 

http://www.cisco.com/en/US/prod/collateral/switches/ps5718/ps708/prod_white_paper0900aecd80673385.html

 

As discussed earlier, the crossbar switch fabric is implemented with the integrated switch fabric on the Supervisor Engine 720, 720-3B, or 720-3BXL. The switch fabric integrated onto the Supervisor Engine 720 clocks each fabric channel at either 8 Gbps or 20 Gbps. The clocking speed is determined by the presence of a specific line card (i.e. CEF256 or CEF720 as an example). The CEF256 and dCEF256 line cards cause the Supervisor Engine 720 switch fabric to clock those fabric channels at 8 Gbps. The CEF720 and dCEF720 line cards will result in the Supervisor Engine 720 switch fabric clocking those fabric channels at 20 Gbps. The Supervisor Engine 720 switch fabric can simultaneously support fabric channels to different slots at different clock speeds.

This means that the Supervisor Engine 720 could, for instance, support a single fabric channel to a CEF256 line card at 8 Gbps as well as the two fabric channels to a CEF720 line card at 2 x 20 Gbps. This allows all of the Supervisor Engine 720 modules to deliver bandwidth of 40 Gbps to each line-card slot. (See Figure 13.)

 

Таким образом, вместо шины 16Г на 3 карты вы получили 8Г свич-фабрику.

 

 

Для этих карт нужно было купить карту свич-фабрики для сап2, и получили бы их максимальную производительность.

 

http://shop.nag.ru/catalog/item/01492

Share this post


Link to post
Share on other sites

<Вырезал>

Присмотрелся к информации, действительно 8 Гбит...

 

А что, модули CEF256 не двухканальные? Тогда облом...

Edited by Tosha

Share this post


Link to post
Share on other sites

Я думаю, что имели в виду только один канал шины, а этих каналов к каждому слоту два, и только в 13 слотовом шасси есть некоторые слоты с одним каналом.

 

То есть для CEF256 8*2 = 16 Гбит на карту, а для CEF720 20*2 = 40 Гбит на карту.

 

Иными словами, скорее всего, с этой стороны не должно быть ухудшений.

 

читаем внимательнее.

 

у карт 65хх - один канал. Так что получаем 8Г на карту.

Если трафик не замыкается на карте на асике, и трафик между любыми двумя картами превышает 8Г - будут затыки.

 

CEF720 тоже зависит от карты: на карту с 24 SFP, например, один канал, 20Г, а на карту с 48 SFP - уже 2 канала, 40Г.

Share this post


Link to post
Share on other sites

sh tcam interface ****** acl in ip

для всех интерфейсов

 

permit, policy-route - умеет в PFC

 

А вот если, дай бог память, "punt" - то это правило проваливает подходящий трафик в MSFC4 со всеми последствиями...

 

Как минимум интерфейсы вычислите или даже конкретный тип трафика.

* Global Defaults not shared


Entries from Bank 0

   punt         icmp any any eq 11
   permit       ip any any

Entries from Bank 1

 

Подскажите кто вешает вот такое, на интерфейсе ничего нет кроме IP-адресса. (хотель понять почему punt)

Share this post


Link to post
Share on other sites

Пардон, а ЧЕМ он должен отвечать на пинги и/или icmp unreach ? ASIC ом? Или все-же процом?

Share this post


Link to post
Share on other sites

читаем внимательнее.

 

у карт 65хх - один канал. Так что получаем 8Г на карту.

Да, сразу не углядел. Пост то я уже поправил, думал еще не успели ответить, однако успели ;)

Жаль что только один канал.

Edited by Tosha

Share this post


Link to post
Share on other sites

вот тоже подозревал что это с SLB но подтверждения не нагуглил.

ничего нагуглить не удалось пока тоже

 

Таким образом, вместо шины 16Г на 3 карты вы получили 8Г свич-фабрику.

 

...у карт 65хх - один канал. Так что получаем 8Г на карту.

Если трафик не замыкается на карте на асике, и трафик между любыми двумя картами превышает 8Г - будут затыки.

Большое спасибо, но, про архитектуру карт знаю, и знаю на что шли, устанавливая Sup720 и меняя 16Г на 3х8Г,

так как cef720-карты купить пока не можем, а от sup720 нужны были некоторые фичи

Но нагрузка на карты у меня специально распределена так, чтобы траффик не превышал эти самые 8Г )

 

а вот с этим SLB еще придется поэкспериментировать...

Edited by C@T

Share this post


Link to post
Share on other sites
нет (был один, сейчас убран для теста),

Из опыта.

Если Вы говорите о NAT`е то на SUP720 с ним не поработаете (не смог выдержать офисную сетку из 10 компов вынесли нат на Mikrotik), а на SUP2 натил без проблем и офискую сетку и городскую в 4000 хомячков.

BGP использовали урезаный, но тоже вынесли на границу сети.

 

Также посмотрите на синтаксис конфига. У нас при переходе с SUP2 на SUP720-3BXL конфиг не пошел, что конкретно уже не вспомню давно очень было.

Edited by karabas1

Share this post


Link to post
Share on other sites

Из опыта.

Если Вы говорите о NAT`е то на SUP720 с ним не поработаете (не смог выдержать офисную сетку из 10 компов вынесли нат на Mikrotik), а на SUP2 натил без проблем и офискую сетку и городскую в 4000 хомячков.

BGP использовали урезаный, но тоже вынесли на границу сети.

не, там имелось ввиду PBR "роут-мапов, влияющих на траффик, нет (был один, сейчас убран для теста)"

спасибо, информация про NAT интересная очень. NAT использовать даже не пытались на SUP2,

исходя из цискиных даташитов типа

PFC2           - NAT in sotfware
PFC3A и дальше - NAT in hardware

Собирались задействовать немного NAT'а (натить несколько небольших сеточек)на SUP720, но после вашего сообщения желание это делать отпало.

Также посмотрите на синтаксис конфига. У нас при переходе с SUP2 на SUP720-3BXL конфиг не пошел, что конкретно уже не вспомню давно очень было.

Да, к этому отнеслись серьезно, и в момент перехода на новый SUP720-3BXL копировали специально отредактированный под него конфиг частями, чтобы посмотреть на реакцию )

Edited by C@T

Share this post


Link to post
Share on other sites

спасибо, информация про NAT интересная очень. NAT использовать даже не пытались на SUP2,

исходя из цискиных даташитов типа

PFC2           - NAT in sotfware
PFC3A и дальше - NAT in hardware

Собирались задействовать немного NAT'а (натить несколько небольших сеточек)на SUP720, но после вашего сообщения желание это делать отпало.

Я как бывший пользователь NAT на ***720 с PFC3B и PFC3C скорее отношу NAT в ней как "hardware assisted"

Сама транляция там аппаратная, но вот управление трансляциями программное и процессор слабоват.

И при количестве трансляций порядка 10 - 12 тысяч процессор загружается на 100%.

 

В нынешних реалиях повальных анлимов этого, конечно, не хватает. Но на офис/достаточно крупную компанию хватит. Ведь там не будет торрентов у людей, а если и будут, то нормально настроенные, с ограничением количества соединений и исключительно по tcp протоколу.

 

P.S. А вот трансляция без оверлоада, 1 в 1 на ней должна работать превосходно.

Edited by Tosha

Share this post


Link to post
Share on other sites

Я как бывший пользователь NAT на ***720 с PFC3B и PFC3C скорее отношу NAT в ней как "hardware assisted"

Сама транляция там аппаратная, но вот управление трансляциями программное и процессор слабоват...

Да, действительно , "NAT in hardware" - довольно громко сказано... Просто фраза была взята из очередного даташита.

Спасибо, когда будем пробовать NAT, будем иметь ввиду все вышеперечисленное

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this