Jump to content
Калькуляторы

Что может так грузить L3 коммутаторы? проблемы корпоративной сети

Здравствуйте, коллеги.

Мучаюсь уже не первую неделю и не могу решить задачу, что же так может грузить L3 коммутаторы!

Итак, дано:

Корпоративная сеть. Без выхода в интернет.

Вот такие вот коммутаторы на схеме ниже:

http://market.yandex.ru/product/2662768/spec?hid=91088&track=tabs

И они же но SFP 3com 5500G-EI 24 SFP (найти описание нормальное не могу)

Плюс один модульный 3com 7910e (24 port Gigabit SFP) Все описанные коммутаторы L3.

Сама схема

post-78342-001280200 1431411622_thumb.png

За этими коммутаторами стоят пользовательские (на схеме не отражены дабы не нагружать).

Изначально все 5500 коммутаторы, кроме (7910 и 5500-k43-CORE) работали как банальные L2 молотилки, агрегируя все Vlan на ядрах.

На ядрах были прибиты Ip интерфейсы для каждого Vlan с VRRP адресами для default gateway в каждом vlan.

Во всей сети включен STP (mstp mode). По нему линки резервировались.

В какой то момент началось вот это:

post-78342-028890800 1431412455_thumb.png

И оно же но в другом масштабе:

post-78342-030153500 1431412596_thumb.png

Загрузка всех 5500G-EI начала скакать от текущего значения до 100% на короткие промежутки времени. Больше всего на 5500-k43-Core.

Пробовал:

1. Поднять версию ПО на всех коммутаторах до последней.

2. Разнес Ip интерфейсы почти всех Vlan на уровни агрегации (кроме Vlan's голоса и видеонаблюдения), поднял ospf, дабы локализовать проблемный Vlan.

Тоже не помогло.

Интересно, что CPU всех пользовательских L2 коммутаторов в норме.

Собственно, хотелось бы услышать мнение более опытных коллег и сузить ареал поиска и выбрать наиболее эффективную методику поиска и устранения проблемы.

Ловить пакеты Wireshark? На что посмотреть? Spanning-tree?

Share this post


Link to post
Share on other sites

А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")?

Share this post


Link to post
Share on other sites

А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")?

та если бы....

Я бы тогда уже имел важную информацию, и так много б не распинался.

Share this post


Link to post
Share on other sites

Пробовать зеркалить трафик. Начать с arp-пакетов.

Что на L3 коммутаторах настроено?

Share this post


Link to post
Share on other sites

при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами.

ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами.

Share this post


Link to post
Share on other sites

Есть там просмотр процессов.

Команду не помню, но оно есть в dis diag.

Share this post


Link to post
Share on other sites

Пробовать зеркалить трафик. Начать с arp-пакетов.

Что на L3 коммутаторах настроено?

Что именно настроено?

 

при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами.

ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами.

 

Ну вот инфо с 2х коммутаторов:

-------[CIST Global Info][Mode MSTP]-------
CIST Bridge         :4096.4001-c68f-5e00
Bridge Times        :Hello 2s MaxAge 20s FwDly 15s MaxHop 20
CIST Root/ERPC      :0.001e-c1e1-fd91 / 0
CIST RegRoot/IRPC   :0.001e-c1e1-fd91 / 14
CIST RootPortId     :128.75
BPDU-Protection     :disabled
TC-Protection       :enabled / Threshold=6
Bridge Config
Digest Snooping     :disabled
CIST Root Type      :SECONDARY root
TC or TCN received  :1650
Time since last TC  :0 days 0h:3m:36s

 

 

-------[CIST Global Info][Mode MSTP]-------
CIST Bridge         :32768.4001-c68f-6180
Bridge Times        :Hello 2s MaxAge 20s FwDly 15s MaxHop 20
CIST Root/ERPC      :0.001e-c1e1-fd91 / 0
CIST RegRoot/IRPC   :0.001e-c1e1-fd91 / 20
CIST RootPortId     :128.1
BPDU-Protection     :disabled
TC-Protection       :enabled / Threshold=6
Bridge Config
Digest Snooping     :disabled
TC or TCN received  :2781
Time since last TC  :0 days 0h:3m:9s

 

Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад?

 

Есть там просмотр процессов.

Команду не помню, но оно есть в dis diag.

Спасибо. Я поищу.

Видел вывод просто dis diag, но там столько инфы вываливает, что до пенсии изучать можно.

Edited by shader

Share this post


Link to post
Share on other sites

dis cpu 1 ve

Но лучше бы действительно посмотреть dis diag

Share this post


Link to post
Share on other sites
Time since last TC :0 days 0h:3m:9s

Надо искать причину изменения топологии.

Share this post


Link to post
Share on other sites

Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад?

 

Если на клиентском порту не включен portfast (какой аналог у 3com я не знаю, если как у h3c - то stp edged port), а порт up/down - то будут TC в пределах stp домена.

Edited by DejaVu

Share this post


Link to post
Share on other sites

И ещё посмотрите в сторону мультикаста - он нехило грузит проц.

Share this post


Link to post
Share on other sites

dis cpu 1 ve

Но лучше бы действительно посмотреть dis diag

dis cpu и только.

Дальнейших модификаций нет. (?) - <cr>

 

И ещё посмотрите в сторону мультикаста - он нехило грузит проц.

Отключен и не используется. Пока не используется. А там поживем - увидим.

В общем, пинок в направлении STP получен, буду ковырять оный. Как вариант, перебрасывать Vlans в другие Instance и смотреть на tcn в этих инстанцах. Процесс длительный, но и мне торопиться особо не куда.

А вот ещё такой вопрос касательно Mstp:

А можно ли на разных коммутаторах в region-configuration назначать разным Instance разные Vlan ? Это корректно?

Edited by shader

Share this post


Link to post
Share on other sites

dis cpu и только.

 

3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A

Прошивки между 3com/h3c/hp подходят, живут здесь:

https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A

Share this post


Link to post
Share on other sites

Switch 4800G 24-Port SFP Software Version 5.20 Release 2221P01

Я вот на этом софте сижу

Share this post


Link to post
Share on other sites

dis cpu и только.

 

3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A

Прошивки между 3com/h3c/hp подходят, живут здесь:

https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A

там от бутрома зависит. Наша организация на закате трикома купила 7910e. А он через считанные месяцы стал HP 7500. И официально вроде прошивки с этого 7500 подходят и на 7910е, но реально прошивка не стартует. Я пробовал. Звонил в ТП, сказали гарантии нет - давай досвиданья.

А с нового 5500 (который НР) даже официально нельзя поставить прошивки на старый 5500G-EI, который еще 3com. Может, конечно можно как-то перешить bootrom... Но я не пробовал если честно.

В общем, вот список 100% совместимых прошивок для старых 5500

https://h10145.www1.hp.com/downloads/SoftwareReleases.aspx?ProductNumber=JF553A〈=ru&cc=ru&prodSeriesID=4236591

а вот инструмент поиска

http://h17007.www1.hp.com/ru/ru/support/converter/index.aspx

Edited by shader

Share this post


Link to post
Share on other sites

Jaguar77

Блин, точно, у трикома это 4800G, pardonne.

Share this post


Link to post
Share on other sites

Я что-то не понял о чём вы. У меня 3COM 4800G в него залиты прошивки от HP. Всё работает как в аптеке.

Share this post


Link to post
Share on other sites

Обнаружил на транковом порту вот это:

Output: 1445 output errors,  - underruns, - buffer failures
 1445 aborts, 0 deferred, 0 collisions, 0 late collisions
 0 lost carrier, - no carrier

Это сильно критично?

Share this post


Link to post
Share on other sites

у 4800G по-умолчанию Comware 5.20, у 5500G Comware 3.20 ( она урезанная, например нету Sflow).

Share this post


Link to post
Share on other sites

Обнаружил на транковом порту вот это:

Output: 1445 output errors,  - underruns, - buffer failures
 1445 aborts, 0 deferred, 0 collisions, 0 late collisions
 0 lost carrier, - no carrier

Это сильно критично?

смотрите динамику. Вообще любые ошибки это плохо :)

Share this post


Link to post
Share on other sites

Найдено в diagnostic information (на нескольких свичах как минимум):

CPU packet rx-rate over threshold 2443 times, recent 10 times recorded:
--Record 1-- May 12 2015 11:36:31
  CPU usage: 84%,   RX-RATE: CPU-165, CosQ1-114, Pri-2, by Protocol/ by Port:
  ARP-114,
  (0,12)-79
--Record 2-- May 12 2015 11:36:26
  CPU usage: 95%,   RX-RATE: CPU-585, CosQ1-496, Pri-2, by Protocol/ by Port:
  ARP-496,    Other-858993458
  (0,12)-264
--Record 3-- May 12 2015 11:36:21
  CPU usage: 98%,   RX-RATE: CPU-330, CosQ1-166, Pri-2, by Protocol/ by Port:
  ARP-168,    Other-858993457
  (0,12)-103
--Record 4-- May 12 2015 11:36:21
  CPU usage: 98%,   RX-RATE: CPU-330, CosQ0-113, Pri-1, by Protocol/ by Port:
  ICMP-1,    Other-112
  (1,2)-27
--Record 5-- May 12 2015 11:35:10
  CPU usage: 58%,   RX-RATE: CPU-420, CosQ1-353, Pri-2, by Protocol/ by Port:
  ARP-353,
  (0,12)-209
--Record 6-- May 12 2015 11:35:05
  CPU usage: 90%,   RX-RATE: CPU-740, CosQ1-531, Pri-2, by Protocol/ by Port:
  ARP-531,
  (0,12)-268
--Record 7-- May 12 2015 11:35:05
  CPU usage: 90%,   RX-RATE: CPU-740, CosQ0-133, Pri-1, by Protocol/ by Port:
  ICMP-0,    Other-133
  (0,10)-41
  (1,0)-27
--Record 8-- May 12 2015 11:33:20
  CPU usage: 46%,   RX-RATE: CPU-188, CosQ1-124, Pri-2, by Protocol/ by Port:
  ARP-125,    Other-858993458
  (0,12)-77
--Record 9-- May 12 2015 11:33:15
  CPU usage: 70%,   RX-RATE: CPU-666, CosQ1-592, Pri-2, by Protocol/ by Port:
  ARP-593,    Other-858993459
  (0,10)-157
  (0,12)-189
--Record 10-- May 12 2015 11:33:10
  CPU usage: 98%,   RX-RATE: CPU-921, CosQ1-732, Pri-2, by Protocol/ by Port:
  ARP-732,    Other-858993458
  (0,12)-366

-------------------- display Driver L3UC --------------------

ARP area:
--------------
932--Total entries recorded by driver and h/w,   914(914)--Real entries(Max)
0--Times of failed addition for h/w "Table Full"

Broadcast storm?

Share this post


Link to post
Share on other sites

Broadcast storm?

Угу, в влане управления. Он же у вас отделён от клиентских сетей?

Share this post


Link to post
Share on other sites

Broadcast storm?

Угу, в влане управления. Он же у вас отделён от клиентских сетей?

Конечно. X/24 сеть только для коммутаторов.

PS. Предположительно, нашёл проблему: Коммутатор 3com 4210 (L2, на доступе) сошёл с ума, он сам поднял порт в который ничего не воткнуто и начал молотить на нем errors.

Принудительно выключил порт и стало легче.

Edited by shader

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this