Jump to content

Что может так грузить L3 коммутаторы? проблемы корпоративной сети

Здравствуйте, коллеги.

Мучаюсь уже не первую неделю и не могу решить задачу, что же так может грузить L3 коммутаторы!

Итак, дано:

Корпоративная сеть. Без выхода в интернет.

Вот такие вот коммутаторы на схеме ниже:

http://market.yandex.ru/product/2662768/spec?hid=91088&track=tabs

И они же но SFP 3com 5500G-EI 24 SFP (найти описание нормальное не могу)

Плюс один модульный 3com 7910e (24 port Gigabit SFP) Все описанные коммутаторы L3.

Сама схема

post-78342-001280200 1431411622_thumb.png

За этими коммутаторами стоят пользовательские (на схеме не отражены дабы не нагружать).

Изначально все 5500 коммутаторы, кроме (7910 и 5500-k43-CORE) работали как банальные L2 молотилки, агрегируя все Vlan на ядрах.

На ядрах были прибиты Ip интерфейсы для каждого Vlan с VRRP адресами для default gateway в каждом vlan.

Во всей сети включен STP (mstp mode). По нему линки резервировались.

В какой то момент началось вот это:

post-78342-028890800 1431412455_thumb.png

И оно же но в другом масштабе:

post-78342-030153500 1431412596_thumb.png

Загрузка всех 5500G-EI начала скакать от текущего значения до 100% на короткие промежутки времени. Больше всего на 5500-k43-Core.

Пробовал:

1. Поднять версию ПО на всех коммутаторах до последней.

2. Разнес Ip интерфейсы почти всех Vlan на уровни агрегации (кроме Vlan's голоса и видеонаблюдения), поднял ospf, дабы локализовать проблемный Vlan.

Тоже не помогло.

Интересно, что CPU всех пользовательских L2 коммутаторов в норме.

Собственно, хотелось бы услышать мнение более опытных коллег и сузить ареал поиска и выбрать наиболее эффективную методику поиска и устранения проблемы.

Ловить пакеты Wireshark? На что посмотреть? Spanning-tree?

Share this post


Link to post
Share on other sites

А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")?

та если бы....

Я бы тогда уже имел важную информацию, и так много б не распинался.

Share this post


Link to post
Share on other sites

при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами.

ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами.

Share this post


Link to post
Share on other sites

Пробовать зеркалить трафик. Начать с arp-пакетов.

Что на L3 коммутаторах настроено?

Что именно настроено?

 

при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами.

ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами.

 

Ну вот инфо с 2х коммутаторов:

-------[CIST Global Info][Mode MSTP]-------
CIST Bridge         :4096.4001-c68f-5e00
Bridge Times        :Hello 2s MaxAge 20s FwDly 15s MaxHop 20
CIST Root/ERPC      :0.001e-c1e1-fd91 / 0
CIST RegRoot/IRPC   :0.001e-c1e1-fd91 / 14
CIST RootPortId     :128.75
BPDU-Protection     :disabled
TC-Protection       :enabled / Threshold=6
Bridge Config
Digest Snooping     :disabled
CIST Root Type      :SECONDARY root
TC or TCN received  :1650
Time since last TC  :0 days 0h:3m:36s

 

 

-------[CIST Global Info][Mode MSTP]-------
CIST Bridge         :32768.4001-c68f-6180
Bridge Times        :Hello 2s MaxAge 20s FwDly 15s MaxHop 20
CIST Root/ERPC      :0.001e-c1e1-fd91 / 0
CIST RegRoot/IRPC   :0.001e-c1e1-fd91 / 20
CIST RootPortId     :128.1
BPDU-Protection     :disabled
TC-Protection       :enabled / Threshold=6
Bridge Config
Digest Snooping     :disabled
TC or TCN received  :2781
Time since last TC  :0 days 0h:3m:9s

 

Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад?

 

Есть там просмотр процессов.

Команду не помню, но оно есть в dis diag.

Спасибо. Я поищу.

Видел вывод просто dis diag, но там столько инфы вываливает, что до пенсии изучать можно.

Edited by shader

Share this post


Link to post
Share on other sites

Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад?

 

Если на клиентском порту не включен portfast (какой аналог у 3com я не знаю, если как у h3c - то stp edged port), а порт up/down - то будут TC в пределах stp домена.

Edited by DejaVu

Share this post


Link to post
Share on other sites

И ещё посмотрите в сторону мультикаста - он нехило грузит проц.

особенно когда прилетают tcn.

http://stevehaskew.blogspot.ru/2012/08/multicast-igmp-and-spanning-tree.html

Share this post


Link to post
Share on other sites

dis cpu 1 ve

Но лучше бы действительно посмотреть dis diag

dis cpu и только.

Дальнейших модификаций нет. (?) - <cr>

 

И ещё посмотрите в сторону мультикаста - он нехило грузит проц.

Отключен и не используется. Пока не используется. А там поживем - увидим.

В общем, пинок в направлении STP получен, буду ковырять оный. Как вариант, перебрасывать Vlans в другие Instance и смотреть на tcn в этих инстанцах. Процесс длительный, но и мне торопиться особо не куда.

А вот ещё такой вопрос касательно Mstp:

А можно ли на разных коммутаторах в region-configuration назначать разным Instance разные Vlan ? Это корректно?

Edited by shader

Share this post


Link to post
Share on other sites

dis cpu и только.

 

3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A

Прошивки между 3com/h3c/hp подходят, живут здесь:

https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A

Share this post


Link to post
Share on other sites

dis cpu и только.

 

3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A

Прошивки между 3com/h3c/hp подходят, живут здесь:

https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A

там от бутрома зависит. Наша организация на закате трикома купила 7910e. А он через считанные месяцы стал HP 7500. И официально вроде прошивки с этого 7500 подходят и на 7910е, но реально прошивка не стартует. Я пробовал. Звонил в ТП, сказали гарантии нет - давай досвиданья.

А с нового 5500 (который НР) даже официально нельзя поставить прошивки на старый 5500G-EI, который еще 3com. Может, конечно можно как-то перешить bootrom... Но я не пробовал если честно.

В общем, вот список 100% совместимых прошивок для старых 5500

https://h10145.www1.hp.com/downloads/SoftwareReleases.aspx?ProductNumber=JF553A〈=ru&cc=ru&prodSeriesID=4236591

а вот инструмент поиска

http://h17007.www1.hp.com/ru/ru/support/converter/index.aspx

Edited by shader

Share this post


Link to post
Share on other sites

Обнаружил на транковом порту вот это:

Output: 1445 output errors,  - underruns, - buffer failures
 1445 aborts, 0 deferred, 0 collisions, 0 late collisions
 0 lost carrier, - no carrier

Это сильно критично?

Share this post


Link to post
Share on other sites

Обнаружил на транковом порту вот это:

Output: 1445 output errors,  - underruns, - buffer failures
 1445 aborts, 0 deferred, 0 collisions, 0 late collisions
 0 lost carrier, - no carrier

Это сильно критично?

смотрите динамику. Вообще любые ошибки это плохо :)

Share this post


Link to post
Share on other sites

Найдено в diagnostic information (на нескольких свичах как минимум):

CPU packet rx-rate over threshold 2443 times, recent 10 times recorded:
--Record 1-- May 12 2015 11:36:31
  CPU usage: 84%,   RX-RATE: CPU-165, CosQ1-114, Pri-2, by Protocol/ by Port:
  ARP-114,
  (0,12)-79
--Record 2-- May 12 2015 11:36:26
  CPU usage: 95%,   RX-RATE: CPU-585, CosQ1-496, Pri-2, by Protocol/ by Port:
  ARP-496,    Other-858993458
  (0,12)-264
--Record 3-- May 12 2015 11:36:21
  CPU usage: 98%,   RX-RATE: CPU-330, CosQ1-166, Pri-2, by Protocol/ by Port:
  ARP-168,    Other-858993457
  (0,12)-103
--Record 4-- May 12 2015 11:36:21
  CPU usage: 98%,   RX-RATE: CPU-330, CosQ0-113, Pri-1, by Protocol/ by Port:
  ICMP-1,    Other-112
  (1,2)-27
--Record 5-- May 12 2015 11:35:10
  CPU usage: 58%,   RX-RATE: CPU-420, CosQ1-353, Pri-2, by Protocol/ by Port:
  ARP-353,
  (0,12)-209
--Record 6-- May 12 2015 11:35:05
  CPU usage: 90%,   RX-RATE: CPU-740, CosQ1-531, Pri-2, by Protocol/ by Port:
  ARP-531,
  (0,12)-268
--Record 7-- May 12 2015 11:35:05
  CPU usage: 90%,   RX-RATE: CPU-740, CosQ0-133, Pri-1, by Protocol/ by Port:
  ICMP-0,    Other-133
  (0,10)-41
  (1,0)-27
--Record 8-- May 12 2015 11:33:20
  CPU usage: 46%,   RX-RATE: CPU-188, CosQ1-124, Pri-2, by Protocol/ by Port:
  ARP-125,    Other-858993458
  (0,12)-77
--Record 9-- May 12 2015 11:33:15
  CPU usage: 70%,   RX-RATE: CPU-666, CosQ1-592, Pri-2, by Protocol/ by Port:
  ARP-593,    Other-858993459
  (0,10)-157
  (0,12)-189
--Record 10-- May 12 2015 11:33:10
  CPU usage: 98%,   RX-RATE: CPU-921, CosQ1-732, Pri-2, by Protocol/ by Port:
  ARP-732,    Other-858993458
  (0,12)-366

-------------------- display Driver L3UC --------------------

ARP area:
--------------
932--Total entries recorded by driver and h/w,   914(914)--Real entries(Max)
0--Times of failed addition for h/w "Table Full"

Broadcast storm?

Share this post


Link to post
Share on other sites

Broadcast storm?

Угу, в влане управления. Он же у вас отделён от клиентских сетей?

Конечно. X/24 сеть только для коммутаторов.

PS. Предположительно, нашёл проблему: Коммутатор 3com 4210 (L2, на доступе) сошёл с ума, он сам поднял порт в который ничего не воткнуто и начал молотить на нем errors.

Принудительно выключил порт и стало легче.

Edited by shader

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.