Перейти к содержимому
Калькуляторы

Что может так грузить L3 коммутаторы? проблемы корпоративной сети

Здравствуйте, коллеги.

Мучаюсь уже не первую неделю и не могу решить задачу, что же так может грузить L3 коммутаторы!

Итак, дано:

Корпоративная сеть. Без выхода в интернет.

Вот такие вот коммутаторы на схеме ниже:

http://market.yandex.ru/product/2662768/spec?hid=91088&track=tabs

И они же но SFP 3com 5500G-EI 24 SFP (найти описание нормальное не могу)

Плюс один модульный 3com 7910e (24 port Gigabit SFP) Все описанные коммутаторы L3.

Сама схема

post-78342-001280200 1431411622_thumb.png

За этими коммутаторами стоят пользовательские (на схеме не отражены дабы не нагружать).

Изначально все 5500 коммутаторы, кроме (7910 и 5500-k43-CORE) работали как банальные L2 молотилки, агрегируя все Vlan на ядрах.

На ядрах были прибиты Ip интерфейсы для каждого Vlan с VRRP адресами для default gateway в каждом vlan.

Во всей сети включен STP (mstp mode). По нему линки резервировались.

В какой то момент началось вот это:

post-78342-028890800 1431412455_thumb.png

И оно же но в другом масштабе:

post-78342-030153500 1431412596_thumb.png

Загрузка всех 5500G-EI начала скакать от текущего значения до 100% на короткие промежутки времени. Больше всего на 5500-k43-Core.

Пробовал:

1. Поднять версию ПО на всех коммутаторах до последней.

2. Разнес Ip интерфейсы почти всех Vlan на уровни агрегации (кроме Vlan's голоса и видеонаблюдения), поднял ospf, дабы локализовать проблемный Vlan.

Тоже не помогло.

Интересно, что CPU всех пользовательских L2 коммутаторов в норме.

Собственно, хотелось бы услышать мнение более опытных коллег и сузить ареал поиска и выбрать наиболее эффективную методику поиска и устранения проблемы.

Ловить пакеты Wireshark? На что посмотреть? Spanning-tree?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")?

та если бы....

Я бы тогда уже имел важную информацию, и так много б не распинался.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пробовать зеркалить трафик. Начать с arp-пакетов.

Что на L3 коммутаторах настроено?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами.

ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Есть там просмотр процессов.

Команду не помню, но оно есть в dis diag.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пробовать зеркалить трафик. Начать с arp-пакетов.

Что на L3 коммутаторах настроено?

Что именно настроено?

 

при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами.

ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами.

 

Ну вот инфо с 2х коммутаторов:

-------[CIST Global Info][Mode MSTP]-------
CIST Bridge         :4096.4001-c68f-5e00
Bridge Times        :Hello 2s MaxAge 20s FwDly 15s MaxHop 20
CIST Root/ERPC      :0.001e-c1e1-fd91 / 0
CIST RegRoot/IRPC   :0.001e-c1e1-fd91 / 14
CIST RootPortId     :128.75
BPDU-Protection     :disabled
TC-Protection       :enabled / Threshold=6
Bridge Config
Digest Snooping     :disabled
CIST Root Type      :SECONDARY root
TC or TCN received  :1650
Time since last TC  :0 days 0h:3m:36s

 

 

-------[CIST Global Info][Mode MSTP]-------
CIST Bridge         :32768.4001-c68f-6180
Bridge Times        :Hello 2s MaxAge 20s FwDly 15s MaxHop 20
CIST Root/ERPC      :0.001e-c1e1-fd91 / 0
CIST RegRoot/IRPC   :0.001e-c1e1-fd91 / 20
CIST RootPortId     :128.1
BPDU-Protection     :disabled
TC-Protection       :enabled / Threshold=6
Bridge Config
Digest Snooping     :disabled
TC or TCN received  :2781
Time since last TC  :0 days 0h:3m:9s

 

Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад?

 

Есть там просмотр процессов.

Команду не помню, но оно есть в dis diag.

Спасибо. Я поищу.

Видел вывод просто dis diag, но там столько инфы вываливает, что до пенсии изучать можно.

Изменено пользователем shader

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

dis cpu 1 ve

Но лучше бы действительно посмотреть dis diag

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Time since last TC :0 days 0h:3m:9s

Надо искать причину изменения топологии.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад?

 

Если на клиентском порту не включен portfast (какой аналог у 3com я не знаю, если как у h3c - то stp edged port), а порт up/down - то будут TC в пределах stp домена.

Изменено пользователем DejaVu

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

И ещё посмотрите в сторону мультикаста - он нехило грузит проц.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

И ещё посмотрите в сторону мультикаста - он нехило грузит проц.

особенно когда прилетают tcn.

http://stevehaskew.blogspot.ru/2012/08/multicast-igmp-and-spanning-tree.html

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

dis cpu 1 ve

Но лучше бы действительно посмотреть dis diag

dis cpu и только.

Дальнейших модификаций нет. (?) - <cr>

 

И ещё посмотрите в сторону мультикаста - он нехило грузит проц.

Отключен и не используется. Пока не используется. А там поживем - увидим.

В общем, пинок в направлении STP получен, буду ковырять оный. Как вариант, перебрасывать Vlans в другие Instance и смотреть на tcn в этих инстанцах. Процесс длительный, но и мне торопиться особо не куда.

А вот ещё такой вопрос касательно Mstp:

А можно ли на разных коммутаторах в region-configuration назначать разным Instance разные Vlan ? Это корректно?

Изменено пользователем shader

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

dis cpu и только.

 

3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A

Прошивки между 3com/h3c/hp подходят, живут здесь:

https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Switch 4800G 24-Port SFP Software Version 5.20 Release 2221P01

Я вот на этом софте сижу

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

dis cpu и только.

 

3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A

Прошивки между 3com/h3c/hp подходят, живут здесь:

https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A

там от бутрома зависит. Наша организация на закате трикома купила 7910e. А он через считанные месяцы стал HP 7500. И официально вроде прошивки с этого 7500 подходят и на 7910е, но реально прошивка не стартует. Я пробовал. Звонил в ТП, сказали гарантии нет - давай досвиданья.

А с нового 5500 (который НР) даже официально нельзя поставить прошивки на старый 5500G-EI, который еще 3com. Может, конечно можно как-то перешить bootrom... Но я не пробовал если честно.

В общем, вот список 100% совместимых прошивок для старых 5500

https://h10145.www1.hp.com/downloads/SoftwareReleases.aspx?ProductNumber=JF553A〈=ru&cc=ru&prodSeriesID=4236591

а вот инструмент поиска

http://h17007.www1.hp.com/ru/ru/support/converter/index.aspx

Изменено пользователем shader

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Jaguar77

Блин, точно, у трикома это 4800G, pardonne.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я что-то не понял о чём вы. У меня 3COM 4800G в него залиты прошивки от HP. Всё работает как в аптеке.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Обнаружил на транковом порту вот это:

Output: 1445 output errors,  - underruns, - buffer failures
 1445 aborts, 0 deferred, 0 collisions, 0 late collisions
 0 lost carrier, - no carrier

Это сильно критично?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

у 4800G по-умолчанию Comware 5.20, у 5500G Comware 3.20 ( она урезанная, например нету Sflow).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Обнаружил на транковом порту вот это:

Output: 1445 output errors,  - underruns, - buffer failures
 1445 aborts, 0 deferred, 0 collisions, 0 late collisions
 0 lost carrier, - no carrier

Это сильно критично?

смотрите динамику. Вообще любые ошибки это плохо :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Найдено в diagnostic information (на нескольких свичах как минимум):

CPU packet rx-rate over threshold 2443 times, recent 10 times recorded:
--Record 1-- May 12 2015 11:36:31
  CPU usage: 84%,   RX-RATE: CPU-165, CosQ1-114, Pri-2, by Protocol/ by Port:
  ARP-114,
  (0,12)-79
--Record 2-- May 12 2015 11:36:26
  CPU usage: 95%,   RX-RATE: CPU-585, CosQ1-496, Pri-2, by Protocol/ by Port:
  ARP-496,    Other-858993458
  (0,12)-264
--Record 3-- May 12 2015 11:36:21
  CPU usage: 98%,   RX-RATE: CPU-330, CosQ1-166, Pri-2, by Protocol/ by Port:
  ARP-168,    Other-858993457
  (0,12)-103
--Record 4-- May 12 2015 11:36:21
  CPU usage: 98%,   RX-RATE: CPU-330, CosQ0-113, Pri-1, by Protocol/ by Port:
  ICMP-1,    Other-112
  (1,2)-27
--Record 5-- May 12 2015 11:35:10
  CPU usage: 58%,   RX-RATE: CPU-420, CosQ1-353, Pri-2, by Protocol/ by Port:
  ARP-353,
  (0,12)-209
--Record 6-- May 12 2015 11:35:05
  CPU usage: 90%,   RX-RATE: CPU-740, CosQ1-531, Pri-2, by Protocol/ by Port:
  ARP-531,
  (0,12)-268
--Record 7-- May 12 2015 11:35:05
  CPU usage: 90%,   RX-RATE: CPU-740, CosQ0-133, Pri-1, by Protocol/ by Port:
  ICMP-0,    Other-133
  (0,10)-41
  (1,0)-27
--Record 8-- May 12 2015 11:33:20
  CPU usage: 46%,   RX-RATE: CPU-188, CosQ1-124, Pri-2, by Protocol/ by Port:
  ARP-125,    Other-858993458
  (0,12)-77
--Record 9-- May 12 2015 11:33:15
  CPU usage: 70%,   RX-RATE: CPU-666, CosQ1-592, Pri-2, by Protocol/ by Port:
  ARP-593,    Other-858993459
  (0,10)-157
  (0,12)-189
--Record 10-- May 12 2015 11:33:10
  CPU usage: 98%,   RX-RATE: CPU-921, CosQ1-732, Pri-2, by Protocol/ by Port:
  ARP-732,    Other-858993458
  (0,12)-366

-------------------- display Driver L3UC --------------------

ARP area:
--------------
932--Total entries recorded by driver and h/w,   914(914)--Real entries(Max)
0--Times of failed addition for h/w "Table Full"

Broadcast storm?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Broadcast storm?

Угу, в влане управления. Он же у вас отделён от клиентских сетей?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Broadcast storm?

Угу, в влане управления. Он же у вас отделён от клиентских сетей?

Конечно. X/24 сеть только для коммутаторов.

PS. Предположительно, нашёл проблему: Коммутатор 3com 4210 (L2, на доступе) сошёл с ума, он сам поднял порт в который ничего не воткнуто и начал молотить на нем errors.

Принудительно выключил порт и стало легче.

Изменено пользователем shader

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.