shader Posted May 12, 2015 Posted May 12, 2015 Здравствуйте, коллеги. Мучаюсь уже не первую неделю и не могу решить задачу, что же так может грузить L3 коммутаторы! Итак, дано: Корпоративная сеть. Без выхода в интернет. Вот такие вот коммутаторы на схеме ниже: http://market.yandex.ru/product/2662768/spec?hid=91088&track=tabs И они же но SFP 3com 5500G-EI 24 SFP (найти описание нормальное не могу) Плюс один модульный 3com 7910e (24 port Gigabit SFP) Все описанные коммутаторы L3. Сама схема За этими коммутаторами стоят пользовательские (на схеме не отражены дабы не нагружать). Изначально все 5500 коммутаторы, кроме (7910 и 5500-k43-CORE) работали как банальные L2 молотилки, агрегируя все Vlan на ядрах. На ядрах были прибиты Ip интерфейсы для каждого Vlan с VRRP адресами для default gateway в каждом vlan. Во всей сети включен STP (mstp mode). По нему линки резервировались. В какой то момент началось вот это: И оно же но в другом масштабе: Загрузка всех 5500G-EI начала скакать от текущего значения до 100% на короткие промежутки времени. Больше всего на 5500-k43-Core. Пробовал: 1. Поднять версию ПО на всех коммутаторах до последней. 2. Разнес Ip интерфейсы почти всех Vlan на уровни агрегации (кроме Vlan's голоса и видеонаблюдения), поднял ospf, дабы локализовать проблемный Vlan. Тоже не помогло. Интересно, что CPU всех пользовательских L2 коммутаторов в норме. Собственно, хотелось бы услышать мнение более опытных коллег и сузить ареал поиска и выбрать наиболее эффективную методику поиска и устранения проблемы. Ловить пакеты Wireshark? На что посмотреть? Spanning-tree? Вставить ник Quote
TheUser Posted May 12, 2015 Posted May 12, 2015 А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")? Вставить ник Quote
shader Posted May 12, 2015 Author Posted May 12, 2015 А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")? та если бы.... Я бы тогда уже имел важную информацию, и так много б не распинался. Вставить ник Quote
TheUser Posted May 12, 2015 Posted May 12, 2015 Пробовать зеркалить трафик. Начать с arp-пакетов. Что на L3 коммутаторах настроено? Вставить ник Quote
darkagent Posted May 12, 2015 Posted May 12, 2015 при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами. ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами. Вставить ник Quote
uxcr Posted May 12, 2015 Posted May 12, 2015 Есть там просмотр процессов. Команду не помню, но оно есть в dis diag. Вставить ник Quote
shader Posted May 12, 2015 Author Posted May 12, 2015 (edited) Пробовать зеркалить трафик. Начать с arp-пакетов. Что на L3 коммутаторах настроено? Что именно настроено? при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами. ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами. Ну вот инфо с 2х коммутаторов: -------[CIST Global Info][Mode MSTP]------- CIST Bridge :4096.4001-c68f-5e00 Bridge Times :Hello 2s MaxAge 20s FwDly 15s MaxHop 20 CIST Root/ERPC :0.001e-c1e1-fd91 / 0 CIST RegRoot/IRPC :0.001e-c1e1-fd91 / 14 CIST RootPortId :128.75 BPDU-Protection :disabled TC-Protection :enabled / Threshold=6 Bridge Config Digest Snooping :disabled CIST Root Type :SECONDARY root TC or TCN received :1650 Time since last TC :0 days 0h:3m:36s -------[CIST Global Info][Mode MSTP]------- CIST Bridge :32768.4001-c68f-6180 Bridge Times :Hello 2s MaxAge 20s FwDly 15s MaxHop 20 CIST Root/ERPC :0.001e-c1e1-fd91 / 0 CIST RegRoot/IRPC :0.001e-c1e1-fd91 / 20 CIST RootPortId :128.1 BPDU-Protection :disabled TC-Protection :enabled / Threshold=6 Bridge Config Digest Snooping :disabled TC or TCN received :2781 Time since last TC :0 days 0h:3m:9s Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад? Есть там просмотр процессов. Команду не помню, но оно есть в dis diag. Спасибо. Я поищу. Видел вывод просто dis diag, но там столько инфы вываливает, что до пенсии изучать можно. Edited May 12, 2015 by shader Вставить ник Quote
uxcr Posted May 12, 2015 Posted May 12, 2015 dis cpu 1 ve Но лучше бы действительно посмотреть dis diag Вставить ник Quote
TheUser Posted May 12, 2015 Posted May 12, 2015 Time since last TC :0 days 0h:3m:9s Надо искать причину изменения топологии. Вставить ник Quote
DejaVu Posted May 12, 2015 Posted May 12, 2015 (edited) Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад? Если на клиентском порту не включен portfast (какой аналог у 3com я не знаю, если как у h3c - то stp edged port), а порт up/down - то будут TC в пределах stp домена. Edited May 12, 2015 by DejaVu Вставить ник Quote
Butch3r Posted May 12, 2015 Posted May 12, 2015 И ещё посмотрите в сторону мультикаста - он нехило грузит проц. Вставить ник Quote
darkagent Posted May 12, 2015 Posted May 12, 2015 И ещё посмотрите в сторону мультикаста - он нехило грузит проц. особенно когда прилетают tcn. http://stevehaskew.blogspot.ru/2012/08/multicast-igmp-and-spanning-tree.html Вставить ник Quote
shader Posted May 12, 2015 Author Posted May 12, 2015 (edited) dis cpu 1 ve Но лучше бы действительно посмотреть dis diag dis cpu и только. Дальнейших модификаций нет. (?) - <cr> И ещё посмотрите в сторону мультикаста - он нехило грузит проц. Отключен и не используется. Пока не используется. А там поживем - увидим. В общем, пинок в направлении STP получен, буду ковырять оный. Как вариант, перебрасывать Vlans в другие Instance и смотреть на tcn в этих инстанцах. Процесс длительный, но и мне торопиться особо не куда. А вот ещё такой вопрос касательно Mstp: А можно ли на разных коммутаторах в region-configuration назначать разным Instance разные Vlan ? Это корректно? Edited May 12, 2015 by shader Вставить ник Quote
uxcr Posted May 12, 2015 Posted May 12, 2015 dis cpu и только. 3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A Прошивки между 3com/h3c/hp подходят, живут здесь: https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A Вставить ник Quote
Butch3r Posted May 12, 2015 Posted May 12, 2015 Switch 4800G 24-Port SFP Software Version 5.20 Release 2221P01 Я вот на этом софте сижу Вставить ник Quote
shader Posted May 12, 2015 Author Posted May 12, 2015 (edited) dis cpu и только. 3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A Прошивки между 3com/h3c/hp подходят, живут здесь: https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A там от бутрома зависит. Наша организация на закате трикома купила 7910e. А он через считанные месяцы стал HP 7500. И официально вроде прошивки с этого 7500 подходят и на 7910е, но реально прошивка не стартует. Я пробовал. Звонил в ТП, сказали гарантии нет - давай досвиданья. А с нового 5500 (который НР) даже официально нельзя поставить прошивки на старый 5500G-EI, который еще 3com. Может, конечно можно как-то перешить bootrom... Но я не пробовал если честно. В общем, вот список 100% совместимых прошивок для старых 5500 https://h10145.www1.hp.com/downloads/SoftwareReleases.aspx?ProductNumber=JF553A〈=ru&cc=ru&prodSeriesID=4236591 а вот инструмент поиска http://h17007.www1.hp.com/ru/ru/support/converter/index.aspx Edited May 12, 2015 by shader Вставить ник Quote
uxcr Posted May 12, 2015 Posted May 12, 2015 Jaguar77 Блин, точно, у трикома это 4800G, pardonne. Вставить ник Quote
Butch3r Posted May 12, 2015 Posted May 12, 2015 Я что-то не понял о чём вы. У меня 3COM 4800G в него залиты прошивки от HP. Всё работает как в аптеке. Вставить ник Quote
shader Posted May 12, 2015 Author Posted May 12, 2015 Обнаружил на транковом порту вот это: Output: 1445 output errors, - underruns, - buffer failures 1445 aborts, 0 deferred, 0 collisions, 0 late collisions 0 lost carrier, - no carrier Это сильно критично? Вставить ник Quote
Jaguar77 Posted May 12, 2015 Posted May 12, 2015 у 4800G по-умолчанию Comware 5.20, у 5500G Comware 3.20 ( она урезанная, например нету Sflow). Вставить ник Quote
Butch3r Posted May 12, 2015 Posted May 12, 2015 Обнаружил на транковом порту вот это: Output: 1445 output errors, - underruns, - buffer failures 1445 aborts, 0 deferred, 0 collisions, 0 late collisions 0 lost carrier, - no carrier Это сильно критично? смотрите динамику. Вообще любые ошибки это плохо :) Вставить ник Quote
shader Posted May 13, 2015 Author Posted May 13, 2015 Найдено в diagnostic information (на нескольких свичах как минимум): CPU packet rx-rate over threshold 2443 times, recent 10 times recorded: --Record 1-- May 12 2015 11:36:31 CPU usage: 84%, RX-RATE: CPU-165, CosQ1-114, Pri-2, by Protocol/ by Port: ARP-114, (0,12)-79 --Record 2-- May 12 2015 11:36:26 CPU usage: 95%, RX-RATE: CPU-585, CosQ1-496, Pri-2, by Protocol/ by Port: ARP-496, Other-858993458 (0,12)-264 --Record 3-- May 12 2015 11:36:21 CPU usage: 98%, RX-RATE: CPU-330, CosQ1-166, Pri-2, by Protocol/ by Port: ARP-168, Other-858993457 (0,12)-103 --Record 4-- May 12 2015 11:36:21 CPU usage: 98%, RX-RATE: CPU-330, CosQ0-113, Pri-1, by Protocol/ by Port: ICMP-1, Other-112 (1,2)-27 --Record 5-- May 12 2015 11:35:10 CPU usage: 58%, RX-RATE: CPU-420, CosQ1-353, Pri-2, by Protocol/ by Port: ARP-353, (0,12)-209 --Record 6-- May 12 2015 11:35:05 CPU usage: 90%, RX-RATE: CPU-740, CosQ1-531, Pri-2, by Protocol/ by Port: ARP-531, (0,12)-268 --Record 7-- May 12 2015 11:35:05 CPU usage: 90%, RX-RATE: CPU-740, CosQ0-133, Pri-1, by Protocol/ by Port: ICMP-0, Other-133 (0,10)-41 (1,0)-27 --Record 8-- May 12 2015 11:33:20 CPU usage: 46%, RX-RATE: CPU-188, CosQ1-124, Pri-2, by Protocol/ by Port: ARP-125, Other-858993458 (0,12)-77 --Record 9-- May 12 2015 11:33:15 CPU usage: 70%, RX-RATE: CPU-666, CosQ1-592, Pri-2, by Protocol/ by Port: ARP-593, Other-858993459 (0,10)-157 (0,12)-189 --Record 10-- May 12 2015 11:33:10 CPU usage: 98%, RX-RATE: CPU-921, CosQ1-732, Pri-2, by Protocol/ by Port: ARP-732, Other-858993458 (0,12)-366 -------------------- display Driver L3UC -------------------- ARP area: -------------- 932--Total entries recorded by driver and h/w, 914(914)--Real entries(Max) 0--Times of failed addition for h/w "Table Full" Broadcast storm? Вставить ник Quote
uxcr Posted May 13, 2015 Posted May 13, 2015 Broadcast storm? Угу, в влане управления. Он же у вас отделён от клиентских сетей? Вставить ник Quote
shader Posted May 13, 2015 Author Posted May 13, 2015 (edited) Broadcast storm? Угу, в влане управления. Он же у вас отделён от клиентских сетей? Конечно. X/24 сеть только для коммутаторов. PS. Предположительно, нашёл проблему: Коммутатор 3com 4210 (L2, на доступе) сошёл с ума, он сам поднял порт в который ничего не воткнуто и начал молотить на нем errors. Принудительно выключил порт и стало легче. Edited May 13, 2015 by shader Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.