shader Опубликовано 12 мая, 2015 · Жалоба Здравствуйте, коллеги. Мучаюсь уже не первую неделю и не могу решить задачу, что же так может грузить L3 коммутаторы! Итак, дано: Корпоративная сеть. Без выхода в интернет. Вот такие вот коммутаторы на схеме ниже: http://market.yandex.ru/product/2662768/spec?hid=91088&track=tabs И они же но SFP 3com 5500G-EI 24 SFP (найти описание нормальное не могу) Плюс один модульный 3com 7910e (24 port Gigabit SFP) Все описанные коммутаторы L3. Сама схема За этими коммутаторами стоят пользовательские (на схеме не отражены дабы не нагружать). Изначально все 5500 коммутаторы, кроме (7910 и 5500-k43-CORE) работали как банальные L2 молотилки, агрегируя все Vlan на ядрах. На ядрах были прибиты Ip интерфейсы для каждого Vlan с VRRP адресами для default gateway в каждом vlan. Во всей сети включен STP (mstp mode). По нему линки резервировались. В какой то момент началось вот это: И оно же но в другом масштабе: Загрузка всех 5500G-EI начала скакать от текущего значения до 100% на короткие промежутки времени. Больше всего на 5500-k43-Core. Пробовал: 1. Поднять версию ПО на всех коммутаторах до последней. 2. Разнес Ip интерфейсы почти всех Vlan на уровни агрегации (кроме Vlan's голоса и видеонаблюдения), поднял ospf, дабы локализовать проблемный Vlan. Тоже не помогло. Интересно, что CPU всех пользовательских L2 коммутаторов в норме. Собственно, хотелось бы услышать мнение более опытных коллег и сузить ареал поиска и выбрать наиболее эффективную методику поиска и устранения проблемы. Ловить пакеты Wireshark? На что посмотреть? Spanning-tree? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
TheUser Опубликовано 12 мая, 2015 · Жалоба А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shader Опубликовано 12 мая, 2015 · Жалоба А есть возможность посмотреть процессы на коммутаторах (что-то типа цискиного "show processes cpu")? та если бы.... Я бы тогда уже имел важную информацию, и так много б не распинался. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
TheUser Опубликовано 12 мая, 2015 · Жалоба Пробовать зеркалить трафик. Начать с arp-пакетов. Что на L3 коммутаторах настроено? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
darkagent Опубликовано 12 мая, 2015 · Жалоба при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами. ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
uxcr Опубликовано 12 мая, 2015 · Жалоба Есть там просмотр процессов. Команду не помню, но оно есть в dis diag. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shader Опубликовано 12 мая, 2015 (изменено) · Жалоба Пробовать зеркалить трафик. Начать с arp-пакетов. Что на L3 коммутаторах настроено? Что именно настроено? при такой топологии я б начал смотреть с stp tcn и наличие ошибок на магистралях - если где-то начало незаметно подколбашивать линк (crc например втихаря натекают), то tcn там будет генерить тоннами. ну и на абонентских портах bpdu filter, чтоб не было сюрпризов с абонентскими мыльницами. Ну вот инфо с 2х коммутаторов: -------[CIST Global Info][Mode MSTP]------- CIST Bridge :4096.4001-c68f-5e00 Bridge Times :Hello 2s MaxAge 20s FwDly 15s MaxHop 20 CIST Root/ERPC :0.001e-c1e1-fd91 / 0 CIST RegRoot/IRPC :0.001e-c1e1-fd91 / 14 CIST RootPortId :128.75 BPDU-Protection :disabled TC-Protection :enabled / Threshold=6 Bridge Config Digest Snooping :disabled CIST Root Type :SECONDARY root TC or TCN received :1650 Time since last TC :0 days 0h:3m:36s -------[CIST Global Info][Mode MSTP]------- CIST Bridge :32768.4001-c68f-6180 Bridge Times :Hello 2s MaxAge 20s FwDly 15s MaxHop 20 CIST Root/ERPC :0.001e-c1e1-fd91 / 0 CIST RegRoot/IRPC :0.001e-c1e1-fd91 / 20 CIST RootPortId :128.1 BPDU-Protection :disabled TC-Protection :enabled / Threshold=6 Bridge Config Digest Snooping :disabled TC or TCN received :2781 Time since last TC :0 days 0h:3m:9s Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад? Есть там просмотр процессов. Команду не помню, но оно есть в dis diag. Спасибо. Я поищу. Видел вывод просто dis diag, но там столько инфы вываливает, что до пенсии изучать можно. Изменено 12 мая, 2015 пользователем shader Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
uxcr Опубликовано 12 мая, 2015 · Жалоба dis cpu 1 ve Но лучше бы действительно посмотреть dis diag Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
TheUser Опубликовано 12 мая, 2015 · Жалоба Time since last TC :0 days 0h:3m:9s Надо искать причину изменения топологии. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
DejaVu Опубликовано 12 мая, 2015 (изменено) · Жалоба Я правильно понял: за 2 дня работы (столько аптайм у свичей после перепрошивки) топология менялась 2781 раз и последний 3 минуты назад? Если на клиентском порту не включен portfast (какой аналог у 3com я не знаю, если как у h3c - то stp edged port), а порт up/down - то будут TC в пределах stp домена. Изменено 12 мая, 2015 пользователем DejaVu Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Butch3r Опубликовано 12 мая, 2015 · Жалоба И ещё посмотрите в сторону мультикаста - он нехило грузит проц. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
darkagent Опубликовано 12 мая, 2015 · Жалоба И ещё посмотрите в сторону мультикаста - он нехило грузит проц. особенно когда прилетают tcn. http://stevehaskew.blogspot.ru/2012/08/multicast-igmp-and-spanning-tree.html Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shader Опубликовано 12 мая, 2015 (изменено) · Жалоба dis cpu 1 ve Но лучше бы действительно посмотреть dis diag dis cpu и только. Дальнейших модификаций нет. (?) - <cr> И ещё посмотрите в сторону мультикаста - он нехило грузит проц. Отключен и не используется. Пока не используется. А там поживем - увидим. В общем, пинок в направлении STP получен, буду ковырять оный. Как вариант, перебрасывать Vlans в другие Instance и смотреть на tcn в этих инстанцах. Процесс длительный, но и мне торопиться особо не куда. А вот ещё такой вопрос касательно Mstp: А можно ли на разных коммутаторах в region-configuration назначать разным Instance разные Vlan ? Это корректно? Изменено 12 мая, 2015 пользователем shader Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
uxcr Опубликовано 12 мая, 2015 · Жалоба dis cpu и только. 3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A Прошивки между 3com/h3c/hp подходят, живут здесь: https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Butch3r Опубликовано 12 мая, 2015 · Жалоба Switch 4800G 24-Port SFP Software Version 5.20 Release 2221P01 Я вот на этом софте сижу Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Jaguar77 Опубликовано 12 мая, 2015 · Жалоба на 5500G ставится только 3.20 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shader Опубликовано 12 мая, 2015 (изменено) · Жалоба dis cpu и только. 3com 5500G-EI 24 SFP после нескольких операций покупки-продажи стал HP A5500-24G-SFP EI JD374A Прошивки между 3com/h3c/hp подходят, живут здесь: https://h10145.www1.hp.com/Downloads/SoftwareReleases.aspx?ProductNumber=JD374A там от бутрома зависит. Наша организация на закате трикома купила 7910e. А он через считанные месяцы стал HP 7500. И официально вроде прошивки с этого 7500 подходят и на 7910е, но реально прошивка не стартует. Я пробовал. Звонил в ТП, сказали гарантии нет - давай досвиданья. А с нового 5500 (который НР) даже официально нельзя поставить прошивки на старый 5500G-EI, который еще 3com. Может, конечно можно как-то перешить bootrom... Но я не пробовал если честно. В общем, вот список 100% совместимых прошивок для старых 5500 https://h10145.www1.hp.com/downloads/SoftwareReleases.aspx?ProductNumber=JF553A〈=ru&cc=ru&prodSeriesID=4236591 а вот инструмент поиска http://h17007.www1.hp.com/ru/ru/support/converter/index.aspx Изменено 12 мая, 2015 пользователем shader Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
uxcr Опубликовано 12 мая, 2015 · Жалоба Jaguar77 Блин, точно, у трикома это 4800G, pardonne. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Butch3r Опубликовано 12 мая, 2015 · Жалоба Я что-то не понял о чём вы. У меня 3COM 4800G в него залиты прошивки от HP. Всё работает как в аптеке. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shader Опубликовано 12 мая, 2015 · Жалоба Обнаружил на транковом порту вот это: Output: 1445 output errors, - underruns, - buffer failures 1445 aborts, 0 deferred, 0 collisions, 0 late collisions 0 lost carrier, - no carrier Это сильно критично? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Jaguar77 Опубликовано 12 мая, 2015 · Жалоба у 4800G по-умолчанию Comware 5.20, у 5500G Comware 3.20 ( она урезанная, например нету Sflow). Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Butch3r Опубликовано 12 мая, 2015 · Жалоба Обнаружил на транковом порту вот это: Output: 1445 output errors, - underruns, - buffer failures 1445 aborts, 0 deferred, 0 collisions, 0 late collisions 0 lost carrier, - no carrier Это сильно критично? смотрите динамику. Вообще любые ошибки это плохо :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shader Опубликовано 13 мая, 2015 · Жалоба Найдено в diagnostic information (на нескольких свичах как минимум): CPU packet rx-rate over threshold 2443 times, recent 10 times recorded: --Record 1-- May 12 2015 11:36:31 CPU usage: 84%, RX-RATE: CPU-165, CosQ1-114, Pri-2, by Protocol/ by Port: ARP-114, (0,12)-79 --Record 2-- May 12 2015 11:36:26 CPU usage: 95%, RX-RATE: CPU-585, CosQ1-496, Pri-2, by Protocol/ by Port: ARP-496, Other-858993458 (0,12)-264 --Record 3-- May 12 2015 11:36:21 CPU usage: 98%, RX-RATE: CPU-330, CosQ1-166, Pri-2, by Protocol/ by Port: ARP-168, Other-858993457 (0,12)-103 --Record 4-- May 12 2015 11:36:21 CPU usage: 98%, RX-RATE: CPU-330, CosQ0-113, Pri-1, by Protocol/ by Port: ICMP-1, Other-112 (1,2)-27 --Record 5-- May 12 2015 11:35:10 CPU usage: 58%, RX-RATE: CPU-420, CosQ1-353, Pri-2, by Protocol/ by Port: ARP-353, (0,12)-209 --Record 6-- May 12 2015 11:35:05 CPU usage: 90%, RX-RATE: CPU-740, CosQ1-531, Pri-2, by Protocol/ by Port: ARP-531, (0,12)-268 --Record 7-- May 12 2015 11:35:05 CPU usage: 90%, RX-RATE: CPU-740, CosQ0-133, Pri-1, by Protocol/ by Port: ICMP-0, Other-133 (0,10)-41 (1,0)-27 --Record 8-- May 12 2015 11:33:20 CPU usage: 46%, RX-RATE: CPU-188, CosQ1-124, Pri-2, by Protocol/ by Port: ARP-125, Other-858993458 (0,12)-77 --Record 9-- May 12 2015 11:33:15 CPU usage: 70%, RX-RATE: CPU-666, CosQ1-592, Pri-2, by Protocol/ by Port: ARP-593, Other-858993459 (0,10)-157 (0,12)-189 --Record 10-- May 12 2015 11:33:10 CPU usage: 98%, RX-RATE: CPU-921, CosQ1-732, Pri-2, by Protocol/ by Port: ARP-732, Other-858993458 (0,12)-366 -------------------- display Driver L3UC -------------------- ARP area: -------------- 932--Total entries recorded by driver and h/w, 914(914)--Real entries(Max) 0--Times of failed addition for h/w "Table Full" Broadcast storm? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
uxcr Опубликовано 13 мая, 2015 · Жалоба Broadcast storm? Угу, в влане управления. Он же у вас отделён от клиентских сетей? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shader Опубликовано 13 мая, 2015 (изменено) · Жалоба Broadcast storm? Угу, в влане управления. Он же у вас отделён от клиентских сетей? Конечно. X/24 сеть только для коммутаторов. PS. Предположительно, нашёл проблему: Коммутатор 3com 4210 (L2, на доступе) сошёл с ума, он сам поднял порт в который ничего не воткнуто и начал молотить на нем errors. Принудительно выключил порт и стало легче. Изменено 13 мая, 2015 пользователем shader Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...