StSphinx Опубликовано 21 марта, 2018 · Жалоба Приветствую , коллеги! Тема довольно избитая, но у меня с изюминкой. Начали вечером жаловаться абоненты на скорость. Полез разбираться. В ядре стоит Cisco 6509 с SUP720-3BXL, бордером MX80. На интерфейсе, что смотрит в сторону mx80 увидел кучу overrun. Был линк на карте WS-6704-10G, сегодня переключил на WS-6708-10G-3C. Ситуация с overrun прежняя, да плюс пинг по этому линку стал 100-120ms. Вся прелесть ситуации в том, что на этом линке , между 6509 и mx80, еще и СКАТ стоит. На нем в логах вроде все хорошо, да и нагрузка не так чтобы аховая. TenGigabitEthernet6/6 is up, line protocol is up (connected) Hardware is C6k 10000Mb 802.3, address is 0024.c463.9e45 (bia 0024.c463.9e45) Description: =MX80= MTU 9216 bytes, BW 10000000 Kbit, DLY 10 usec, reliability 255/255, txload 134/255, rxload 173/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 10Gb/s, media type is 10Gbase-LR input flow-control is on, output flow-control is off Clock mode is auto ARP type: ARPA, ARP Timeout 04:00:00 Last input never, output never, output hang never Last clearing of "show interface" counters 00:17:14 Input queue: 0/4096/8350288/0 (size/max/drops/flushes); Total output drops: 0 Queueing strategy: fifo Output queue: 0/4096 (size/max) 1 minute input rate 6800335000 bits/sec, 692777 packets/sec 1 minute output rate 5261720000 bits/sec, 968790 packets/sec 740992767 packets input, 914657412523 bytes, 0 no buffer Received 443447 broadcasts (441419 multicasts) 0 runts, 0 giants, 0 throttles 0 input errors, 0 CRC, 0 frame, 8350509 overrun, 0 ignored 0 watchdog, 0 multicast, 0 pause input 0 input packets with dribble condition detected 998467442 packets output, 691933224618 bytes, 0 underruns 0 output errors, 0 collisions, 0 interface resets 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 PAUSE output 0 output buffer failures, 0 output buffers swapped out interface TenGigabitEthernet6/6 description =MX80= switchport switchport trunk encapsulation dot1q switchport trunk allowed vlan 905,1099,2996,4093,4094 switchport mode trunk switchport nonegotiate mtu 9216 logging event link-status load-interval 60 mls qos trust dscp no vtp no cdp enable spanning-tree bpdufilter enable hold-queue 4096 in hold-queue 4096 out end Дропов и ошибок на фабрике 6509 нет. Фабрика загружена процентов на 50 в пике, а сейчас и того меньше. Между железками есть еще один линк. Там пинг как положено ~1ms. sh platform hardware capacity fabric Switch Fabric Resources Bus utilization: current: 18%, peak was 64% at 11:46:42 MSK Wed Mar 21 2018 Fabric utilization: Ingress Egress Module Chanl Speed rate peak rate peak 1 0 8G 14% 20% @20:05 21Mar18 27% 49% @18:11 21Mar18 2 0 8G 18% 24% @19:34 21Mar18 32% 44% @18:55 21Mar18 3 0 20G 0% 0% 0% 1% @11:56 21Mar18 3 1 20G 6% 11% @19:27 21Mar18 4% 6% @20:32 21Mar18 4 0 8G 15% 26% @20:10 21Mar18 13% 28% @16:14 21Mar18 5 0 20G 17% 34% @14:54 21Mar18 47% 48% @20:48 21Mar18 6 0 20G 54% 72% @19:18 21Mar18 37% 45% @19:55 21Mar18 6 1 20G 52% 64% @19:10 21Mar18 42% 56% @19:59 21Mar18 7 0 8G 0% 3% @20:51 21Mar18 0% 9% @12:09 21Mar18 8 0 20G 34% 38% @20:23 21Mar18 21% 32% @19:25 21Mar18 9 0 20G 0% 1% @13:05 21Mar18 33% 46% @17:41 21Mar18 9 1 20G 11% 17% @18:36 21Mar18 15% 20% @20:54 21Mar18 Уже и незнаю куда смотреть. Никто не сталкивался с такой странной ситуацией? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
stalker86 Опубликовано 21 марта, 2018 · Жалоба как минимум input flow-control is on выключить Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
StSphinx Опубликовано 21 марта, 2018 · Жалоба 1 час назад, stalker86 сказал: как минимум input flow-control is on выключить Насколько я понимаю, input flow-control говорит о том, что данный порт может обрабатывать pause frame. То есть, это должно вызывать output drops. А у нас дропы во входящей очереди. Но за идею спасибо. Попробую, чем черт не шутит. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 22 марта, 2018 · Жалоба ну если инпут, то значит надо смотреть порты куда выливается трафик из этого порта. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
StSphinx Опубликовано 22 марта, 2018 · Жалоба 5 часов назад, zhenya` сказал: ну если инпут, то значит надо смотреть порты куда выливается трафик из этого порта. Вы имеете ввиду, куда трафик разливается потом на этой железке? Если так, то тогда по идее должны быть дропы на фабрике, не? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Telesis Опубликовано 22 марта, 2018 · Жалоба Spoiler https://www.cisco.com/c/en/us/support/docs/switches/catalyst-6500-series-switches/200089-Troubleshoot-Interface-Overrun-caused-by.html https://bst.cloudapps.cisco.com/bugsearch/bug/CSCsg03875/?rfs=iqvred Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
StSphinx Опубликовано 22 марта, 2018 · Жалоба 37 минут назад, Telesis сказал: Скрыть содержимое https://www.cisco.com/c/en/us/support/docs/switches/catalyst-6500-series-switches/200089-Troubleshoot-Interface-Overrun-caused-by.html https://bst.cloudapps.cisco.com/bugsearch/bug/CSCsg03875/?rfs=iqvred Спасибо. Первая ссылка полезная, хоть и про EtherChannel. А вот по второй предлагается войти в учетную запись, которой нет. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 22 марта, 2018 · Жалоба Нетфлоу нету? Я про интерфейсы куда трафик вылетает, друг там пара гигабитных. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
StSphinx Опубликовано 22 марта, 2018 · Жалоба 6 минут назад, zhenya` сказал: Нетфлоу нету? Я про интерфейсы куда трафик вылетает, друг там пара гигабитных. NetFlow как раз есть на одном SVI в этом порту. Если ситуация повторится, буду пробовать выключать съем NetFlow. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 22 марта, 2018 · Жалоба Вырубайте. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
StSphinx Опубликовано 22 марта, 2018 · Жалоба 5 часов назад, zhenya` сказал: Вырубайте. Пока отслеживаю. Если начнется повторение ситуации, буду выключать. Upd. Ситуация повторилась. Отключение сбора нетфлоу не помогает. Очень похоже, что ситуация повторяется, когда на порту output pps приближается к 900k. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 23 марта, 2018 · Жалоба ты все вынес то ? например mls netflow interface mls flow ip full для 65 900к ппс это смешно.. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
StSphinx Опубликовано 23 марта, 2018 · Жалоба 1 час назад, zhenya` сказал: ты все вынес то ? например mls netflow interface mls flow ip full для 65 900к ппс это смешно.. mls netflow interface mls flow ip interface-full Присутствует. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 23 марта, 2018 · Жалоба Ну вот это надо выносить вместе с нетфлоу Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
StSphinx Опубликовано 23 марта, 2018 · Жалоба 4 минуты назад, zhenya` сказал: Ну вот это надо выносить вместе с нетфлоу Увы, пока вынести совсем не могу. Потюнил aging таймеры. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
StSphinx Опубликовано 26 марта, 2018 · Жалоба Докопался до причины. Дело было не в NetFlow. На железке была SPAN сессия с Egress SPAN. Как только переконфигурировал, ситуация нормализовалась. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...