crank Posted February 8, 2016 (edited) · Report post Здравствуйте. Установили данный модуль и подключили в него один сервер (шейпер/NAT) с двухпортовой сетевкой. Одна сетевка смотрит в сторону бордера, другая в сторону абонентов. На порту идущему от бордера к этому серверу растут ошибки OutDiscards. При этом на порту от абонентов - все чисто. На порту с ошибками загрузка трафика примерно 400/900 - входящего/исходящего относительно порта. Однако потери наблюдаются на трафике от 500 мбит в сторону сервера. Mod Ports Card Type Model Serial No. --- ----- -------------------------------------- ------------------ ----------- 1 5 Route Switch Processor 720 10GE (Activ RSP720-3CXL-10GE SAL1641PPJ7 4 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX SAL1118N4JM Mod MAC addresses Hw Fw Sw Status --- ---------------------------------- ------ ------------ ------------ ------- 1 5057.a8b9.75ac to 5057.a8b9.75b3 1.2 12.2(33r)SRE 15.1(2)S Ok 4 001b.53b4.acc0 to 001b.53b4.acef 2.5 12.2(14r)S5 15.1(2)S Ok Mod Sub-Module Model Serial Hw Status ---- --------------------------- ------------------ ----------- ------- ------- 1 Policy Feature Card 3 7600-PFC3CXL-10GE SAL1641PKWJ 1.2 Ok 1 C7600 MSFC4 Daughterboard 7600-MSFC4 SAL1641PLEQ 7.0 Ok 4 Centralized Forwarding Card WS-F6700-CFC SAL1117MP87 3.1 Ok Настройки портов для сервера ! interface GigabitEthernet4/1 description nat-external switchport switchport trunk encapsulation dot1q switchport trunk allowed vlan 60 switchport mode trunk no cdp enable spanning-tree portfast trunk end ! interface GigabitEthernet4/2 description nat-internal switchport switchport trunk encapsulation dot1q switchport trunk allowed vlan 10 switchport mode trunk no cdp enable spanning-tree portfast trunk end Сами ошибки на портах cisco76#show interfaces gigabitEthernet 4/1 GigabitEthernet4/1 is up, line protocol is up (connected) Hardware is C7600 1Gb 802.3, address is 001b.53b4.acc0 (bia 001b.53b4.acc0) Description: nat-external MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec, reliability 255/255, txload 161/255, rxload 45/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 1000Mb/s input flow-control is off, output flow-control is off Clock mode is auto ARP type: ARPA, ARP Timeout 04:00:00 Last input never, output never, output hang never Last clearing of "show interface" counters 00:08:36 Input queue: 0/2000/0/0 (size/max/drops/flushes); Total output drops: 5383 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 178513000 bits/sec, 53832 packets/sec 5 minute output rate 633469000 bits/sec, 72433 packets/sec 31044825 packets input, 12782242031 bytes, 0 no buffer Received 0 broadcasts (0 multicasts) 0 runts, 0 giants, 0 throttles 0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 0 watchdog, 0 multicast, 0 pause input 0 input packets with dribble condition detected 41750480 packets output, 45844196832 bytes, 0 underruns 0 output errors, 0 collisions, 0 interface resets 0 unknown protocol drops 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 pause output 0 output buffer failures, 0 output buffers swapped out cisco76#show interfaces gigabitEthernet 4/1 counters errors Port Align-Err FCS-Err Xmit-Err Rcv-Err UnderSize OutDiscards Gi4/1 0 0 0 0 0 5383 Port Single-Col Multi-Col Late-Col Excess-Col Carri-Sen Runts Giants Gi4/1 0 0 0 0 0 0 0 Port SQETest-Err Deferred-Tx IntMacTx-Err IntMacRx-Err Symbol-Err Gi4/1 0 0 0 0 0 Как видно эти ошибки набежали за 8 минут при нагрузке 600-700 мбит. Подскажите куда копать, где искать причину данный ошибок? Edited February 8, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vlad11 Posted February 8, 2016 · Report post Наверное, это следы мультикаста с 1 ttl. Смотрите netflow|Sflow на входе и ищите пакеты с 1 ttl. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 8, 2016 (edited) · Report post Разве мультикаст может придти из мира со стороны бордера? На внешних SVI интерфейсах бордера мультикаста не видно. cisco76#show interfaces vlan 405 Vlan405 is up, line protocol is up Hardware is EtherSVI, address is 442b.03d8.0140 (bia 442b.03d8.0140) Internet address is X.X.3.10/30 MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec, reliability 255/255, txload 2/255, rxload 5/255 Encapsulation ARPA, loopback not set Keepalive not supported ARP type: ARPA, ARP Timeout 04:00:00 Last input 00:00:30, output 00:00:31, output hang never Last clearing of "show interface" counters never Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 0 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 20592000 bits/sec, 2256 packets/sec 5 minute output rate 9553000 bits/sec, 2030 packets/sec L2 Switched: ucast: 142958 pkt, 9707543 bytes - mcast: 0 pkt, 0 bytes L3 in Switched: ucast: 3616888117 pkt, 2792000736960 bytes - mcast: 0 pkt, 0 bytes mcast L3 out Switched: ucast: 4442621087 pkt, 3953473444305 bytes mcast: 0 pkt, 0 bytes 3617015106 packets input, 2791992618688 bytes, 0 no buffer Received 0 broadcasts (0 IP multicasts) 0 runts, 0 giants, 0 throttles 0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 4442768556 packets output, 3953486139319 bytes, 0 underruns 0 output errors, 0 interface resets 0 unknown protocol drops 0 output buffer failures, 0 output buffers swapped out Заметил еще дропы на порту в queue cisco76#show mls qos queuing interface gigabitEthernet 4/1 Weighted Round-Robin Port QoS is enabled Port is untrusted Extend trust state: not trusted [COS = 0] Default COS is 0 Queueing Mode In Tx direction: mode-cos Transmit queues [type = 1p3q8t]: Queue Id Scheduling Num of thresholds ----------------------------------------- 01 WRR 08 02 WRR 08 03 WRR 08 04 Priority 01 WRR bandwidth ratios: 100[queue 1] 150[queue 2] 200[queue 3] queue-limit ratios: 50[queue 1] 20[queue 2] 15[queue 3] 15[Pri Queue] queue tail-drop-thresholds -------------------------- 1 70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] 2 70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] 3 100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] queue random-detect-min-thresholds ---------------------------------- 1 40[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8] 2 40[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8] 3 70[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8] queue random-detect-max-thresholds ---------------------------------- 1 70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] 2 70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] 3 100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] WRED disabled queues: queue thresh cos-map --------------------------------------- 1 1 0 1 2 1 1 3 1 4 1 5 1 6 1 7 1 8 2 1 2 2 2 3 4 2 3 2 4 2 5 2 6 2 7 2 8 3 1 6 7 3 2 3 3 3 4 3 5 3 6 3 7 3 8 4 1 5 Queueing Mode In Rx direction: mode-cos Receive queues [type = 1q8t]: Queue Id Scheduling Num of thresholds ----------------------------------------- 01 WRR 08 WRR bandwidth ratios: 100[queue 1] queue-limit ratios: 100[queue 1] queue tail-drop-thresholds -------------------------- 1 100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] queue thresh cos-map --------------------------------------- 1 1 0 1 2 3 4 5 6 7 1 2 1 3 1 4 1 5 1 6 1 7 1 8 Packets dropped on Transmit: queue dropped [cos-map] --------------------------------------------- 1 46830 [0 1 ] 2 0 [2 3 4 ] 3 0 [6 7 ] 4 0 [5 ] Packets dropped on Receive: BPDU packets: 0 queue dropped [cos-map] --------------------------------------------------- 1 0 [0 1 2 3 4 5 6 7 ] Где-то читал, что при включенном QoS такие дропы могут быть. QoS у меня включен, порт настроен по дефолту. Может быть в этом проблема? Edited February 8, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 8, 2016 · Report post vlad11 бредит как всегда проблема в нехватке буфера. посмотрите, возможно что-то можно выкрутить на этой карте Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vlad11 Posted February 8, 2016 · Report post Разве мультикаст может придти из мира со стороны бордера? Может. По мультикасту работает ряд протоколов. Вы сейчас показали статистику пакетов по 405 влану. А проблемы на физическом порту. Пробуйте через untag|sflow|netflow завернуть все, что приходит из аплинка и не в влан 405 в анализатор. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 8, 2016 · Report post Разве мультикаст может придти из мира со стороны бордера? Может. По мультикасту работает ряд протоколов. Вы сейчас показали статистику пакетов по 405 влану. А проблемы на физическом порту. Пробуйте через untag|sflow|netflow завернуть все, что приходит из аплинка и не в влан 405 в анализатор. что за наркомания? мультикаст из внешнего мира не приходит. либо это локально сконфигурированные протоколы типа osfp, lldp и т.п., либо на бордере явно включен приём мультикаста извне В любом случае, из описания здесь очевидно, что это банальные бёрсты и нехватка буферов. Хватит уже пороть чушь Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 8, 2016 · Report post Где-то читал, что при включенном QoS такие дропы могут быть. QoS у меня включен, порт настроен по дефолту. Может быть в этом проблема? скорее всего так и есть, у вас на TX посмотрите нарезку по очередям WRR bandwidth ratios: 100[queue 1] 150[queue 2] 200[queue 3] думаю имеет смысл перераспределить полосу и лимиты очереди например wrr-queue bandwidth percent 70 15 15 priority-queue queue-limit 10 wrr-queue queue-limit 70 10 10 ну и пороги/threshold покрутить если не слишком поможет, p.s. у нас даже на выкрученных настройках на данном модуле дропы, буфер мал Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tehmeh Posted February 8, 2016 · Report post Другой вопрос, что смущает - счетчик, или есть какое-то негативное воздействие на сервис? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 8, 2016 · Report post p.s. у нас даже на выкрученных настройках на данном модуле дропы, буфер мал так да. тут главное иметь понимание - есть ли реал-тайм udp-сервисы или нет. если есть, то нужно чтоб по ним не было дропа. а на обычный ШПД пофиг - это не сильно заметно, если только оно не по десяткам тысяч пакетов в секунду дропается Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tehmeh Posted February 8, 2016 · Report post О чем и хотел сказать, s.lobanov дело говорит, у меня почти на всех даунликах в сторону абонента на железке, где явный переход 10>1 куча дискардов, но как-то не парит, ибо ШПД. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 8, 2016 (edited) · Report post скорее всего так и есть, у вас на TX посмотрите нарезку по очередям WRR bandwidth ratios: 100[queue 1] 150[queue 2] 200[queue 3] думаю имеет смысл перераспределить полосу и лимиты очереди Хочу сегодня еще понаблюдать в текущих настройках. Завтра поменяю лимиты, чтобы сравнить разницу и понять даёт ли это реально хоть что-то. Другой вопрос, что смущает - счетчик, или есть какое-то негативное воздействие на сервис? Смущает сам счетчик. Влияние на сервис я никакого не заметил. Пинги без потерь, видео с ютуба и прочего идёт без проблем. Да и в целом никто не жаловался после переключения, а прошла уже неделя. О чем и хотел сказать, s.lobanov дело говорит, у меня почти на всех даунликах в сторону абонента на железке, где явный переход 10>1 куча дискардов, но как-то не парит, ибо ШПД. У меня получается как раз такая ситуация. Абоненты ШПД, входящий порт с бордера 10G, в сторону абонентов порт 1G и эти дискарды. Интересует вопрос, может ли это как-то сильно повлиять на онлайн игры, которые сейчас поголовно используют UDP. Не хочется жалоб от "танкистов" и прочих. Edited February 8, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 8, 2016 · Report post crank ну вы посчитайте вероятность потери пакетов в день на абонента и прикиньте - заметят это танкисты или нет. вообще, можно попробовать udp засунуть в другую очередь. только сначала посчитать его, а то ведь и торренты туда же попадут. вообще, как раз для этой задачи (приоритезация трафика, точнее самое сложное - классификации) нужен DPI, который сможет отделить p2p мусор от игрушек ну или ставить дорогущие 10G->1G переходники типа ME3800-X с огромным буфером Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
dmvy Posted February 8, 2016 · Report post отключите flow control. точнее отключить прием pause пакетов от ПК. возможно ПК говорит о перегрузке ЦПУ и пакет дольше лежит в буфере - буфер кончается, начинается дроп. а вообще 6000 дропов за 8 минут на трафике 600мбит - ерунда. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 8, 2016 (edited) · Report post dmvy Уже отключил. Правда по ощущениям дропы остались такими же. Проц при 900 мбит загружен всего на 30%. Лучше оставлю в выключенном состоянии, т.к. вы правы это лишний повод для дропов. Edited February 8, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 9, 2016 · Report post Хочу сегодня еще понаблюдать в текущих настройках. Завтра поменяю лимиты, чтобы сравнить разницу и понять даёт ли это реально хоть что-то. если будете менять CoS/DSCP mapping у очередей - изменения применяются не только на порт, но и на порт-группу (смотреть show int gig x/y capabilities | i Ports-in-ASIC), можно случайно "поломать" соседние порты :) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 9, 2016 · Report post да, там вроде по 12 портов оно конфигурится на дешманских платах Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tehmeh Posted February 9, 2016 · Report post Вроде была команда, которая позволяла "раздружить" группу портов? Хотя не рекомендуется такое поведение. Лучше под это дело 4948 :) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 9, 2016 (edited) · Report post mikezzzz Спасибо за подсказку, буду иметь в виду. s.lobanov Так и есть. Группа по 12 портов. cisco76#show interfaces gigabitEthernet 4/1 capabilities GigabitEthernet4/1 Model: WS-X6748-GE-TX Type: 10/100/1000BaseT Speed: 10,100,1000,auto Duplex: half,full Trunk encap. type: 802.1Q,ISL Trunk mode: on,off,desirable,nonegotiate Channel: yes Broadcast suppression: percentage(0-100) Flowcontrol: rx-(off,on,desired),tx-(off,on,desired) Membership: static Fast Start: yes QOS scheduling: rx-(1q8t), tx-(1p3q8t) CoS rewrite: yes ToS rewrite: yes Inline power: no SPAN: source/destination UDLD yes Link Debounce: yes Link Debounce Time: no Ports on ASIC: 1-12 Dot1ad Ethertype: yes Dot1ad Tunnel: yes Port-Security: yes Сегодня перераспределил очереди на проблемном порту. Вот такие настройки сделал cisco76#show running-config interface gigabitEthernet 4/1 Building configuration... Current configuration : 321 bytes ! interface GigabitEthernet4/1 description nat-external switchport switchport trunk encapsulation dot1q switchport trunk allowed vlan 60 switchport mode trunk wrr-queue bandwidth percent 80 10 10 priority-queue queue-limit 10 wrr-queue queue-limit 70 10 10 no cdp enable spanning-tree portfast trunk end Чуть позже выложу графики загрузки портов и ошибок, чтобы можно было оценить на сколько это помогло. Edited February 10, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 10, 2016 (edited) · Report post Выкладываю графики загрузки порта и роста ошибок на нём. Слева график до перераспределения очередей QoS, справа - после. Как видно количество ошибок при равной нагрузке трафика хоть и не сильно, но сократилось. Edited February 10, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 10, 2016 · Report post Да у вас же почти полка. Что вы хотите? Усредняете вы по 5 минут или сколько там и поэтому реальной картины не видите. Короче, это нормально и нужно расширяться до 2GE или десятки сразу Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 10, 2016 (edited) · Report post Буду разносить нагрузку на два сервера. Всем спасибо за советы и помощь. Edited February 10, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
orlik Posted February 10, 2016 · Report post Зачем на 2 сервера если достаточно на том же сервере добавить сетевую и собрать бандл Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 10, 2016 (edited) · Report post Собираемся вводить второй сервер для резерва и чтобы он не простаивал большую часть времени вижу смысл разнести нагрузку пополам. В общем, это уже детали реализации. Можно сделать и как вы говорите - поставить вторую сетевку, собрать бандл и в путь. Edited February 10, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
dmvy Posted February 10, 2016 · Report post Да у вас же почти полка. Что вы хотите? Усредняете вы по 5 минут или сколько там и поэтому реальной картины не видите. Короче, это нормально и нужно расширяться до 2GE или десятки сразу И действительно в 14 часов дня у вас уже 80% нагрузки на канал. В ЧНН она должен 1.5 раза больше. Вы удивитесь как у Вас аплинк подскочит, когда сделаете расширение NAT! Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
rover-lt Posted February 10, 2016 · Report post Здравствуйте. Установили данный модуль и подключили в него один сервер (шейпер/NAT) с двухпортовой сетевкой. Одна сетевка смотрит в сторону бордера, другая в сторону абонентов. На порту идущему от бордера к этому серверу растут ошибки OutDiscards. При этом на порту от абонентов - все чисто. На порту с ошибками загрузка трафика примерно 400/900 - входящего/исходящего относительно порта. Однако потери наблюдаются на трафике от 500 мбит в сторону сервера. ... Сами ошибки на портах cisco76#show interfaces gigabitEthernet 4/1 GigabitEthernet4/1 is up, line protocol is up (connected) Hardware is C7600 1Gb 802.3, address is 001b.53b4.acc0 (bia 001b.53b4.acc0) Description: nat-external MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec, reliability 255/255, txload 161/255, rxload 45/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 1000Mb/s input flow-control is off, output flow-control is off Clock mode is auto ARP type: ARPA, ARP Timeout 04:00:00 Last input never, output never, output hang never Last clearing of "show interface" counters 00:08:36 Input queue: 0/2000/0/0 (size/max/drops/flushes); Total output drops: 5383 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 178513000 bits/sec, 53832 packets/sec 5 minute output rate 633469000 bits/sec, 72433 packets/sec 31044825 packets input, 12782242031 bytes, 0 no buffer Received 0 broadcasts (0 multicasts) 0 runts, 0 giants, 0 throttles 0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 0 watchdog, 0 multicast, 0 pause input 0 input packets with dribble condition detected 41750480 packets output, 45844196832 bytes, 0 underruns 0 output errors, 0 collisions, 0 interface resets 0 unknown protocol drops 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 pause output 0 output buffer failures, 0 output buffers swapped out cisco76#show interfaces gigabitEthernet 4/1 counters errors Port Align-Err FCS-Err Xmit-Err Rcv-Err UnderSize OutDiscards Gi4/1 0 0 0 0 0 5383 Port Single-Col Multi-Col Late-Col Excess-Col Carri-Sen Runts Giants Gi4/1 0 0 0 0 0 0 0 Port SQETest-Err Deferred-Tx IntMacTx-Err IntMacRx-Err Symbol-Err Gi4/1 0 0 0 0 0 Как видно эти ошибки набежали за 8 минут при нагрузке 600-700 мбит. Подскажите куда копать, где искать причину данный ошибок? у вас "средняя температура по больнице" 400 на всос и 700 на выхлоп. За какой интервал времени усредненный? Microbursts - за четверть секунды через этот порт надо отправить 251 мегабит трафика. при Linerate - 1Gbps, 1 мегабит надо буферизовать (может быть мало буферов) или дискарднуть. Дискарды нормально пережевываются tcp backoff-ом. Переключайте на 10g или шейпите перед подачей на эту Циску. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...