crank Posted February 8, 2016 (edited) Здравствуйте. Установили данный модуль и подключили в него один сервер (шейпер/NAT) с двухпортовой сетевкой. Одна сетевка смотрит в сторону бордера, другая в сторону абонентов. На порту идущему от бордера к этому серверу растут ошибки OutDiscards. При этом на порту от абонентов - все чисто. На порту с ошибками загрузка трафика примерно 400/900 - входящего/исходящего относительно порта. Однако потери наблюдаются на трафике от 500 мбит в сторону сервера. Mod Ports Card Type Model Serial No. --- ----- -------------------------------------- ------------------ ----------- 1 5 Route Switch Processor 720 10GE (Activ RSP720-3CXL-10GE SAL1641PPJ7 4 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX SAL1118N4JM Mod MAC addresses Hw Fw Sw Status --- ---------------------------------- ------ ------------ ------------ ------- 1 5057.a8b9.75ac to 5057.a8b9.75b3 1.2 12.2(33r)SRE 15.1(2)S Ok 4 001b.53b4.acc0 to 001b.53b4.acef 2.5 12.2(14r)S5 15.1(2)S Ok Mod Sub-Module Model Serial Hw Status ---- --------------------------- ------------------ ----------- ------- ------- 1 Policy Feature Card 3 7600-PFC3CXL-10GE SAL1641PKWJ 1.2 Ok 1 C7600 MSFC4 Daughterboard 7600-MSFC4 SAL1641PLEQ 7.0 Ok 4 Centralized Forwarding Card WS-F6700-CFC SAL1117MP87 3.1 Ok Настройки портов для сервера ! interface GigabitEthernet4/1 description nat-external switchport switchport trunk encapsulation dot1q switchport trunk allowed vlan 60 switchport mode trunk no cdp enable spanning-tree portfast trunk end ! interface GigabitEthernet4/2 description nat-internal switchport switchport trunk encapsulation dot1q switchport trunk allowed vlan 10 switchport mode trunk no cdp enable spanning-tree portfast trunk end Сами ошибки на портах cisco76#show interfaces gigabitEthernet 4/1 GigabitEthernet4/1 is up, line protocol is up (connected) Hardware is C7600 1Gb 802.3, address is 001b.53b4.acc0 (bia 001b.53b4.acc0) Description: nat-external MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec, reliability 255/255, txload 161/255, rxload 45/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 1000Mb/s input flow-control is off, output flow-control is off Clock mode is auto ARP type: ARPA, ARP Timeout 04:00:00 Last input never, output never, output hang never Last clearing of "show interface" counters 00:08:36 Input queue: 0/2000/0/0 (size/max/drops/flushes); Total output drops: 5383 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 178513000 bits/sec, 53832 packets/sec 5 minute output rate 633469000 bits/sec, 72433 packets/sec 31044825 packets input, 12782242031 bytes, 0 no buffer Received 0 broadcasts (0 multicasts) 0 runts, 0 giants, 0 throttles 0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 0 watchdog, 0 multicast, 0 pause input 0 input packets with dribble condition detected 41750480 packets output, 45844196832 bytes, 0 underruns 0 output errors, 0 collisions, 0 interface resets 0 unknown protocol drops 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 pause output 0 output buffer failures, 0 output buffers swapped out cisco76#show interfaces gigabitEthernet 4/1 counters errors Port Align-Err FCS-Err Xmit-Err Rcv-Err UnderSize OutDiscards Gi4/1 0 0 0 0 0 5383 Port Single-Col Multi-Col Late-Col Excess-Col Carri-Sen Runts Giants Gi4/1 0 0 0 0 0 0 0 Port SQETest-Err Deferred-Tx IntMacTx-Err IntMacRx-Err Symbol-Err Gi4/1 0 0 0 0 0 Как видно эти ошибки набежали за 8 минут при нагрузке 600-700 мбит. Подскажите куда копать, где искать причину данный ошибок? Edited February 8, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vlad11 Posted February 8, 2016 Наверное, это следы мультикаста с 1 ttl. Смотрите netflow|Sflow на входе и ищите пакеты с 1 ttl. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 8, 2016 (edited) Разве мультикаст может придти из мира со стороны бордера? На внешних SVI интерфейсах бордера мультикаста не видно. cisco76#show interfaces vlan 405 Vlan405 is up, line protocol is up Hardware is EtherSVI, address is 442b.03d8.0140 (bia 442b.03d8.0140) Internet address is X.X.3.10/30 MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec, reliability 255/255, txload 2/255, rxload 5/255 Encapsulation ARPA, loopback not set Keepalive not supported ARP type: ARPA, ARP Timeout 04:00:00 Last input 00:00:30, output 00:00:31, output hang never Last clearing of "show interface" counters never Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 0 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 20592000 bits/sec, 2256 packets/sec 5 minute output rate 9553000 bits/sec, 2030 packets/sec L2 Switched: ucast: 142958 pkt, 9707543 bytes - mcast: 0 pkt, 0 bytes L3 in Switched: ucast: 3616888117 pkt, 2792000736960 bytes - mcast: 0 pkt, 0 bytes mcast L3 out Switched: ucast: 4442621087 pkt, 3953473444305 bytes mcast: 0 pkt, 0 bytes 3617015106 packets input, 2791992618688 bytes, 0 no buffer Received 0 broadcasts (0 IP multicasts) 0 runts, 0 giants, 0 throttles 0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 4442768556 packets output, 3953486139319 bytes, 0 underruns 0 output errors, 0 interface resets 0 unknown protocol drops 0 output buffer failures, 0 output buffers swapped out Заметил еще дропы на порту в queue cisco76#show mls qos queuing interface gigabitEthernet 4/1 Weighted Round-Robin Port QoS is enabled Port is untrusted Extend trust state: not trusted [COS = 0] Default COS is 0 Queueing Mode In Tx direction: mode-cos Transmit queues [type = 1p3q8t]: Queue Id Scheduling Num of thresholds ----------------------------------------- 01 WRR 08 02 WRR 08 03 WRR 08 04 Priority 01 WRR bandwidth ratios: 100[queue 1] 150[queue 2] 200[queue 3] queue-limit ratios: 50[queue 1] 20[queue 2] 15[queue 3] 15[Pri Queue] queue tail-drop-thresholds -------------------------- 1 70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] 2 70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] 3 100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] queue random-detect-min-thresholds ---------------------------------- 1 40[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8] 2 40[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8] 3 70[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8] queue random-detect-max-thresholds ---------------------------------- 1 70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] 2 70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] 3 100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] WRED disabled queues: queue thresh cos-map --------------------------------------- 1 1 0 1 2 1 1 3 1 4 1 5 1 6 1 7 1 8 2 1 2 2 2 3 4 2 3 2 4 2 5 2 6 2 7 2 8 3 1 6 7 3 2 3 3 3 4 3 5 3 6 3 7 3 8 4 1 5 Queueing Mode In Rx direction: mode-cos Receive queues [type = 1q8t]: Queue Id Scheduling Num of thresholds ----------------------------------------- 01 WRR 08 WRR bandwidth ratios: 100[queue 1] queue-limit ratios: 100[queue 1] queue tail-drop-thresholds -------------------------- 1 100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8] queue thresh cos-map --------------------------------------- 1 1 0 1 2 3 4 5 6 7 1 2 1 3 1 4 1 5 1 6 1 7 1 8 Packets dropped on Transmit: queue dropped [cos-map] --------------------------------------------- 1 46830 [0 1 ] 2 0 [2 3 4 ] 3 0 [6 7 ] 4 0 [5 ] Packets dropped on Receive: BPDU packets: 0 queue dropped [cos-map] --------------------------------------------------- 1 0 [0 1 2 3 4 5 6 7 ] Где-то читал, что при включенном QoS такие дропы могут быть. QoS у меня включен, порт настроен по дефолту. Может быть в этом проблема? Edited February 8, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 8, 2016 vlad11 бредит как всегда проблема в нехватке буфера. посмотрите, возможно что-то можно выкрутить на этой карте Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vlad11 Posted February 8, 2016 Разве мультикаст может придти из мира со стороны бордера? Может. По мультикасту работает ряд протоколов. Вы сейчас показали статистику пакетов по 405 влану. А проблемы на физическом порту. Пробуйте через untag|sflow|netflow завернуть все, что приходит из аплинка и не в влан 405 в анализатор. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 8, 2016 Разве мультикаст может придти из мира со стороны бордера? Может. По мультикасту работает ряд протоколов. Вы сейчас показали статистику пакетов по 405 влану. А проблемы на физическом порту. Пробуйте через untag|sflow|netflow завернуть все, что приходит из аплинка и не в влан 405 в анализатор. что за наркомания? мультикаст из внешнего мира не приходит. либо это локально сконфигурированные протоколы типа osfp, lldp и т.п., либо на бордере явно включен приём мультикаста извне В любом случае, из описания здесь очевидно, что это банальные бёрсты и нехватка буферов. Хватит уже пороть чушь Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 8, 2016 Где-то читал, что при включенном QoS такие дропы могут быть. QoS у меня включен, порт настроен по дефолту. Может быть в этом проблема? скорее всего так и есть, у вас на TX посмотрите нарезку по очередям WRR bandwidth ratios: 100[queue 1] 150[queue 2] 200[queue 3] думаю имеет смысл перераспределить полосу и лимиты очереди например wrr-queue bandwidth percent 70 15 15 priority-queue queue-limit 10 wrr-queue queue-limit 70 10 10 ну и пороги/threshold покрутить если не слишком поможет, p.s. у нас даже на выкрученных настройках на данном модуле дропы, буфер мал Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tehmeh Posted February 8, 2016 Другой вопрос, что смущает - счетчик, или есть какое-то негативное воздействие на сервис? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 8, 2016 p.s. у нас даже на выкрученных настройках на данном модуле дропы, буфер мал так да. тут главное иметь понимание - есть ли реал-тайм udp-сервисы или нет. если есть, то нужно чтоб по ним не было дропа. а на обычный ШПД пофиг - это не сильно заметно, если только оно не по десяткам тысяч пакетов в секунду дропается Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tehmeh Posted February 8, 2016 О чем и хотел сказать, s.lobanov дело говорит, у меня почти на всех даунликах в сторону абонента на железке, где явный переход 10>1 куча дискардов, но как-то не парит, ибо ШПД. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 8, 2016 (edited) скорее всего так и есть, у вас на TX посмотрите нарезку по очередям WRR bandwidth ratios: 100[queue 1] 150[queue 2] 200[queue 3] думаю имеет смысл перераспределить полосу и лимиты очереди Хочу сегодня еще понаблюдать в текущих настройках. Завтра поменяю лимиты, чтобы сравнить разницу и понять даёт ли это реально хоть что-то. Другой вопрос, что смущает - счетчик, или есть какое-то негативное воздействие на сервис? Смущает сам счетчик. Влияние на сервис я никакого не заметил. Пинги без потерь, видео с ютуба и прочего идёт без проблем. Да и в целом никто не жаловался после переключения, а прошла уже неделя. О чем и хотел сказать, s.lobanov дело говорит, у меня почти на всех даунликах в сторону абонента на железке, где явный переход 10>1 куча дискардов, но как-то не парит, ибо ШПД. У меня получается как раз такая ситуация. Абоненты ШПД, входящий порт с бордера 10G, в сторону абонентов порт 1G и эти дискарды. Интересует вопрос, может ли это как-то сильно повлиять на онлайн игры, которые сейчас поголовно используют UDP. Не хочется жалоб от "танкистов" и прочих. Edited February 8, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 8, 2016 crank ну вы посчитайте вероятность потери пакетов в день на абонента и прикиньте - заметят это танкисты или нет. вообще, можно попробовать udp засунуть в другую очередь. только сначала посчитать его, а то ведь и торренты туда же попадут. вообще, как раз для этой задачи (приоритезация трафика, точнее самое сложное - классификации) нужен DPI, который сможет отделить p2p мусор от игрушек ну или ставить дорогущие 10G->1G переходники типа ME3800-X с огромным буфером Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
dmvy Posted February 8, 2016 отключите flow control. точнее отключить прием pause пакетов от ПК. возможно ПК говорит о перегрузке ЦПУ и пакет дольше лежит в буфере - буфер кончается, начинается дроп. а вообще 6000 дропов за 8 минут на трафике 600мбит - ерунда. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 8, 2016 (edited) dmvy Уже отключил. Правда по ощущениям дропы остались такими же. Проц при 900 мбит загружен всего на 30%. Лучше оставлю в выключенном состоянии, т.к. вы правы это лишний повод для дропов. Edited February 8, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
mikezzzz Posted February 9, 2016 Хочу сегодня еще понаблюдать в текущих настройках. Завтра поменяю лимиты, чтобы сравнить разницу и понять даёт ли это реально хоть что-то. если будете менять CoS/DSCP mapping у очередей - изменения применяются не только на порт, но и на порт-группу (смотреть show int gig x/y capabilities | i Ports-in-ASIC), можно случайно "поломать" соседние порты :) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 9, 2016 да, там вроде по 12 портов оно конфигурится на дешманских платах Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tehmeh Posted February 9, 2016 Вроде была команда, которая позволяла "раздружить" группу портов? Хотя не рекомендуется такое поведение. Лучше под это дело 4948 :) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 9, 2016 (edited) mikezzzz Спасибо за подсказку, буду иметь в виду. s.lobanov Так и есть. Группа по 12 портов. cisco76#show interfaces gigabitEthernet 4/1 capabilities GigabitEthernet4/1 Model: WS-X6748-GE-TX Type: 10/100/1000BaseT Speed: 10,100,1000,auto Duplex: half,full Trunk encap. type: 802.1Q,ISL Trunk mode: on,off,desirable,nonegotiate Channel: yes Broadcast suppression: percentage(0-100) Flowcontrol: rx-(off,on,desired),tx-(off,on,desired) Membership: static Fast Start: yes QOS scheduling: rx-(1q8t), tx-(1p3q8t) CoS rewrite: yes ToS rewrite: yes Inline power: no SPAN: source/destination UDLD yes Link Debounce: yes Link Debounce Time: no Ports on ASIC: 1-12 Dot1ad Ethertype: yes Dot1ad Tunnel: yes Port-Security: yes Сегодня перераспределил очереди на проблемном порту. Вот такие настройки сделал cisco76#show running-config interface gigabitEthernet 4/1 Building configuration... Current configuration : 321 bytes ! interface GigabitEthernet4/1 description nat-external switchport switchport trunk encapsulation dot1q switchport trunk allowed vlan 60 switchport mode trunk wrr-queue bandwidth percent 80 10 10 priority-queue queue-limit 10 wrr-queue queue-limit 70 10 10 no cdp enable spanning-tree portfast trunk end Чуть позже выложу графики загрузки портов и ошибок, чтобы можно было оценить на сколько это помогло. Edited February 10, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 10, 2016 (edited) Выкладываю графики загрузки порта и роста ошибок на нём. Слева график до перераспределения очередей QoS, справа - после. Как видно количество ошибок при равной нагрузке трафика хоть и не сильно, но сократилось. Edited February 10, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted February 10, 2016 Да у вас же почти полка. Что вы хотите? Усредняете вы по 5 минут или сколько там и поэтому реальной картины не видите. Короче, это нормально и нужно расширяться до 2GE или десятки сразу Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 10, 2016 (edited) Буду разносить нагрузку на два сервера. Всем спасибо за советы и помощь. Edited February 10, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
orlik Posted February 10, 2016 Зачем на 2 сервера если достаточно на том же сервере добавить сетевую и собрать бандл Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
crank Posted February 10, 2016 (edited) Собираемся вводить второй сервер для резерва и чтобы он не простаивал большую часть времени вижу смысл разнести нагрузку пополам. В общем, это уже детали реализации. Можно сделать и как вы говорите - поставить вторую сетевку, собрать бандл и в путь. Edited February 10, 2016 by crank Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
dmvy Posted February 10, 2016 Да у вас же почти полка. Что вы хотите? Усредняете вы по 5 минут или сколько там и поэтому реальной картины не видите. Короче, это нормально и нужно расширяться до 2GE или десятки сразу И действительно в 14 часов дня у вас уже 80% нагрузки на канал. В ЧНН она должен 1.5 раза больше. Вы удивитесь как у Вас аплинк подскочит, когда сделаете расширение NAT! Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
rover-lt Posted February 10, 2016 Здравствуйте. Установили данный модуль и подключили в него один сервер (шейпер/NAT) с двухпортовой сетевкой. Одна сетевка смотрит в сторону бордера, другая в сторону абонентов. На порту идущему от бордера к этому серверу растут ошибки OutDiscards. При этом на порту от абонентов - все чисто. На порту с ошибками загрузка трафика примерно 400/900 - входящего/исходящего относительно порта. Однако потери наблюдаются на трафике от 500 мбит в сторону сервера. ... Сами ошибки на портах cisco76#show interfaces gigabitEthernet 4/1 GigabitEthernet4/1 is up, line protocol is up (connected) Hardware is C7600 1Gb 802.3, address is 001b.53b4.acc0 (bia 001b.53b4.acc0) Description: nat-external MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec, reliability 255/255, txload 161/255, rxload 45/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 1000Mb/s input flow-control is off, output flow-control is off Clock mode is auto ARP type: ARPA, ARP Timeout 04:00:00 Last input never, output never, output hang never Last clearing of "show interface" counters 00:08:36 Input queue: 0/2000/0/0 (size/max/drops/flushes); Total output drops: 5383 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 178513000 bits/sec, 53832 packets/sec 5 minute output rate 633469000 bits/sec, 72433 packets/sec 31044825 packets input, 12782242031 bytes, 0 no buffer Received 0 broadcasts (0 multicasts) 0 runts, 0 giants, 0 throttles 0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 0 watchdog, 0 multicast, 0 pause input 0 input packets with dribble condition detected 41750480 packets output, 45844196832 bytes, 0 underruns 0 output errors, 0 collisions, 0 interface resets 0 unknown protocol drops 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 pause output 0 output buffer failures, 0 output buffers swapped out cisco76#show interfaces gigabitEthernet 4/1 counters errors Port Align-Err FCS-Err Xmit-Err Rcv-Err UnderSize OutDiscards Gi4/1 0 0 0 0 0 5383 Port Single-Col Multi-Col Late-Col Excess-Col Carri-Sen Runts Giants Gi4/1 0 0 0 0 0 0 0 Port SQETest-Err Deferred-Tx IntMacTx-Err IntMacRx-Err Symbol-Err Gi4/1 0 0 0 0 0 Как видно эти ошибки набежали за 8 минут при нагрузке 600-700 мбит. Подскажите куда копать, где искать причину данный ошибок? у вас "средняя температура по больнице" 400 на всос и 700 на выхлоп. За какой интервал времени усредненный? Microbursts - за четверть секунды через этот порт надо отправить 251 мегабит трафика. при Linerate - 1Gbps, 1 мегабит надо буферизовать (может быть мало буферов) или дискарднуть. Дискарды нормально пережевываются tcp backoff-ом. Переключайте на 10g или шейпите перед подачей на эту Циску. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...