Jump to content
Калькуляторы

Растут OutDiscards на WS-X6748-GE-TX

Здравствуйте.

Установили данный модуль и подключили в него один сервер (шейпер/NAT) с двухпортовой сетевкой. Одна сетевка смотрит в сторону бордера, другая в сторону абонентов. На порту идущему от бордера к этому серверу растут ошибки OutDiscards. При этом на порту от абонентов - все чисто.

На порту с ошибками загрузка трафика примерно 400/900 - входящего/исходящего относительно порта. Однако потери наблюдаются на трафике от 500 мбит в сторону сервера.

 

Mod Ports Card Type                              Model              Serial No.
--- ----- -------------------------------------- ------------------ -----------
 1    5  Route Switch Processor 720 10GE (Activ RSP720-3CXL-10GE   SAL1641PPJ7
 4   48  CEF720 48 port 10/100/1000mb Ethernet  WS-X6748-GE-TX     SAL1118N4JM

Mod MAC addresses                       Hw    Fw           Sw           Status
--- ---------------------------------- ------ ------------ ------------ -------
 1  5057.a8b9.75ac to 5057.a8b9.75b3   1.2   12.2(33r)SRE 15.1(2)S     Ok
 4  001b.53b4.acc0 to 001b.53b4.acef   2.5   12.2(14r)S5  15.1(2)S     Ok

Mod  Sub-Module                  Model              Serial       Hw     Status
---- --------------------------- ------------------ ----------- ------- -------
 1  Policy Feature Card 3       7600-PFC3CXL-10GE  SAL1641PKWJ  1.2    Ok
 1  C7600 MSFC4 Daughterboard   7600-MSFC4         SAL1641PLEQ  7.0    Ok
 4  Centralized Forwarding Card WS-F6700-CFC       SAL1117MP87  3.1    Ok

Настройки портов для сервера

!
interface GigabitEthernet4/1
description nat-external
switchport
switchport trunk encapsulation dot1q
switchport trunk allowed vlan 60
switchport mode trunk
no cdp enable
spanning-tree portfast trunk
end
!
interface GigabitEthernet4/2
description nat-internal
switchport
switchport trunk encapsulation dot1q
switchport trunk allowed vlan 10
switchport mode trunk
no cdp enable
spanning-tree portfast trunk
end

 

Сами ошибки на портах

cisco76#show interfaces gigabitEthernet 4/1
GigabitEthernet4/1 is up, line protocol is up (connected)
 Hardware is C7600 1Gb 802.3, address is 001b.53b4.acc0 (bia 001b.53b4.acc0)
 Description: nat-external
 MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
    reliability 255/255, txload 161/255, rxload 45/255
 Encapsulation ARPA, loopback not set
 Keepalive set (10 sec)
 Full-duplex, 1000Mb/s
 input flow-control is off, output flow-control is off
 Clock mode is auto
 ARP type: ARPA, ARP Timeout 04:00:00
 Last input never, output never, output hang never
 Last clearing of "show interface" counters 00:08:36
 Input queue: 0/2000/0/0 (size/max/drops/flushes); Total output drops: 5383
 Queueing strategy: fifo
 Output queue: 0/40 (size/max)
 5 minute input rate 178513000 bits/sec, 53832 packets/sec
 5 minute output rate 633469000 bits/sec, 72433 packets/sec
    31044825 packets input, 12782242031 bytes, 0 no buffer
    Received 0 broadcasts (0 multicasts)
    0 runts, 0 giants, 0 throttles
    0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
    0 watchdog, 0 multicast, 0 pause input
    0 input packets with dribble condition detected
    41750480 packets output, 45844196832 bytes, 0 underruns
    0 output errors, 0 collisions, 0 interface resets
    0 unknown protocol drops
    0 babbles, 0 late collision, 0 deferred
    0 lost carrier, 0 no carrier, 0 pause output
    0 output buffer failures, 0 output buffers swapped out
cisco76#show interfaces gigabitEthernet 4/1 counters errors

Port        Align-Err    FCS-Err   Xmit-Err    Rcv-Err UnderSize OutDiscards
Gi4/1               0          0          0          0         0        5383

Port      Single-Col Multi-Col  Late-Col Excess-Col Carri-Sen     Runts    Giants
Gi4/1              0         0         0          0         0         0         0

Port       SQETest-Err Deferred-Tx IntMacTx-Err IntMacRx-Err Symbol-Err
Gi4/1                0           0            0            0          0

Как видно эти ошибки набежали за 8 минут при нагрузке 600-700 мбит.

Подскажите куда копать, где искать причину данный ошибок?

Edited by crank

Share this post


Link to post
Share on other sites

Разве мультикаст может придти из мира со стороны бордера?

На внешних SVI интерфейсах бордера мультикаста не видно.

cisco76#show interfaces vlan 405
Vlan405 is up, line protocol is up
 Hardware is EtherSVI, address is 442b.03d8.0140 (bia 442b.03d8.0140)
 Internet address is X.X.3.10/30
 MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
    reliability 255/255, txload 2/255, rxload 5/255
 Encapsulation ARPA, loopback not set
 Keepalive not supported
 ARP type: ARPA, ARP Timeout 04:00:00
 Last input 00:00:30, output 00:00:31, output hang never
 Last clearing of "show interface" counters never
 Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 0
 Queueing strategy: fifo
 Output queue: 0/40 (size/max)
 5 minute input rate 20592000 bits/sec, 2256 packets/sec
 5 minute output rate 9553000 bits/sec, 2030 packets/sec
 L2 Switched: ucast: 142958 pkt, 9707543 bytes - mcast: 0 pkt, 0 bytes
 L3 in Switched: ucast: 3616888117 pkt, 2792000736960 bytes - mcast: 0 pkt, 0 bytes mcast
 L3 out Switched: ucast: 4442621087 pkt, 3953473444305 bytes mcast: 0 pkt, 0 bytes
    3617015106 packets input, 2791992618688 bytes, 0 no buffer
    Received 0 broadcasts (0 IP multicasts)
    0 runts, 0 giants, 0 throttles
    0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
    4442768556 packets output, 3953486139319 bytes, 0 underruns
    0 output errors, 0 interface resets
    0 unknown protocol drops
    0 output buffer failures, 0 output buffers swapped out

 

Заметил еще дропы на порту в queue

cisco76#show mls qos queuing interface gigabitEthernet 4/1
Weighted Round-Robin
 Port QoS is enabled
 Port is untrusted
 Extend trust state: not trusted [COS = 0]
 Default COS is 0
   Queueing Mode In Tx direction: mode-cos
   Transmit queues [type = 1p3q8t]:
   Queue Id    Scheduling  Num of thresholds
   -----------------------------------------
      01         WRR                 08
      02         WRR                 08
      03         WRR                 08
      04         Priority            01

   WRR bandwidth ratios:  100[queue 1] 150[queue 2] 200[queue 3]
   queue-limit ratios:     50[queue 1]  20[queue 2]  15[queue 3]  15[Pri Queue]

   queue tail-drop-thresholds
   --------------------------
   1     70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8]
   2     70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8]
   3     100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8]

   queue random-detect-min-thresholds
   ----------------------------------
     1    40[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8]
     2    40[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8]
     3    70[1] 70[2] 70[3] 70[4] 70[5] 70[6] 70[7] 70[8]

   queue random-detect-max-thresholds
   ----------------------------------
     1    70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8]
     2    70[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8]
     3    100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8]

   WRED disabled queues:

   queue thresh cos-map
   ---------------------------------------
   1     1      0
   1     2      1
   1     3
   1     4
   1     5
   1     6
   1     7
   1     8
   2     1      2
   2     2      3 4
   2     3
   2     4
   2     5
   2     6
   2     7
   2     8
   3     1      6 7
   3     2
   3     3
   3     4
   3     5
   3     6
   3     7
   3     8
   4     1      5

   Queueing Mode In Rx direction: mode-cos
   Receive queues [type = 1q8t]:
   Queue Id    Scheduling  Num of thresholds
   -----------------------------------------
      01         WRR                 08

   WRR bandwidth ratios:  100[queue 1]
   queue-limit ratios:    100[queue 1]

   queue tail-drop-thresholds
   --------------------------
   1     100[1] 100[2] 100[3] 100[4] 100[5] 100[6] 100[7] 100[8]

   queue thresh cos-map
   ---------------------------------------
   1     1      0 1 2 3 4 5 6 7
   1     2
   1     3
   1     4
   1     5
   1     6
   1     7
   1     8


 Packets dropped on Transmit:

   queue     dropped  [cos-map]
   ---------------------------------------------
   1                    46830  [0 1 ]
   2                        0  [2 3 4 ]
   3                        0  [6 7 ]
   4                        0  [5 ]

 Packets dropped on Receive:
   BPDU packets:  0

   queue              dropped  [cos-map]
   ---------------------------------------------------
   1                        0  [0 1 2 3 4 5 6 7 ]

Где-то читал, что при включенном QoS такие дропы могут быть. QoS у меня включен, порт настроен по дефолту. Может быть в этом проблема?

Edited by crank

Share this post


Link to post
Share on other sites

vlad11 бредит как всегда

 

проблема в нехватке буфера. посмотрите, возможно что-то можно выкрутить на этой карте

Share this post


Link to post
Share on other sites

Разве мультикаст может придти из мира со стороны бордера?

 

Может. По мультикасту работает ряд протоколов.

Вы сейчас показали статистику пакетов по 405 влану.

А проблемы на физическом порту.

Пробуйте через untag|sflow|netflow завернуть все, что приходит из аплинка и не в влан 405 в анализатор.

Share this post


Link to post
Share on other sites

Разве мультикаст может придти из мира со стороны бордера?

 

Может. По мультикасту работает ряд протоколов.

Вы сейчас показали статистику пакетов по 405 влану.

А проблемы на физическом порту.

Пробуйте через untag|sflow|netflow завернуть все, что приходит из аплинка и не в влан 405 в анализатор.

 

что за наркомания? мультикаст из внешнего мира не приходит. либо это локально сконфигурированные протоколы типа osfp, lldp и т.п., либо на бордере явно включен приём мультикаста извне

 

В любом случае, из описания здесь очевидно, что это банальные бёрсты и нехватка буферов. Хватит уже пороть чушь

Share this post


Link to post
Share on other sites

Где-то читал, что при включенном QoS такие дропы могут быть. QoS у меня включен, порт настроен по дефолту. Может быть в этом проблема?

 

скорее всего так и есть, у вас на TX посмотрите нарезку по очередям

WRR bandwidth ratios: 100[queue 1] 150[queue 2] 200[queue 3]

 

думаю имеет смысл перераспределить полосу и лимиты очереди

 

например

wrr-queue bandwidth percent 70 15 15

priority-queue queue-limit 10

wrr-queue queue-limit 70 10 10

 

ну и пороги/threshold покрутить если не слишком поможет,

 

p.s. у нас даже на выкрученных настройках на данном модуле дропы, буфер мал

Share this post


Link to post
Share on other sites

p.s. у нас даже на выкрученных настройках на данном модуле дропы, буфер мал

 

так да. тут главное иметь понимание - есть ли реал-тайм udp-сервисы или нет. если есть, то нужно чтоб по ним не было дропа. а на обычный ШПД пофиг - это не сильно заметно, если только оно не по десяткам тысяч пакетов в секунду дропается

Share this post


Link to post
Share on other sites

О чем и хотел сказать, s.lobanov дело говорит, у меня почти на всех даунликах в сторону абонента на железке, где явный переход 10>1 куча дискардов, но как-то не парит, ибо ШПД.

Share this post


Link to post
Share on other sites

скорее всего так и есть, у вас на TX посмотрите нарезку по очередям

WRR bandwidth ratios: 100[queue 1] 150[queue 2] 200[queue 3]

 

думаю имеет смысл перераспределить полосу и лимиты очереди

Хочу сегодня еще понаблюдать в текущих настройках. Завтра поменяю лимиты, чтобы сравнить разницу и понять даёт ли это реально хоть что-то.

 

Другой вопрос, что смущает - счетчик, или есть какое-то негативное воздействие на сервис?

Смущает сам счетчик. Влияние на сервис я никакого не заметил. Пинги без потерь, видео с ютуба и прочего идёт без проблем. Да и в целом никто не жаловался после переключения, а прошла уже неделя.

 

О чем и хотел сказать, s.lobanov дело говорит, у меня почти на всех даунликах в сторону абонента на железке, где явный переход 10>1 куча дискардов, но как-то не парит, ибо ШПД.

У меня получается как раз такая ситуация. Абоненты ШПД, входящий порт с бордера 10G, в сторону абонентов порт 1G и эти дискарды.

Интересует вопрос, может ли это как-то сильно повлиять на онлайн игры, которые сейчас поголовно используют UDP. Не хочется жалоб от "танкистов" и прочих.

Edited by crank

Share this post


Link to post
Share on other sites

crank

ну вы посчитайте вероятность потери пакетов в день на абонента и прикиньте - заметят это танкисты или нет. вообще, можно попробовать udp засунуть в другую очередь. только сначала посчитать его, а то ведь и торренты туда же попадут. вообще, как раз для этой задачи (приоритезация трафика, точнее самое сложное - классификации) нужен DPI, который сможет отделить p2p мусор от игрушек

 

ну или ставить дорогущие 10G->1G переходники типа ME3800-X с огромным буфером

Share this post


Link to post
Share on other sites

отключите flow control. точнее отключить прием pause пакетов от ПК. возможно ПК говорит о перегрузке ЦПУ и пакет дольше лежит в буфере - буфер кончается, начинается дроп. а вообще 6000 дропов за 8 минут на трафике 600мбит - ерунда.

Share this post


Link to post
Share on other sites

dmvy

Уже отключил. Правда по ощущениям дропы остались такими же. Проц при 900 мбит загружен всего на 30%. Лучше оставлю в выключенном состоянии, т.к. вы правы это лишний повод для дропов.

Edited by crank

Share this post


Link to post
Share on other sites

Хочу сегодня еще понаблюдать в текущих настройках. Завтра поменяю лимиты, чтобы сравнить разницу и понять даёт ли это реально хоть что-то.

если будете менять CoS/DSCP mapping у очередей - изменения применяются не только на порт, но и на порт-группу (смотреть show int gig x/y capabilities | i Ports-in-ASIC), можно случайно "поломать" соседние порты :)

Share this post


Link to post
Share on other sites

Вроде была команда, которая позволяла "раздружить" группу портов? Хотя не рекомендуется такое поведение.

Лучше под это дело 4948 :)

Share this post


Link to post
Share on other sites

mikezzzz

Спасибо за подсказку, буду иметь в виду.

 

s.lobanov

Так и есть. Группа по 12 портов.

cisco76#show interfaces gigabitEthernet 4/1 capabilities
GigabitEthernet4/1
 Model:                 WS-X6748-GE-TX
 Type:                  10/100/1000BaseT
 Speed:                 10,100,1000,auto
 Duplex:                half,full
 Trunk encap. type:     802.1Q,ISL
 Trunk mode:            on,off,desirable,nonegotiate
 Channel:               yes
 Broadcast suppression: percentage(0-100)
 Flowcontrol:           rx-(off,on,desired),tx-(off,on,desired)
 Membership:            static
 Fast Start:            yes
 QOS scheduling:        rx-(1q8t), tx-(1p3q8t)
 CoS rewrite:           yes
 ToS rewrite:           yes
 Inline power:          no
 SPAN:                  source/destination
 UDLD                   yes
 Link Debounce:         yes
 Link Debounce Time:    no
 Ports on ASIC:         1-12
 Dot1ad Ethertype:      yes
 Dot1ad Tunnel:         yes
 Port-Security:         yes

 

Сегодня перераспределил очереди на проблемном порту. Вот такие настройки сделал

cisco76#show running-config interface gigabitEthernet 4/1
Building configuration...

Current configuration : 321 bytes
!
interface GigabitEthernet4/1
description nat-external
switchport
switchport trunk encapsulation dot1q
switchport trunk allowed vlan 60
switchport mode trunk
wrr-queue bandwidth percent 80 10 10
priority-queue queue-limit 10
wrr-queue queue-limit 70 10 10
no cdp enable
spanning-tree portfast trunk
end

 

Чуть позже выложу графики загрузки портов и ошибок, чтобы можно было оценить на сколько это помогло.

Edited by crank

Share this post


Link to post
Share on other sites

Выкладываю графики загрузки порта и роста ошибок на нём.

08-02-16-traffic.png09-02-16-traffic.png

08-02-16-errors.png09-02-16-errors.png

 

Слева график до перераспределения очередей QoS, справа - после. Как видно количество ошибок при равной нагрузке трафика хоть и не сильно, но сократилось.

Edited by crank

Share this post


Link to post
Share on other sites

Да у вас же почти полка. Что вы хотите? Усредняете вы по 5 минут или сколько там и поэтому реальной картины не видите. Короче, это нормально и нужно расширяться до 2GE или десятки сразу

Share this post


Link to post
Share on other sites

Буду разносить нагрузку на два сервера. Всем спасибо за советы и помощь.

Edited by crank

Share this post


Link to post
Share on other sites

Собираемся вводить второй сервер для резерва и чтобы он не простаивал большую часть времени вижу смысл разнести нагрузку пополам. В общем, это уже детали реализации. Можно сделать и как вы говорите - поставить вторую сетевку, собрать бандл и в путь.

Edited by crank

Share this post


Link to post
Share on other sites

Да у вас же почти полка. Что вы хотите? Усредняете вы по 5 минут или сколько там и поэтому реальной картины не видите. Короче, это нормально и нужно расширяться до 2GE или десятки сразу

И действительно в 14 часов дня у вас уже 80% нагрузки на канал. В ЧНН она должен 1.5 раза больше. Вы удивитесь как у Вас аплинк подскочит, когда сделаете расширение NAT!

Share this post


Link to post
Share on other sites

Здравствуйте.

Установили данный модуль и подключили в него один сервер (шейпер/NAT) с двухпортовой сетевкой. Одна сетевка смотрит в сторону бордера, другая в сторону абонентов. На порту идущему от бордера к этому серверу растут ошибки OutDiscards. При этом на порту от абонентов - все чисто.

На порту с ошибками загрузка трафика примерно 400/900 - входящего/исходящего относительно порта. Однако потери наблюдаются на трафике от 500 мбит в сторону сервера.

 

...

 

Сами ошибки на портах

cisco76#show interfaces gigabitEthernet 4/1
GigabitEthernet4/1 is up, line protocol is up (connected)
 Hardware is C7600 1Gb 802.3, address is 001b.53b4.acc0 (bia 001b.53b4.acc0)
 Description: nat-external
 MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
    reliability 255/255, txload 161/255, rxload 45/255
 Encapsulation ARPA, loopback not set
 Keepalive set (10 sec)
 Full-duplex, 1000Mb/s
 input flow-control is off, output flow-control is off
 Clock mode is auto
 ARP type: ARPA, ARP Timeout 04:00:00
 Last input never, output never, output hang never
 Last clearing of "show interface" counters 00:08:36
 Input queue: 0/2000/0/0 (size/max/drops/flushes); Total output drops: 5383
 Queueing strategy: fifo
 Output queue: 0/40 (size/max)
 5 minute input rate 178513000 bits/sec, 53832 packets/sec
 5 minute output rate 633469000 bits/sec, 72433 packets/sec
    31044825 packets input, 12782242031 bytes, 0 no buffer
    Received 0 broadcasts (0 multicasts)
    0 runts, 0 giants, 0 throttles
    0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
    0 watchdog, 0 multicast, 0 pause input
    0 input packets with dribble condition detected
    41750480 packets output, 45844196832 bytes, 0 underruns
    0 output errors, 0 collisions, 0 interface resets
    0 unknown protocol drops
    0 babbles, 0 late collision, 0 deferred
    0 lost carrier, 0 no carrier, 0 pause output
    0 output buffer failures, 0 output buffers swapped out
cisco76#show interfaces gigabitEthernet 4/1 counters errors

Port        Align-Err    FCS-Err   Xmit-Err    Rcv-Err UnderSize OutDiscards
Gi4/1               0          0          0          0         0        5383

Port      Single-Col Multi-Col  Late-Col Excess-Col Carri-Sen     Runts    Giants
Gi4/1              0         0         0          0         0         0         0

Port       SQETest-Err Deferred-Tx IntMacTx-Err IntMacRx-Err Symbol-Err
Gi4/1                0           0            0            0          0

Как видно эти ошибки набежали за 8 минут при нагрузке 600-700 мбит.

Подскажите куда копать, где искать причину данный ошибок?

 

у вас "средняя температура по больнице" 400 на всос и 700 на выхлоп. За какой интервал времени усредненный? Microbursts - за четверть секунды через этот порт надо отправить 251 мегабит трафика. при Linerate - 1Gbps, 1 мегабит надо буферизовать (может быть мало буферов) или дискарднуть.

Дискарды нормально пережевываются tcp backoff-ом. Переключайте на 10g или шейпите перед подачей на эту Циску.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.