Jump to content
Калькуляторы

asr 1002 проблема с NAT

Добрый день. 

Прошу помощи разобраться в ситуации. 

Проблема заключается в том что в чнн у юзеров жалобы на сервис в основном на скорость. 

Отчистка трансляций помогает, но не на долго. 

На коробке сидит ~ 10к юзеров, трансляций в чнн  около 950к. 

 

Настройки такие 

 

ip nat settings mode cgn
no ip nat settings support mapping outside
ip nat settings pap
ip nat translation timeout 600
ip nat translation tcp-timeout 900
ip nat translation pptp-timeout 600
ip nat translation udp-timeout 60
ip nat translation finrst-timeout 120
ip nat translation syn-timeout 20
ip nat translation dns-timeout 10
ip nat translation icmp-timeout 10
ip nat translation port-timeout tcp 8080 180
ip nat translation port-timeout tcp 1600 180
ip nat translation port-timeout tcp 110 180
ip nat translation port-timeout tcp 25 180
ip nat translation port-timeout tcp 80 180
ip nat translation port-timeout tcp 443 180
no ip nat service all-algs
ip nat service pptp
ip nat pool  120 адресов 
ip nat inside source list nat pool www overload

 

Статистика 

type generic, total addresses 120, allocated 83 (72%), misses 97730
 

 

 

 

Если потребуется доп. информация готов предоставить. 


 

Share this post


Link to post
Share on other sites

присоединюсь к вопрошавшему. только у меня другой нюанс - четко в ЧНН у некоторых абонентов входящий трафик 0 байт (под данным радиуса с ASR и по жалобам самих абонентов). исходящий у них разный, от десятков байт до сотен кб.

ну то есть абонент ломится внаружу через нат, а ему ничего.

проблемы появились буквально неделю назад в процессе перетаскивания на ASR абонентов (т.е. шло активное увеличение нагрузки каждый день).

 

оверранов почти нет (было три единичных всплеска на внешнем интерфейсе, тоже в чнн, но не вчера-позавчера, когда пошла основная масса жалоб).

утилизация qfp выше 16 процентов не поднимается.

трансляций в чнн 350к.

и вообще по всей стате, которую можно снять по show platform hardware... - всё прекрасно.

сейчас планирую добавить в конфиг no ip nat service all-algs, больше идей нет.

ну и сбрасывать трансляции ежесуточно попробую.

 

разве что есть подозрение, что моя идея прибивания айпишников ната к конкретным подсетям имеет какие-то непонятные мне изъяны.

ну то есть одна абонентская подсеть натится в один айпишник, другая - в другой, и т.д., пулов, как таковых, нет - каждый пул имеет в себе только один адрес.

 

это самый "загруженный" трансляциями адрес:

#show ip nat statistics

[Id: 11] access-list NAT-USERS09 pool IPPOOL09 refcount 26605
 pool IPPOOL09: id 9, netmask 255.255.255.224
        start xx.xx.xx.9 end xx.xx.xx.9
        type generic, total addresses 1, allocated 1 (100%), misses 0

#show ip nat pool name IPPOOL09

NAT Pool Statistics

Pool name IPPOOL09, id 9
                              Assigned            Available
  Addresses                          1                    0
  UDP Low Ports                     11                  501
  TCP Low Ports                      0                  512
  UDP High Ports                  1426                63086
  TCP High Ports                 21376                43136

то есть вроде как запас по портам прекрасный.

если всё же идеологически что-то не так - подскажите.

Share this post


Link to post
Share on other sites

show platform software infrastructure lsmpi driver

 

P.S. сраный Гугель стал везде пихать QUIC, который на UDP, под это дело и keepalive поставил на секунды, и теперь расходы памяти на трансляции на клиента резко возрасли

Share this post


Link to post
Share on other sites

 Дико извинячюсь, вы трафик до прихода на рррoe очистили от мусора?  А то говнокиенты способны уделать любой проц в софтроутере на входе...

Share this post


Link to post
Share on other sites

В 22.01.2022 в 12:17, jffulcrum сказал:

show platform software infrastructure lsmpi driver

 

P.S. сраный Гугель стал везде пихать QUIC, который на UDP, под это дело и keepalive поставил на секунды, и теперь расходы памяти на трансляции на клиента резко возрасли

Скрытый текст
#show platform  software infrastructure lsmpi driver
LSMPI Driver stat ver: 3
Packets:
        In: 195277567
       Out: 183368801

Rings:
        RX: 4095 free    0    in-use    4096 total
        TX: 2047 free    0    in-use    2048 total
    RXDONE: 4094 free    1    in-use    4096 total
    TXDONE: 2046 free    1    in-use    2048 total

Buffers:
        RX: 6145 free    2049 in-use    8194 total

Transmit fail retry: Disabled

Reason for RX drops (sticky):
    Ring full        : 0
    Ring put failed  : 0
    No free buffer   : 0
    Receive failed   : 0
    Packet too large : 0
    Other inst buf   : 0
    Consecutive SOPs : 0
    No SOP or EOP    : 0
    EOP but no SOP   : 0
    Particle overrun : 0
    Bad particle ins : 0
    Bad buf cond     : 0
    DS rd req failed : 0
    HT rd req failed : 0
Reason for TX drops (sticky):
    Bad packet len   : 0
    Bad buf len      : 0
    Bad ifindex      : 0
    No device        : 0
    No skbuff        : 0
    Device xmit fail : 0
    Device xmit rtry : 0
    Tx Done ringfull : 0
    Bad u->k xlation : 0
    No extra skbuff  : 0
    Consecutive SOPs : 0
    No SOP or EOP    : 0
    EOP but no SOP   : 0
    Particle overrun : 0
    Other inst buf   : 0
Dual stack:
    Registration     : 1
    De-registration  : 0
    Rx packets       : 195277567
    Rx packets err   : 0
    L2 Rx packets    : 297421
    L3 Rx packets    : 3230452
    Looped packets   : 0
    skb nonlinear    : 3
    Rx IP frag       : 0
    Rx IP frag err   : 0
Drv stat:
    Rx particles     : 0
    Tx particles     : 0
    Rx err           : 0
    Tx err           : 0
    Total Err        : 0
Transport stat:
    Registration     : 1
    De-registration  : 0
    Tx packets       : 0
    Rx packets       : 19

вроде все нормально. или чего-то не вижу?

 

вот только что посреди субботнего дня десяток тыщ оверранов выскочил на внешнем интерфейсе в несколько секунд. выскочил, и замолкло всё... и абоненты опять ругаются в колл-центр.

 

по поводу QUIC - стоит, как и у ТС, в конфиге

ip nat translation udp-timeout 60

Edited by nixx

Share this post


Link to post
Share on other sites

В 21.01.2022 в 14:13, zhenya` сказал:

На интерфейсах оверраны есть?

Можно об этом по подробнее? А то я только постигаю циску с натом.

 

Плюс добавил графики в заббикс и показывает он мне ошибки, о них бы тоже хотелось по подробнее, такие ошибки как: 

Error quote drops их 17kk

 

Resourse errors тоже куча и 

Out of port error

 

 

Share this post


Link to post
Share on other sites

 Просто уберите нат с киски, вам многое будет лучше, флоу например.

Share this post


Link to post
Share on other sites

2 минуты назад, YuryD сказал:

 Просто уберите нат с киски, вам многое будет лучше, флоу например.

Было бы все так просто, давно бы убрали. 

Share this post


Link to post
Share on other sites

В 22.01.2022 в 15:59, x-ocsic сказал:

Было бы все так просто, давно бы убрали. 

 Понимание прийдет со временем. Поставить тазик с натом -  и многие траблемы уйдут сами. Оставьте нарезку скорости киске, а остальное - тазику, который и белые и черные листы пережует лучше, и иные хотелки.

Share this post


Link to post
Share on other sites

В 22.01.2022 в 13:39, x-ocsic сказал:

Можно об этом по подробнее? А то я только постигаю циску с натом.

Скрытый текст

#show inter ten 0/1/0
TenGigabitEthernet0/1/0 is up, line protocol is up
  Hardware is SPA-1X10GE-L-V2, address is e865.492b.c810 (bia e865.492b.c810)
  Description: --= Internet side =--
  MTU 1500 bytes, BW 10000000 Kbit/sec, DLY 10 usec,
     reliability 255/255, txload 17/255, rxload 122/255
  Encapsulation 802.1Q Virtual LAN, Vlan ID  1., loopback not set
  Keepalive not supported
  Full Duplex, 10000Mbps, link type is force-up, media type is 10GBase-SR/SW
  output flow-control is on, input flow-control is on
  ARP type: ARPA, ARP Timeout 04:00:00
  Last input 00:00:00, output 00:00:00, output hang never
  Last clearing of "show interface" counters never
  Input queue: 0/375/0/0 (size/max/drops/flushes); Total output drops: 0
  Queueing strategy: fifo
  Output queue: 0/40 (size/max)
  5 minute input rate 4817945000 bits/sec, 472747 packets/sec
  5 minute output rate 679801000 bits/sec, 239061 packets/sec
     1530409338277 packets input, 1991003630109842 bytes, 0 no buffer
     Received 365243 broadcasts (0 IP multicasts)
     0 runts, 0 giants, 0 throttles
     54142 input errors, 0 CRC, 0 frame, 54142 overrun, 0 ignored
     0 watchdog, 558405 multicast, 0 pause input
     752440825955 packets output, 239217023071012 bytes, 0 underruns
     0 output errors, 0 collisions, 2 interface resets
     558033 unknown protocol drops
     0 babbles, 0 late collision, 0 deferred
     0 lost carrier, 0 no carrier, 0 pause output
     0 output buffer failures, 0 output buffers swapped out
     1 carrier transitions

вот сюда

Share this post


Link to post
Share on other sites

Чего необычного - 54142 input errors, 0 CRC, 0 frame, 54142 overrun, 0 ignored. кто-то гадит, далее найти и отсечь голову... Ну предварительно счетчики обнулить :) За какой период этот счетчик накопился - непонятно....

Share this post


Link to post
Share on other sites

22 часа назад, nixx сказал:

присоединюсь к вопрошавшему. только у меня другой нюанс - четко в ЧНН у некоторых абонентов входящий трафик 0 байт (под данным радиуса с ASR и по жалобам самих абонентов). исходящий у них разный, от десятков байт до сотен кб.

ну то есть абонент ломится внаружу через нат, а ему ничего.

проблемы появились буквально неделю назад в процессе перетаскивания на ASR абонентов (т.е. шло активное увеличение нагрузки каждый день).

 

оверранов почти нет (было три единичных всплеска на внешнем интерфейсе, тоже в чнн, но не вчера-позавчера, когда пошла основная масса жалоб).

утилизация qfp выше 16 процентов не поднимается.

трансляций в чнн 350к.

и вообще по всей стате, которую можно снять по show platform hardware... - всё прекрасно.

сейчас планирую добавить в конфиг no ip nat service all-algs, больше идей нет.

ну и сбрасывать трансляции ежесуточно попробую.

 

разве что есть подозрение, что моя идея прибивания айпишников ната к конкретным подсетям имеет какие-то непонятные мне изъяны.

ну то есть одна абонентская подсеть натится в один айпишник, другая - в другой, и т.д., пулов, как таковых, нет - каждый пул имеет в себе только один адрес.

 

это самый "загруженный" трансляциями адрес:

#show ip nat statistics

[Id: 11] access-list NAT-USERS09 pool IPPOOL09 refcount 26605
 pool IPPOOL09: id 9, netmask 255.255.255.224
        start xx.xx.xx.9 end xx.xx.xx.9
        type generic, total addresses 1, allocated 1 (100%), misses 0

#show ip nat pool name IPPOOL09

NAT Pool Statistics

Pool name IPPOOL09, id 9
                              Assigned            Available
  Addresses                          1                    0
  UDP Low Ports                     11                  501
  TCP Low Ports                      0                  512
  UDP High Ports                  1426                63086
  TCP High Ports                 21376                43136

то есть вроде как запас по портам прекрасный.

если всё же идеологически что-то не так - подскажите.

А зачем пулы по одному адресу?

Share this post


Link to post
Share on other sites

В 22.01.2022 в 20:18, zhenya` сказал:

А зачем пулы по одному адресу?

чтобы абоненты не скакали рандомно по внешним адресам. давняя привычка с софтовых натов ) да и с таких же давних жалоб абонентов.

с ASR не стоит так делать?

 

щас вот, думаю, выполнить ваш совет в другой теме - убрать не-натящихся белых абонентов с интерфейса, на котором nat outside.

их не так уж и много, но мало ли...

 

у меня общая схема работы asr такая (это если вдруг поможет для прихода какого-нибудь совета в голову) - два влана в LAN к абонентам, по одному влану приходят серые, по одному белые.

все это в отдельном vrf, nat inside на "серых".

дальше vasileft в том же vrf, на котором nat outside (через него как раз все ходят - и белые, и серые), и vasiright для стыка с ним.

ну а в основной таблице маршрутизации уже bgp и три фулл-вью болтается.

Share this post


Link to post
Share on other sites

В 22.01.2022 в 21:09, zhenya` сказал:

В один пул соберите.

график утилизации qfp есть? Покажите вывод datapath util.

 

а в чем смысл vasi?)

 

мб клиентов по vrf разделить?

в один пул - на это есть причина, или примерно как я сейчас действую - ищу подземные стуки? )

хочется понимания, что это даст.

 

смысл vasi - тот самый нат. убирание абонентов из глобального vrf.

сделан по мануалу

по vrf разделить клиентов - имеете в виду белых и серых? а что это даст?

 

график только вчера рисовать начал, там все гладко вроде как.

снимается ежеминутный показатель.

06c85563740b.png

 

Скрытый текст
#show platform hardware qfp active datapath utilization
  CPP 0: Subdev 0            5 secs        1 min        5 min       60 min
Input:  Priority (pps)            0            0            0            0
                 (bps)            0            0            0            0
    Non-Priority (pps)      1054234      1036547      1033161      1003757
                 (bps)   8219074360   8090695440   8032205896   7814476696
           Total (pps)      1054234      1036547      1033161      1003757
                 (bps)   8219074360   8090695440   8032205896   7814476696
Output: Priority (pps)            1            1            1            1
                 (bps)         1416         1792         1552         1536
    Non-Priority (pps)      1051058      1033388      1029507       998854
                 (bps)   8305118608   8174903728   8110285920   7876239880
           Total (pps)      1051059      1033389      1029508       998855
                 (bps)   8305120024   8174905520   8110287472   7876241416
Processing: Load (pct)           16           15           15           15

 

upd: вообще давно руки чешутся, ну а щас реальная причина появилась - вынести bgp на отдельный тазик (ступор asr на пару минут от вливания фулл-вью - это незабываемое ощущение в первый раз, а что будет, если аплинк флапать начнет?), а asr без всяких vasi и vrf использовать как чистый nat/съемник нетфлоу/авторизатор.

вот только сервера пока нет под рукой, надо покупать, а с текущими глюками что-то надо делать.

 

upd2: планы на ближайшую ночь - таки слить пулы в один по принципу "хуже уже не будет" и убрать трафик белых адресов с интерфейса с nat'ом (сделаю второй экземпляр vasi).

и ребут до кучи в последнюю прошивку (стоит 16.09.07, будет 16.09.08).

сегодня колл-центр одолели. завтра колл-центр придет за моей шкурой, наверное.

Edited by nixx

Share this post


Link to post
Share on other sites

Добавьте на графики с цифрами трафика (bps), причём раздельные по input non priority и priority.

 

 

да, я именно про это разделение. Вы все правильно поняли.

Share this post


Link to post
Share on other sites

ну по priority вообще нули, вы ж видите. по кэшам портов тоже нули в "Fill Status Max".

после ребута внешне все прекрасно. однако люди жалуются. но меньше. то ли это остаточное по следам предыдущих дней, то ли вообще дело не в циске...

Скрытый текст
#show platform hardware port 0/1/0 plim buffer settings
Interface 0/1/0
  RX Low
    Buffer Size 28901376 Bytes
    Drop Threshold Low 28891200 Bytes Hi 28891200 Bytes
    Fill Status Curr/Max 7573504 Bytes / 7573504 Bytes
  TX Low
    Fill Status Curr/Max 0 Bytes / 2048 Bytes
  RX High
    Buffer Size 4128768 Bytes
    Drop Threshold Low 4118592 Bytes Hi 4118592 Bytes
    Fill Status Curr/Max 0 Bytes / 0 Bytes
  TX High
    Fill Status Curr/Max 0 Bytes / 0 Bytes

#show platform hardware port 0/2/0 plim buffer settings
Interface 0/2/0
  RX Low
    Buffer Size 28901376 Bytes
    Drop Threshold Low 28891200 Bytes Hi 28891200 Bytes
    Fill Status Curr/Max 45056 Bytes / 45056 Bytes
  TX Low
    Fill Status Curr/Max 256 Bytes / 4288 Bytes
  RX High
    Buffer Size 4128768 Bytes
    Drop Threshold Low 4118592 Bytes Hi 4118592 Bytes
    Fill Status Curr/Max 0 Bytes / 0 Bytes
  TX High
    Fill Status Curr/Max 0 Bytes / 0 Bytes

 

свежий ios начал писать в логи вот такое:

%IOSXE-4-PLATFORM: R0/0: cpp_cp: QFP:0.0 Thread:119 TS:00000051456541238108 %NAT-4-ALL_HOST_MAX_ENTRIES: all-host maximum limit of 3000 reached for 10.15.12.10.

Share this post


Link to post
Share on other sites

В 23.01.2022 в 18:36, nixx сказал:

NAT-4-ALL_HOST_MAX_ENTRIES: all-host maximum limit of 3000 reached for 10.15.12.10.

Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу.

Share this post


Link to post
Share on other sites

В 23.01.2022 в 19:43, jffulcrum сказал:

Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу.

необязательно. такое и торрентами нагенерить можно, если чел раздает активно.

Share this post


Link to post
Share on other sites

В 23.01.2022 в 21:43, jffulcrum сказал:

Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу.

 Скриптом парсить что ? flow ? ацлем проц наргружать ? Это же все внутри асрки...

Share this post


Link to post
Share on other sites

В 24.01.2022 в 06:10, YuryD сказал:

ацлем проц наргружать ?

Ну если всё в одной коробке, то да. Обычно есть еще коммутатор, на котором можно все это делать до попадания в ASR

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.