Jump to content

Recommended Posts

Posted

ASR1006 пропускает примерно 3 Гбит/с трафика и 500 kpps. Совсем небольшая нагрузка, но QFP уходит в полку, растут задержки. Никак не могу диагностировать причину.

 

graph.thumb.png.70d331562910b8600b368b44c5428096.png

Сервисный процессор ASR1000-ESP40, NAT не используем.

 

 

ASR1006#show platform hardware qfp active datapath utilization
  CPP 0: Subdev 0            5 secs        1 min        5 min       60 min
Input:  Priority (pps)          150          120          115          102
                 (bps)       186120       122112       121064       172448
    Non-Priority (pps)       482186       474784       459799       483535
                 (bps)   2596576656   2573145896   2513437080   2701580128
           Total (pps)       482336       474904       459914       483637
                 (bps)   2596762776   2573268008   2513558144   2701752576
Output: Priority (pps)          223          200          205          201
                 (bps)       258168       196272       207256       268224
    Non-Priority (pps)       482147       474648       459462       478088
                 (bps)   2598801304   2575162536   2513370200   2645778136
           Total (pps)       482370       474848       459667       478289
                 (bps)   2599059472   2575358808   2513577456   2646046360
Processing: Load (pct)           64           65           65           73
ASR1006#show platform resources                               
**State Acronym: H - Healthy, W - Warning, C - Critical                                             
Resource                 Usage                 Max             Warning         Critical        State
----------------------------------------------------------------------------------------------------
RP0 (ok, active)                                                                               H    
 Control Processor       9.10%                 100%            90%             95%             H    
  DRAM                   5734MB(35%)           15933MB         90%             95%             H    
ESP0(ok, active)                                                                               H    
 Control Processor       0.60%                 100%            90%             95%             H    
  DRAM                   1596MB(20%)           7881MB          90%             95%             H    
 QFP                                                                                           H    
  TCAM                   540cells(0%)          524288cells     45%             55%             H    
  DRAM                   276327KB(26%)         1048576KB       80%             90%             H    
  IRAM                   10666KB(8%)           131072KB        80%             90%             H    
SIP0                                                                                           H    
 Control Processor       3.21%                 100%            90%             95%             H    
  DRAM                   455MB(48%)            943MB           90%             95%             H

В чем может быть дело?

Posted

Нет, не внезапно. Неделю назал был DDOS, примерно 18 Гбит/с, на нагрузку QFP это никак не повлияло никаким образом. А сегодня пришло 3 Гбит/с и нагрузка QFP выросла до 95%. Атакуемого клиента перенесли на другое оборудования и с ASR сняли анонсы, но QFP нагрузка болтается примерно 65-70% и плавают задержки.

ASR работает в качестве BNG (ISG).

Posted
3 minutes ago, Bushi said:

Нет, не внезапно. Неделю назал был DDOS, примерно 18 Гбит/с, на нагрузку QFP это никак не повлияло никаким образом. А сегодня пришло 3 Гбит/с и нагрузка QFP выросла до 95%. Атакуемого клиента перенесли на другое оборудования и с ASR сняли анонсы, но QFP нагрузка болтается примерно 65-70% и плавают задержки.

ASR работает в качестве BNG (ISG).

Это смотрели?

https://www.cisco.com/c/en/us/support/docs/routers/asr-1000-series-aggregation-services-routers/212646-troubleshoot-high-cpu-on-asr1000-series.html

 

4 minutes ago, Bushi said:

А сегодня пришло 3 Гбит/с и нагрузка QFP выросла до 95%. Атакуемого клиента перенесли на другое оборудования и с ASR сняли анонсы, но QFP нагрузка болтается примерно 65-70% и плавают задержки.

Может всетаки что-то форвардится продолжает?

Posted
7 минут назад, ShyLion сказал:

Может всетаки что-то форвардится продолжает?

Нет, трафик на ASR не попадает. Сейчас инспектировал конфиг, для одной служебной сети был включен nat, соответственно на аплинк интерфейсе был включен ip nat outside. Активных трансляций было всего 14


 

ASR1006# sh ip nat stat
Total active translations: 14 (0 static, 14 dynamic; 14 extended

Как только убрал с аплинка ip nat outside, нагрузка упала до 7%. Что это было?

 

image.thumb.png.d260d20baf04930497a3eada3db08ee2.png

 

  • 4 years later...
Posted
В 18.02.2020 в 18:10, zhenya` сказал:

Asr очень больно, когда через интерфейс с nat inside/outside проходит очень много трафика, который не надо натить.


Подниму старую тему
много раз встречал такое  ( как в цитате выше) но ни разу не видел как
1 - как диагностировать что проблема именно в этом
2 - есть ли какой workaround?

Posted (edited)
5 часов назад, sirmax сказал:

2 - есть ли какой workaround?

а) по совету того же zhenya` года два назад разнёс в разные vrf'ы серых и белых абонентов так, что трафик белых не проходит ни через inside, ни через outside. дало ли это что-то - не могу сказать, но вот таких странных глюков, когда вроде не атакуют, но загрузка странноватая - у меня за всё время работы ASR не было.

б) при ддосах qfp занимается тем, что пытается реагировать на все пакеты снаружи, которые в него влетают, но "не принадлежат" никакой нат-сессии. рекомендация циски в этом случае - использовать ZBFW. но мне пока не довелось поиграться с ним в бою.

Edited by nixx
добавил слово "снаружи"
Posted
34 минуты назад, nixx сказал:

а) по совету того же zhenya` года два назад разнёс в разные vrf'ы серых и белых абонентов так, что трафик белых не проходит ни через inside, ни через outside. дало ли это что-то - не могу сказать, но вот таких странных глюков, когда вроде не атакуют, но загрузка странноватая - у меня за всё время работы ASR не было.

б) при ддосах qfp занимается тем, что пытается реагировать на все пакеты, которые в него влетают, но "не принадлежат" никакой нат-сессии. рекомендация циски в этом случае - использовать ZBFW. но мне пока не довелось поиграться с ним в бою.

Я не могу придумать как разнести реальники и фейки, у меня ip unnumbered и реальник выдастся в один клик

 

пока проблем нет, вопрос скорее превентивно быть готовым 

Posted

Я даже в какой-то теме ссылку давал: Troubleshoot IOS-XE NAT Intermittent Failure to Translate some Packets - Cisco . У меня тупо наружу текло столько "непереваренного" трафа, что вышестоящий оператор отключил линию - IDS сработала. Видимо, они это починили, но у фикса оказалась своя цена

Posted
3 часа назад, nixx сказал:

а) по совету того же zhenya` года два назад разнёс в разные vrf'ы серых и белых абонентов так, что трафик белых не проходит ни через inside, ни через outside. дало ли это что-то - не могу сказать, но вот таких странных глюков, когда вроде не атакуют, но загрузка странноватая - у меня за всё время работы ASR не было.

б) при ддосах qfp занимается тем, что пытается реагировать на все пакеты снаружи, которые в него влетают, но "не принадлежат" никакой нат-сессии. рекомендация циски в этом случае - использовать ZBFW. но мне пока не довелось поиграться с ним в бою.

Да и при большом объеме белых адресов оно начинает деградировать на этих лукапах в трансляции. Лучшего всего конечно помогает балансить priority и non priority на qfp. Когда железка приплывает, то это видно по overrun счетчикам.

 

 

что за железка то? И сколько трафика? 
 

 

с unnumbered можно придумать эт еще один лупбэк и его посадить в врф, но повторюсь вопрос объемов. 

Posted

Пока болел на выходных перечитал все что смог найти на форуме по ASR1000/ASR100-X. И тем не менее осталось куча недостаточно освещенных моментов.

Судя по частоте появления тем - первые версии софта были малорабочие, но примерно к 19-20 году все более/менее стабилизировалось - тем появляется значительно меньше (ну или форум загибается - такого анализа я не делал)

@zhenya`

>что за железка то? И сколько трафика? 
ASR1001 - трафика пока на тесте 3гига (по счетчику QFP)
image.thumb.png.382adc61d31864774fc950a8fd155386.png

Нагрузка по его же счетчику не вызывает вопросов
image.thumb.png.eaf2f8dd85df28d282e155547b8749bf.png


(control plane нее привожу - там нагрузка на уровне единиц процентов)

>с unnumbered можно придумать эт еще один лупбэк и его посадить в врф, но повторюсь вопрос объемов. 

Как - если в одном VLAN  приезжают рядом и реальники и фейки?

Не уверен что это важно - но абоненты сидят на Po1 (4x1G), интерент на Te0/1/0.xx , ISG , ipoe, VLAN на дом

Пул из 32 адресов для ната, настроен так
 

ip access-list extended ACL-allow-nat-for-all-customers-100-64-0-0-and-192.168.128.0-protocols
 deny   ip any 192.168.0.0 0.0.255.255
 deny   ip any 172.16.0.0 0.15.255.255
 deny   ip any 10.0.0.0 0.255.255.255
 deny   ip any 100.64.0.0 0.0.255.255
 deny   ip any 94.XX.YY.0 0.0.0.255
 deny   ip 94.XX.YY.0 0.0.0.255 any 
 permit tcp  192.168.128.0 0.0.15.255 any
 permit udp  192.168.128.0 0.0.15.255 any
 permit icmp 192.168.128.0 0.0.15.255 any
 permit gre  192.168.128.0 0.0.15.255 any
 permit ahp  192.168.128.0 0.0.15.255 any
 permit esp  192.168.128.0 0.0.15.255 any
 permit tcp  100.64.0.0 0.0.255.255 any
 permit udp  100.64.0.0 0.0.255.255 any
 permit icmp 100.64.0.0 0.0.255.255 any
 permit gre  100.64.0.0 0.0.255.255 any
 permit ahp  100.64.0.0 0.0.255.255 any
 permit esp  100.64.0.0 0.0.255.255 any
 deny   ip any any


(млять форум глючит как код не вставляет!)

ip nat inside source list ACL-allow-nat-for-all-customers-100-64-0-0-and-192.168.128.0 pool NAT-POOL-for-100-64-0-0-and-192.168.128.0 overload

ip nat pool NAT-POOL-for-100-64-0-0-and-192.168.128.0 prefix-length 24
 address 94.XX.YY.40 94.XX.YY.40

...
и так еще адреса в разнобой, просто взяты на время переезда не розданные адреса, что бы не ломать работающий пул

CG-NAT не включен

ip nat settings pap limit 60
ip nat log translations flow-export v9 udp destination 10.72.0.8 2055
ip nat translation timeout 120
ip nat translation tcp-timeout 120
ip nat translation udp-timeout 60
ip nat translation finrst-timeout 10
ip nat translation syn-timeout 10
ip nat translation dns-timeout 10
ip nat translation icmp-timeout 6
ip nat translation max-entries all-host 1024



Трансляций в пиках примерно вот так
image.thumb.png.3fb1b44c36c3539c759b84eb81eedb9a.png

ПОКА я не вижу никаких проблем - но учитывая что описаны проблемы, хотелось бы разобрать





Ниже приведу цитаты которые хотелось бы разобрать (из других топиков):

@zhenya` Опубликовано 28 мая, 2020
Asr (а точнее esp) очень больно, если гонять много трафика белых адресов через ip nat inside/outside интерфейсы.

 

^^^ этот посыл я нахожу постоянно - и все еще это выглядит как бажина в каком-то старом софте, которая поправлена но история о ней живет 

@zhenya` Опубликовано 30 июля, 2020
попробуйте сделать так чтобы половина трафика попадала в priority queue

^^^
То же самое - я нахожу такие советы но без поясненений КАК это сделать и как наблюдать какой трафик попадает в priority queue



@zhenya` Опубликовано 2 мая, 2017
эм. а где в конфиге ip nat settings mode cgn и no ip nat settings support mapping outside?

^^^
Тут акцентирую внимание что nat и cg-nat  могут работать сильно по разному, с разными глюками, в темах про нат обычно намешано ответов от людей как с cg-nat так и без
 


@zhenya` Опубликовано 17 сентября, 2018
не нужно переходить на 16.xx ('


^^^
Это о версии софта - но почему???


@jffulcrumОпубликовано 1 ноября, 2023
Попытки NATить на ASR еще на 10G сразу уперлись в  
https://www.cisco.com/c/en/us/support/docs/ip/network-address-translation-nat/210869-ASR1k-NAT-intermittently-fails-to-transl.html
и были оставлены, NAT стали заниматься сначала MT1036, а потом два таза с Линуксом. 


^^^
Там же описано как обойти - что именно не так пошло с ним? И вроде пишут что в новом софте пофикшено:

Workaround/Fix
In most environments, the NAT gatekeeper functionality works fine and does not cause issues. However, if you do run into this problem there are a few ways to resolve it. 
 



После прочтения тем выписал себе команды которые  могут помочь в дебаге что бы как-то систематизировать что-ли

 

sh platform hardware qfp active tcam resource-manager usage
sh platform software status control-processor brief
sh environment all | i PEM
sh platform hardware qfp active data utilization
sh platform hardware slot f0 serdes statistics <<<  не работает на моей платформе ни для какого слота
show platform resources
sh ip nat translations | exclude tcp|udp|icmp



sh sss statistics



У меня сейчас наблюдается такое

 

Cisco IOS XE Software, Version 03.16.10.S - Extended Support Release
Cisco IOS Software, ASR1000 Software (X86_64_LINUX_IOSD-UNIVERSALK9-M), Version 15.5(3)S10, RELEASE SOFTWARE (fc3)

cisco ASR1001 (1RU) processor (revision 1RU) with 6800174K/6147K bytes of memory.
Processor board ID SSI17080BW7
4 Gigabit Ethernet interfaces
1 Ten Gigabit Ethernet interface
32768K bytes of non-volatile configuration memory.
16777216K bytes of physical memory.
7741439K bytes of eUSB flash at bootflash:




 

ASR1001# show platform hardware qfp active datapath utilization
  CPP 0: Subdev 0            5 secs        1 min        5 min       60 min
Input:  Priority (pps)           13            4            4            4
                 (bps)         7136         2408         3208         3128
    Non-Priority (pps)       253302       240378       251917       262258
                 (bps)   1638240216   1535786720   1610391680   1675561560
           Total (pps)       253315       240382       251921       262262
                 (bps)   1638247352   1535789128   1610394888   1675564688
Output: Priority (pps)           41           33           33           33
                 (bps)        32632        28616        28576        29656
    Non-Priority (pps)       253161       240125       251553       261522
                 (bps)   1636988368   1533664568   1607237000   1668088808
           Total (pps)       253202       240158       251586       261555
                 (bps)   1637021000   1533693184   1607265576   1668118464
Processing: Load (pct)           15           15           15           16



 

ASR1001#sh platform hardware qfp active tcam resource-manager usage
QFP TCAM Usage Information

80 Bit Region Information
--------------------------
Name                                : Leaf Region #0
Number of cells per entry           : 1
Current 80 bit entries used         : 0
Current used cell entries           : 0
Current free cell entries           : 0

160 Bit Region Information
--------------------------
Name                                : Leaf Region #1
Number of cells per entry           : 2
Current 160 bits entries used       : 232
Current used cell entries           : 464
Current free cell entries           : 3632

320 Bit Region Information
--------------------------
Name                                : Leaf Region #2
Number of cells per entry           : 4
Current 320 bits entries used       : 0
Current used cell entries           : 0
Current free cell entries           : 0


Total TCAM Cell Usage Information
----------------------------------
Name                                : TCAM #0 on CPP #0
Total number of regions             : 3
Total tcam used cell entries        : 464
Total tcam free cell entries        : 65072
Threshold status                    : below critical limit


 

Скрытый текст
ASR1001-#sh platform software status control-processor brief
Load Average
 Slot  Status  1-Min  5-Min 15-Min
  RP0 Healthy   0.00   0.06   0.03

Memory (kB)
 Slot  Status    Total     Used (Pct)     Free (Pct) Committed (Pct)
  RP0 Healthy 16342644  7061004 (43%)  9281640 (57%)  10858876 (66%)

CPU Utilization
 Slot  CPU   User System   Nice   Idle    IRQ   SIRQ IOwait
  RP0    0   9.40  11.10   0.00  79.40   0.00   0.10   0.00
         1   3.50   2.20   0.00  94.30   0.00   0.00   0.00

 

ASR1001#sh environment all | i PEM
 PEM Iout         P0                Normal            5 A
 PEM Vout         P0                Normal            12 V DC
 PEM Vin          P0                Normal            231 V AC
 PEM Iout         P1                Normal            9 A
 PEM Vout         P1                Normal            12 V DC
 PEM Vin          P1                Normal            231 V AC




 

ASR1001#sh platform hardware qfp active data utilization
  CPP 0: Subdev 0            5 secs        1 min        5 min       60 min
Input:  Priority (pps)            0            4            4            4
                 (bps)          328         2656         2792         3120
    Non-Priority (pps)       223150       227908       237027       260606
                 (bps)   1436409360   1474593840   1529844192   1665265080
           Total (pps)       223150       227912       237031       260610
                 (bps)   1436409688   1474596496   1529846984   1665268200
Output: Priority (pps)           30           33           33           33
                 (bps)        24816        27888        28504        29672
    Non-Priority (pps)       222975       227750       236752       259866
                 (bps)   1435329168   1473723536   1527631952   1657732320
           Total (pps)       223005       227783       236785       259899
                 (bps)   1435353984   1473751424   1527660456   1657761992
Processing: Load (pct)           14           14           14           16


 

 

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.