Bushi Posted February 17, 2020 Posted February 17, 2020 ASR1006 пропускает примерно 3 Гбит/с трафика и 500 kpps. Совсем небольшая нагрузка, но QFP уходит в полку, растут задержки. Никак не могу диагностировать причину. Сервисный процессор ASR1000-ESP40, NAT не используем. ASR1006#show platform hardware qfp active datapath utilization CPP 0: Subdev 0 5 secs 1 min 5 min 60 min Input: Priority (pps) 150 120 115 102 (bps) 186120 122112 121064 172448 Non-Priority (pps) 482186 474784 459799 483535 (bps) 2596576656 2573145896 2513437080 2701580128 Total (pps) 482336 474904 459914 483637 (bps) 2596762776 2573268008 2513558144 2701752576 Output: Priority (pps) 223 200 205 201 (bps) 258168 196272 207256 268224 Non-Priority (pps) 482147 474648 459462 478088 (bps) 2598801304 2575162536 2513370200 2645778136 Total (pps) 482370 474848 459667 478289 (bps) 2599059472 2575358808 2513577456 2646046360 Processing: Load (pct) 64 65 65 73 ASR1006#show platform resources **State Acronym: H - Healthy, W - Warning, C - Critical Resource Usage Max Warning Critical State ---------------------------------------------------------------------------------------------------- RP0 (ok, active) H Control Processor 9.10% 100% 90% 95% H DRAM 5734MB(35%) 15933MB 90% 95% H ESP0(ok, active) H Control Processor 0.60% 100% 90% 95% H DRAM 1596MB(20%) 7881MB 90% 95% H QFP H TCAM 540cells(0%) 524288cells 45% 55% H DRAM 276327KB(26%) 1048576KB 80% 90% H IRAM 10666KB(8%) 131072KB 80% 90% H SIP0 H Control Processor 3.21% 100% 90% 95% H DRAM 455MB(48%) 943MB 90% 95% H В чем может быть дело? Вставить ник Quote
ShyLion Posted February 17, 2020 Posted February 17, 2020 Внезапно так стало? Может понавесили хитровыдуманые сервисы? Какая роль у железки? Вставить ник Quote
Bushi Posted February 17, 2020 Author Posted February 17, 2020 Нет, не внезапно. Неделю назал был DDOS, примерно 18 Гбит/с, на нагрузку QFP это никак не повлияло никаким образом. А сегодня пришло 3 Гбит/с и нагрузка QFP выросла до 95%. Атакуемого клиента перенесли на другое оборудования и с ASR сняли анонсы, но QFP нагрузка болтается примерно 65-70% и плавают задержки. ASR работает в качестве BNG (ISG). Вставить ник Quote
ShyLion Posted February 17, 2020 Posted February 17, 2020 3 minutes ago, Bushi said: Нет, не внезапно. Неделю назал был DDOS, примерно 18 Гбит/с, на нагрузку QFP это никак не повлияло никаким образом. А сегодня пришло 3 Гбит/с и нагрузка QFP выросла до 95%. Атакуемого клиента перенесли на другое оборудования и с ASR сняли анонсы, но QFP нагрузка болтается примерно 65-70% и плавают задержки. ASR работает в качестве BNG (ISG). Это смотрели? https://www.cisco.com/c/en/us/support/docs/routers/asr-1000-series-aggregation-services-routers/212646-troubleshoot-high-cpu-on-asr1000-series.html 4 minutes ago, Bushi said: А сегодня пришло 3 Гбит/с и нагрузка QFP выросла до 95%. Атакуемого клиента перенесли на другое оборудования и с ASR сняли анонсы, но QFP нагрузка болтается примерно 65-70% и плавают задержки. Может всетаки что-то форвардится продолжает? Вставить ник Quote
Bushi Posted February 17, 2020 Author Posted February 17, 2020 7 минут назад, ShyLion сказал: Может всетаки что-то форвардится продолжает? Нет, трафик на ASR не попадает. Сейчас инспектировал конфиг, для одной служебной сети был включен nat, соответственно на аплинк интерфейсе был включен ip nat outside. Активных трансляций было всего 14 ASR1006# sh ip nat stat Total active translations: 14 (0 static, 14 dynamic; 14 extended Как только убрал с аплинка ip nat outside, нагрузка упала до 7%. Что это было? Вставить ник Quote
UglyAdmin Posted February 18, 2020 Posted February 18, 2020 Virtual Fragment Reassembly ? Вставить ник Quote
zhenya` Posted February 18, 2020 Posted February 18, 2020 Asr очень больно, когда через интерфейс с nat inside/outside проходит очень много трафика, который не надо натить. Вставить ник Quote
sirmax Posted October 11, 2024 Posted October 11, 2024 В 18.02.2020 в 18:10, zhenya` сказал: Asr очень больно, когда через интерфейс с nat inside/outside проходит очень много трафика, который не надо натить. Подниму старую тему много раз встречал такое ( как в цитате выше) но ни разу не видел как 1 - как диагностировать что проблема именно в этом 2 - есть ли какой workaround? Вставить ник Quote
nixx Posted October 11, 2024 Posted October 11, 2024 (edited) 5 часов назад, sirmax сказал: 2 - есть ли какой workaround? а) по совету того же zhenya` года два назад разнёс в разные vrf'ы серых и белых абонентов так, что трафик белых не проходит ни через inside, ни через outside. дало ли это что-то - не могу сказать, но вот таких странных глюков, когда вроде не атакуют, но загрузка странноватая - у меня за всё время работы ASR не было. б) при ддосах qfp занимается тем, что пытается реагировать на все пакеты снаружи, которые в него влетают, но "не принадлежат" никакой нат-сессии. рекомендация циски в этом случае - использовать ZBFW. но мне пока не довелось поиграться с ним в бою. Edited October 11, 2024 by nixx добавил слово "снаружи" Вставить ник Quote
sirmax Posted October 11, 2024 Posted October 11, 2024 34 минуты назад, nixx сказал: а) по совету того же zhenya` года два назад разнёс в разные vrf'ы серых и белых абонентов так, что трафик белых не проходит ни через inside, ни через outside. дало ли это что-то - не могу сказать, но вот таких странных глюков, когда вроде не атакуют, но загрузка странноватая - у меня за всё время работы ASR не было. б) при ддосах qfp занимается тем, что пытается реагировать на все пакеты, которые в него влетают, но "не принадлежат" никакой нат-сессии. рекомендация циски в этом случае - использовать ZBFW. но мне пока не довелось поиграться с ним в бою. Я не могу придумать как разнести реальники и фейки, у меня ip unnumbered и реальник выдастся в один клик пока проблем нет, вопрос скорее превентивно быть готовым Вставить ник Quote
jffulcrum Posted October 11, 2024 Posted October 11, 2024 Я даже в какой-то теме ссылку давал: Troubleshoot IOS-XE NAT Intermittent Failure to Translate some Packets - Cisco . У меня тупо наружу текло столько "непереваренного" трафа, что вышестоящий оператор отключил линию - IDS сработала. Видимо, они это починили, но у фикса оказалась своя цена Вставить ник Quote
zhenya` Posted October 11, 2024 Posted October 11, 2024 3 часа назад, nixx сказал: а) по совету того же zhenya` года два назад разнёс в разные vrf'ы серых и белых абонентов так, что трафик белых не проходит ни через inside, ни через outside. дало ли это что-то - не могу сказать, но вот таких странных глюков, когда вроде не атакуют, но загрузка странноватая - у меня за всё время работы ASR не было. б) при ддосах qfp занимается тем, что пытается реагировать на все пакеты снаружи, которые в него влетают, но "не принадлежат" никакой нат-сессии. рекомендация циски в этом случае - использовать ZBFW. но мне пока не довелось поиграться с ним в бою. Да и при большом объеме белых адресов оно начинает деградировать на этих лукапах в трансляции. Лучшего всего конечно помогает балансить priority и non priority на qfp. Когда железка приплывает, то это видно по overrun счетчикам. что за железка то? И сколько трафика? с unnumbered можно придумать эт еще один лупбэк и его посадить в врф, но повторюсь вопрос объемов. Вставить ник Quote
sirmax Posted October 15, 2024 Posted October 15, 2024 Пока болел на выходных перечитал все что смог найти на форуме по ASR1000/ASR100-X. И тем не менее осталось куча недостаточно освещенных моментов. Судя по частоте появления тем - первые версии софта были малорабочие, но примерно к 19-20 году все более/менее стабилизировалось - тем появляется значительно меньше (ну или форум загибается - такого анализа я не делал) @zhenya` >что за железка то? И сколько трафика? ASR1001 - трафика пока на тесте 3гига (по счетчику QFP) Нагрузка по его же счетчику не вызывает вопросов (control plane нее привожу - там нагрузка на уровне единиц процентов) >с unnumbered можно придумать эт еще один лупбэк и его посадить в врф, но повторюсь вопрос объемов. Как - если в одном VLAN приезжают рядом и реальники и фейки? Не уверен что это важно - но абоненты сидят на Po1 (4x1G), интерент на Te0/1/0.xx , ISG , ipoe, VLAN на дом Пул из 32 адресов для ната, настроен так ip access-list extended ACL-allow-nat-for-all-customers-100-64-0-0-and-192.168.128.0-protocols deny ip any 192.168.0.0 0.0.255.255 deny ip any 172.16.0.0 0.15.255.255 deny ip any 10.0.0.0 0.255.255.255 deny ip any 100.64.0.0 0.0.255.255 deny ip any 94.XX.YY.0 0.0.0.255 deny ip 94.XX.YY.0 0.0.0.255 any permit tcp 192.168.128.0 0.0.15.255 any permit udp 192.168.128.0 0.0.15.255 any permit icmp 192.168.128.0 0.0.15.255 any permit gre 192.168.128.0 0.0.15.255 any permit ahp 192.168.128.0 0.0.15.255 any permit esp 192.168.128.0 0.0.15.255 any permit tcp 100.64.0.0 0.0.255.255 any permit udp 100.64.0.0 0.0.255.255 any permit icmp 100.64.0.0 0.0.255.255 any permit gre 100.64.0.0 0.0.255.255 any permit ahp 100.64.0.0 0.0.255.255 any permit esp 100.64.0.0 0.0.255.255 any deny ip any any (млять форум глючит как код не вставляет!) ip nat inside source list ACL-allow-nat-for-all-customers-100-64-0-0-and-192.168.128.0 pool NAT-POOL-for-100-64-0-0-and-192.168.128.0 overload ip nat pool NAT-POOL-for-100-64-0-0-and-192.168.128.0 prefix-length 24 address 94.XX.YY.40 94.XX.YY.40 ... и так еще адреса в разнобой, просто взяты на время переезда не розданные адреса, что бы не ломать работающий пул CG-NAT не включен ip nat settings pap limit 60 ip nat log translations flow-export v9 udp destination 10.72.0.8 2055 ip nat translation timeout 120 ip nat translation tcp-timeout 120 ip nat translation udp-timeout 60 ip nat translation finrst-timeout 10 ip nat translation syn-timeout 10 ip nat translation dns-timeout 10 ip nat translation icmp-timeout 6 ip nat translation max-entries all-host 1024 Трансляций в пиках примерно вот так ПОКА я не вижу никаких проблем - но учитывая что описаны проблемы, хотелось бы разобрать Ниже приведу цитаты которые хотелось бы разобрать (из других топиков): @zhenya` Опубликовано 28 мая, 2020 Asr (а точнее esp) очень больно, если гонять много трафика белых адресов через ip nat inside/outside интерфейсы. ^^^ этот посыл я нахожу постоянно - и все еще это выглядит как бажина в каком-то старом софте, которая поправлена но история о ней живет @zhenya` Опубликовано 30 июля, 2020 попробуйте сделать так чтобы половина трафика попадала в priority queue ^^^ То же самое - я нахожу такие советы но без поясненений КАК это сделать и как наблюдать какой трафик попадает в priority queue @zhenya` Опубликовано 2 мая, 2017 эм. а где в конфиге ip nat settings mode cgn и no ip nat settings support mapping outside? ^^^ Тут акцентирую внимание что nat и cg-nat могут работать сильно по разному, с разными глюками, в темах про нат обычно намешано ответов от людей как с cg-nat так и без @zhenya` Опубликовано 17 сентября, 2018 не нужно переходить на 16.xx (' ^^^ Это о версии софта - но почему??? @jffulcrumОпубликовано 1 ноября, 2023 Попытки NATить на ASR еще на 10G сразу уперлись в https://www.cisco.com/c/en/us/support/docs/ip/network-address-translation-nat/210869-ASR1k-NAT-intermittently-fails-to-transl.html и были оставлены, NAT стали заниматься сначала MT1036, а потом два таза с Линуксом. ^^^ Там же описано как обойти - что именно не так пошло с ним? И вроде пишут что в новом софте пофикшено: Workaround/Fix In most environments, the NAT gatekeeper functionality works fine and does not cause issues. However, if you do run into this problem there are a few ways to resolve it. После прочтения тем выписал себе команды которые могут помочь в дебаге что бы как-то систематизировать что-ли sh platform hardware qfp active tcam resource-manager usage sh platform software status control-processor brief sh environment all | i PEM sh platform hardware qfp active data utilization sh platform hardware slot f0 serdes statistics <<< не работает на моей платформе ни для какого слота show platform resources sh ip nat translations | exclude tcp|udp|icmp sh sss statistics У меня сейчас наблюдается такое Cisco IOS XE Software, Version 03.16.10.S - Extended Support Release Cisco IOS Software, ASR1000 Software (X86_64_LINUX_IOSD-UNIVERSALK9-M), Version 15.5(3)S10, RELEASE SOFTWARE (fc3) cisco ASR1001 (1RU) processor (revision 1RU) with 6800174K/6147K bytes of memory. Processor board ID SSI17080BW7 4 Gigabit Ethernet interfaces 1 Ten Gigabit Ethernet interface 32768K bytes of non-volatile configuration memory. 16777216K bytes of physical memory. 7741439K bytes of eUSB flash at bootflash: ASR1001# show platform hardware qfp active datapath utilization CPP 0: Subdev 0 5 secs 1 min 5 min 60 min Input: Priority (pps) 13 4 4 4 (bps) 7136 2408 3208 3128 Non-Priority (pps) 253302 240378 251917 262258 (bps) 1638240216 1535786720 1610391680 1675561560 Total (pps) 253315 240382 251921 262262 (bps) 1638247352 1535789128 1610394888 1675564688 Output: Priority (pps) 41 33 33 33 (bps) 32632 28616 28576 29656 Non-Priority (pps) 253161 240125 251553 261522 (bps) 1636988368 1533664568 1607237000 1668088808 Total (pps) 253202 240158 251586 261555 (bps) 1637021000 1533693184 1607265576 1668118464 Processing: Load (pct) 15 15 15 16 ASR1001#sh platform hardware qfp active tcam resource-manager usage QFP TCAM Usage Information 80 Bit Region Information -------------------------- Name : Leaf Region #0 Number of cells per entry : 1 Current 80 bit entries used : 0 Current used cell entries : 0 Current free cell entries : 0 160 Bit Region Information -------------------------- Name : Leaf Region #1 Number of cells per entry : 2 Current 160 bits entries used : 232 Current used cell entries : 464 Current free cell entries : 3632 320 Bit Region Information -------------------------- Name : Leaf Region #2 Number of cells per entry : 4 Current 320 bits entries used : 0 Current used cell entries : 0 Current free cell entries : 0 Total TCAM Cell Usage Information ---------------------------------- Name : TCAM #0 on CPP #0 Total number of regions : 3 Total tcam used cell entries : 464 Total tcam free cell entries : 65072 Threshold status : below critical limit Скрытый текст ASR1001-#sh platform software status control-processor brief Load Average Slot Status 1-Min 5-Min 15-Min RP0 Healthy 0.00 0.06 0.03 Memory (kB) Slot Status Total Used (Pct) Free (Pct) Committed (Pct) RP0 Healthy 16342644 7061004 (43%) 9281640 (57%) 10858876 (66%) CPU Utilization Slot CPU User System Nice Idle IRQ SIRQ IOwait RP0 0 9.40 11.10 0.00 79.40 0.00 0.10 0.00 1 3.50 2.20 0.00 94.30 0.00 0.00 0.00 ASR1001#sh environment all | i PEM PEM Iout P0 Normal 5 A PEM Vout P0 Normal 12 V DC PEM Vin P0 Normal 231 V AC PEM Iout P1 Normal 9 A PEM Vout P1 Normal 12 V DC PEM Vin P1 Normal 231 V AC ASR1001#sh platform hardware qfp active data utilization CPP 0: Subdev 0 5 secs 1 min 5 min 60 min Input: Priority (pps) 0 4 4 4 (bps) 328 2656 2792 3120 Non-Priority (pps) 223150 227908 237027 260606 (bps) 1436409360 1474593840 1529844192 1665265080 Total (pps) 223150 227912 237031 260610 (bps) 1436409688 1474596496 1529846984 1665268200 Output: Priority (pps) 30 33 33 33 (bps) 24816 27888 28504 29672 Non-Priority (pps) 222975 227750 236752 259866 (bps) 1435329168 1473723536 1527631952 1657732320 Total (pps) 223005 227783 236785 259899 (bps) 1435353984 1473751424 1527660456 1657761992 Processing: Load (pct) 14 14 14 16 Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.