Перейти к содержимому
Калькуляторы

ASR-1001X падает forward (как то связано с NAT)

на борту 8 Гб RAM и:

Cisco IOS XE Software, Version 03.17.03.S - Standard Support Release
Cisco IOS Software, ASR1000 Software (X86_64_LINUX_IOSD-UNIVERSALK9-M), Version 15.6(1)S3, RELEASE SOFTWARE (fc2)

на нем терминируются IPoE QINQ клиенты (>5200 душ, >6 Гбит/с, CG-NAT ~700k сессий), и проброшен 1 bridge-domain (>500 Мбит/с). 

периодически, не зависимо от нагрузки и времени (разве что ночью не падает) падает forward трафика. вплоть до того, что он перестает видеть следующий по цепочке ASBR, в который непосредственно воткнут. 

при этом сам роутер доступен, поддается управлению.

в логах стерильно чисто (за исключением того что отваливается OSPF на уплинк порту по таймауту, как следствие).

никаких всплесков по CPU в этот момент нет

#show platform resources
**State Acronym: H - Healthy, W - Warning, C - Critical
Resource                 Usage                 Max             Warning         Critical        State
----------------------------------------------------------------------------------------------------
RP0 (ok, active)                                                                               H
 Control Processor       3.00%                 100%            90%             95%             H
  DRAM                   2379MB(30%)           7903MB          90%             95%             H
ESP0(ok, active)                                                                               H
 QFP                                                                                           H
  TCAM                   116cells(0%)          131072cells     45%             55%             H
  DRAM                   388252KB(10%)         3670016KB       80%             90%             H
  IRAM                   8618KB(6%)            131072KB        80%             90%             H

при этом, т.к. роутер в этот момент управляем, пытались сбрасывать NAT (clear ip nat translation *), помогает секунд на 5, а потом заново. такое ощущение что где то забивается какой то буфер. так продолжается минут 5-10, и отвисает само. периодичность и зависимость отсутствует. может например помереть сразу после рестарта роутера.

 

что ещё посмотреть, чтобы понять что это?

Изменено пользователем simpl3x

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

очень похоже на 

 

ASR-ISG-ZARYA-1#sh processes history
 PID Exectime(ms) Caller PC Process Name
 451           1 0x0        Virtual Exec
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
  76        1105 0x7FD22CA285AF IOSD chasfs task
  15      600997 0x7FD22787F3BD ARP Input
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
  15     1201994 0x7FD22787F3BD ARP Input
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
  15      600997 0x7FD22787F3BD ARP Input
 246       21051 0x7FD230EF4F79 IPAM Manager
 185       19946 0x7FD2298519C7 IP ARP Retry Ager
 150        5227 0x7FD23029886C MCP RP autovc process
 391       18666 0x7FD230E64FB9 IP Inband Session Initiator
 391       18666 0x7FD230E64FE4 IP Inband Session Initiator
 186       24074 0x7FD22980AE15 IP Input
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
  15     1201992 0x7FD22787F3BD ARP Input
  76        2210 0x7FD22CA285AF IOSD chasfs task
  15      600996 0x7FD22787F3BD ARP Input
 186       24074 0x7FD22980AE15 IP Input
 120      312896 0x7FD2300BF785 IOSXE-RP Punt Service Process
 391       18666 0x7FD230E64FB9 IP Inband Session Initiator
 391       18666 0x7FD230E64FE4 IP Inband Session Initiator
 500        1815 0x7FD229EFDD4F IP NAT Ager
 427        1361 0x7FD2318A4BFC Timer Library
 368        1352 0x7FD22DB1A3B8 Inspect process
  76        1105 0x7FD22CA285AF IOSD chasfs task
  15      600996 0x7FD22787F3BD ARP Input
  96        7157 0x7FD22D68940E 100ms check
 120      312896 0x7FD2300BF785 IOSXE-RP Punt Service Process
  76        1105 0x7FD22CA285AF IOSD chasfs task
  15      600996 0x7FD22787F3BD ARP Input
 180       17411 0x7FD22C32784D VRRS Main thread
 186       24074 0x7FD22980AE15 IP Input
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
  52         440 0x7FD22FC9AECC Net Input
 246       21051 0x7FD230EF4F79 IPAM Manager
 304      107937 0x7FD22B651DEF RADIUS
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
 185       19946 0x7FD2298519C7 IP ARP Retry Ager
  15      600996 0x7FD22787F3BD ARP Input
  76        1105 0x7FD22CA285AF IOSD chasfs task
  15     1201992 0x7FD22787F3BD ARP Input
 304      107937 0x7FD22B651DEF RADIUS
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
 304      107937 0x7FD22B651DEF RADIUS
 169       49142 0x7FD2277BAB21 AAA ACCT Proc
 170      136802 0x7FD2277BADC8 ACCT Periodic Proc
  15      600996 0x7FD22787F3BD ARP Input
 419       17143 0x7FD22C32784D MMA DB TIMER
  15     1802988 0x7FD22787F3BD ARP Input
 316      100548 0x7FD228CACCE4 DHCPD Receive
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
 316      100548 0x7FD228CACCE4 DHCPD Receive
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
  15      600996 0x7FD22787F3BD ARP Input
 120      156448 0x7FD2300BF785 IOSXE-RP Punt Service Process
 197       23167 0x7FD22B9D83CA SSM connection manager
 198       60249 0x7FD22BBA537D SSS Manager
 197       23167 0x7FD22B9D84A8 SSM connection manager
  75       79128 0x7FD22CA27FB8 IOSD ipc task

 

 

но клиентам выдаётся /20 маска.

#sh ip arp summary
5574 IP ARP entries, with 146 of them incomplete

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

4 часа назад, zhenya` сказал:

Трафик в бридждомене тоже роняется?

да, в том числе. железяка перестает видеть даже next-hop, который находится на расстоянии 1.5 метров оптического кабеля!

 

 

когда наткнулся на историю с ARP input - убрал с интерфейсов ip local-proxy-arp

не могу сказать, что изменилось что то в нагрузке. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

9 часов назад, simpl3x сказал:

Version 15.6(1)S3,

Древненькая... В ту пору были большие проблемы с NAT gatekeeper, попробуйте 

no ip nat service gatekeeper

 

Ежели вдруг помогло, значит пора апгрейдить IOS

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1 минуту назад, jffulcrum сказал:

no ip nat service gatekeeper

no ip nat service all-algs

либо так? оно сейчас так настроено.

 

ip nat settings mode cgn
no ip nat settings support mapping outside
ip nat settings pap limit 30
ip nat log translations flow-export v9 udp destination Q.W.E.R 2115 source GigabitEthernet0
ip nat translation timeout 3600
ip nat translation tcp-timeout 12000
ip nat translation pptp-timeout 12000
ip nat translation udp-timeout 60
ip nat translation finrst-timeout 120
ip nat translation syn-timeout 20
ip nat translation dns-timeout 10
ip nat translation routemap-entry-timeout 12000
ip nat translation icmp-timeout 10
ip nat translation port-timeout tcp 80 180
ip nat translation port-timeout tcp 8080 180
ip nat translation port-timeout tcp 1600 180
ip nat translation port-timeout tcp 110 180
ip nat translation port-timeout tcp 25 180
ip nat translation port-timeout tcp 6666 3600
ip nat translation max-entries 1024000
ip nat translation max-entries all-host 3400
no ip nat service all-algs
ip nat pool CGNAT-POOL-1 Q.W.E.R Q.W.E.R prefix-length 24
ip nat pool CGNAT-POOL-2 Q.W.E.R Q.W.E.R prefix-length 26
ip nat inside source list 1 pool CGNAT-POOL-1 overload
ip nat inside source list 2 pool CGNAT-POOL-2 overload

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@jffulcrum а какая нынче актуально-стабильная версия, в которой адекватно работает CGNAT в IPoE?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А CGNAT нужен вообще? По опыту использования - один гемор от него. Чего только стоит разбор логов для отдела "К".

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

нужно читать логи. интерфейс ги0 (мнг) раз доступен. заходите и читайте.

поставьте только

logging buffered 512000 

logging buffered informa

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

10 минут назад, zhenya` сказал:

нужно читать логи. интерфейс ги0 (мнг) раз доступен. заходите и читайте.

поставьте только

logging buffered 512000 

logging buffered informa

да в том то и дело, что это сделали в первую очередь и на момент падения логи остаются чистыми. там ничего нет, от чего можно оттолкнуться. 

 

в любом случае, пока железяка не падает, после отключения ip local-proxy-arp  на интерфейсах.

ищем актуальную версию ios (16.3.7 или 16.6.3).

 

1 час назад, ShyLion сказал:

А CGNAT нужен вообще? По опыту использования - один гемор от него. Чего только стоит разбор логов для отдела "К".

в ситуации, когда надо максимально утилизировать доступные ipv4, он нужен.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Только что, zhenya` сказал:

не нужно переходить на 16.xx

почему? что посоветуете? 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

14 hours ago, simpl3x said:

в ситуации, когда надо максимально утилизировать доступные ipv4, он нужен.

Просветите, плиз. По моему опыту _наоборот_, требуется больше реальников, потому что количестов доступных сочетаний адресов:портов сокращается просто монументально.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

в общем, суть оказалась проще. один из клиентов генерировал ~1 млн. соединений в минуту(видимо какой то ботнет) и укладывал asr. 

вопрос, есть ли какой то механизм, который позволит не падать кошке в такой ситуации? (ответ: "резать это на доступе" - реализован)

 

В 18.09.2018 в 07:40, ShyLion сказал:

Просветите, плиз. По моему опыту _наоборот_, требуется больше реальников, потому что количестов доступных сочетаний адресов:портов сокращается просто монументально.

в этом отношении заблуждался.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Обычно ограничивают количество трансляций на один приватник.

у меня:

ip nat translation max-entries all-host 2000

2000 пользователей, жалоб нет.

asr-1002x-621#show ip nat limits all-host number-of-sessions greater-than 50 

Host            Max Entries Use Count  Miss Count
-------------------------------------------------

100.64.21.161   2000        53         0         

Total number of limit entries: 1

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@ShyLion 

Ну вот проблема в том, что у клиента на доступе не было юникаст рейтлимита, у кошки естественно настройки:

Цитата

ip nat translation max-entries 1024000
ip nat translation max-entries all-host 3400

В итоге все как описано выше.

Да - кошка не даёт клиенту больше выделенного, но при этом дохнет сама.

При этом, я не нашел как это ещё проявляется, кроме как на ошибоках nat quota drops резкий скачек до 1.5 млн.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1 час назад, zhenya` сказал:

он может спуфит? урпф ? ipmb на аксесе?

Не, посмотрели  netflow по потокам и по нат трансляциям, явно видно что он лупит какие то китайские адреса по 80 порту или по порту на котором крутятся какие то фронтенды вебсервисов, в пиках выдавая 75k pps.

 

И при этом процессорная загрузка RP никаким образом не показывает что ему как то не по себе.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

дык он железный. откуда возьмется загрузка на RP..

Вообще странно, что max-entries all-host 3400 не сработало.

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1 hour ago, zhenya` said:

Вообще странно, что max-entries all-host 3400 не сработало.

Там рейт TCP/SYN большой тупо. Трансляции не создаются, но мозги поджаривают.

Как я понял.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

2 часа назад, zhenya` сказал:

дык он железный. откуда возьмется загрузка на RP..

Вообще странно, что max-entries all-host 3400 не сработало.

 

сработало всё

2018-09-27_10-37-31.thumb.png.0a25d7e7b8836e01ba7bdd015dc382ba.png

кошка честно резала квоту, при этом отмирало всё остальное(в том числе и трафик в бридждомене, который к нату не имеет никакого отношения)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Коллега, OIDами не поделитесь? :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

25 минут назад, ShyLion сказал:

Коллега, OIDами не поделитесь? :)

NAT - общее количество сессий - .1.3.6.1.2.1.123.1.7.0

NAT - Error - resource errors - .1.3.6.1.2.1.123.1.12.1.1.3.0

NAT - Error - quota drops - .1.3.6.1.2.1.123.1.12.1.1.4.0

NAT - Error - out of port error - .1.3.6.1.2.1.123.1.12.1.1.2.0

NAT - IP - освобождение в блоке - .1.3.6.1.2.1.123.1.14.2.1.6.0.{ID}

NAT - IP - резервирование в блоке - .1.3.6.1.2.1.123.1.14.2.1.5.0.{ID}

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

спасибо

 

# snmpget 10.0.6.21 .1.3.6.1.2.1.123.1.7.0
SNMPv2-SMI::mib-2.123.1.7.0 = No Such Object available on this agent at this OID

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.