simpl3x Posted September 16, 2018 (edited) · Report post на борту 8 Гб RAM и: Cisco IOS XE Software, Version 03.17.03.S - Standard Support Release Cisco IOS Software, ASR1000 Software (X86_64_LINUX_IOSD-UNIVERSALK9-M), Version 15.6(1)S3, RELEASE SOFTWARE (fc2) на нем терминируются IPoE QINQ клиенты (>5200 душ, >6 Гбит/с, CG-NAT ~700k сессий), и проброшен 1 bridge-domain (>500 Мбит/с). периодически, не зависимо от нагрузки и времени (разве что ночью не падает) падает forward трафика. вплоть до того, что он перестает видеть следующий по цепочке ASBR, в который непосредственно воткнут. при этом сам роутер доступен, поддается управлению. в логах стерильно чисто (за исключением того что отваливается OSPF на уплинк порту по таймауту, как следствие). никаких всплесков по CPU в этот момент нет #show platform resources **State Acronym: H - Healthy, W - Warning, C - Critical Resource Usage Max Warning Critical State ---------------------------------------------------------------------------------------------------- RP0 (ok, active) H Control Processor 3.00% 100% 90% 95% H DRAM 2379MB(30%) 7903MB 90% 95% H ESP0(ok, active) H QFP H TCAM 116cells(0%) 131072cells 45% 55% H DRAM 388252KB(10%) 3670016KB 80% 90% H IRAM 8618KB(6%) 131072KB 80% 90% H при этом, т.к. роутер в этот момент управляем, пытались сбрасывать NAT (clear ip nat translation *), помогает секунд на 5, а потом заново. такое ощущение что где то забивается какой то буфер. так продолжается минут 5-10, и отвисает само. периодичность и зависимость отсутствует. может например помереть сразу после рестарта роутера. что ещё посмотреть, чтобы понять что это? Edited September 16, 2018 by simpl3x Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 16, 2018 · Report post очень похоже на ASR-ISG-ZARYA-1#sh processes history PID Exectime(ms) Caller PC Process Name 451 1 0x0 Virtual Exec 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 76 1105 0x7FD22CA285AF IOSD chasfs task 15 600997 0x7FD22787F3BD ARP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 15 1201994 0x7FD22787F3BD ARP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 15 600997 0x7FD22787F3BD ARP Input 246 21051 0x7FD230EF4F79 IPAM Manager 185 19946 0x7FD2298519C7 IP ARP Retry Ager 150 5227 0x7FD23029886C MCP RP autovc process 391 18666 0x7FD230E64FB9 IP Inband Session Initiator 391 18666 0x7FD230E64FE4 IP Inband Session Initiator 186 24074 0x7FD22980AE15 IP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 15 1201992 0x7FD22787F3BD ARP Input 76 2210 0x7FD22CA285AF IOSD chasfs task 15 600996 0x7FD22787F3BD ARP Input 186 24074 0x7FD22980AE15 IP Input 120 312896 0x7FD2300BF785 IOSXE-RP Punt Service Process 391 18666 0x7FD230E64FB9 IP Inband Session Initiator 391 18666 0x7FD230E64FE4 IP Inband Session Initiator 500 1815 0x7FD229EFDD4F IP NAT Ager 427 1361 0x7FD2318A4BFC Timer Library 368 1352 0x7FD22DB1A3B8 Inspect process 76 1105 0x7FD22CA285AF IOSD chasfs task 15 600996 0x7FD22787F3BD ARP Input 96 7157 0x7FD22D68940E 100ms check 120 312896 0x7FD2300BF785 IOSXE-RP Punt Service Process 76 1105 0x7FD22CA285AF IOSD chasfs task 15 600996 0x7FD22787F3BD ARP Input 180 17411 0x7FD22C32784D VRRS Main thread 186 24074 0x7FD22980AE15 IP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 52 440 0x7FD22FC9AECC Net Input 246 21051 0x7FD230EF4F79 IPAM Manager 304 107937 0x7FD22B651DEF RADIUS 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 185 19946 0x7FD2298519C7 IP ARP Retry Ager 15 600996 0x7FD22787F3BD ARP Input 76 1105 0x7FD22CA285AF IOSD chasfs task 15 1201992 0x7FD22787F3BD ARP Input 304 107937 0x7FD22B651DEF RADIUS 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 304 107937 0x7FD22B651DEF RADIUS 169 49142 0x7FD2277BAB21 AAA ACCT Proc 170 136802 0x7FD2277BADC8 ACCT Periodic Proc 15 600996 0x7FD22787F3BD ARP Input 419 17143 0x7FD22C32784D MMA DB TIMER 15 1802988 0x7FD22787F3BD ARP Input 316 100548 0x7FD228CACCE4 DHCPD Receive 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 316 100548 0x7FD228CACCE4 DHCPD Receive 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 15 600996 0x7FD22787F3BD ARP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 197 23167 0x7FD22B9D83CA SSM connection manager 198 60249 0x7FD22BBA537D SSS Manager 197 23167 0x7FD22B9D84A8 SSM connection manager 75 79128 0x7FD22CA27FB8 IOSD ipc task но клиентам выдаётся /20 маска. #sh ip arp summary 5574 IP ARP entries, with 146 of them incomplete Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted September 16, 2018 · Report post Трафик в бридждомене тоже роняется? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 16, 2018 · Report post 4 часа назад, zhenya` сказал: Трафик в бридждомене тоже роняется? да, в том числе. железяка перестает видеть даже next-hop, который находится на расстоянии 1.5 метров оптического кабеля! когда наткнулся на историю с ARP input - убрал с интерфейсов ip local-proxy-arp не могу сказать, что изменилось что то в нагрузке. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted September 16, 2018 · Report post 9 часов назад, simpl3x сказал: Version 15.6(1)S3, Древненькая... В ту пору были большие проблемы с NAT gatekeeper, попробуйте no ip nat service gatekeeper Ежели вдруг помогло, значит пора апгрейдить IOS Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 16, 2018 · Report post 1 минуту назад, jffulcrum сказал: no ip nat service gatekeeper no ip nat service all-algs либо так? оно сейчас так настроено. ip nat settings mode cgn no ip nat settings support mapping outside ip nat settings pap limit 30 ip nat log translations flow-export v9 udp destination Q.W.E.R 2115 source GigabitEthernet0 ip nat translation timeout 3600 ip nat translation tcp-timeout 12000 ip nat translation pptp-timeout 12000 ip nat translation udp-timeout 60 ip nat translation finrst-timeout 120 ip nat translation syn-timeout 20 ip nat translation dns-timeout 10 ip nat translation routemap-entry-timeout 12000 ip nat translation icmp-timeout 10 ip nat translation port-timeout tcp 80 180 ip nat translation port-timeout tcp 8080 180 ip nat translation port-timeout tcp 1600 180 ip nat translation port-timeout tcp 110 180 ip nat translation port-timeout tcp 25 180 ip nat translation port-timeout tcp 6666 3600 ip nat translation max-entries 1024000 ip nat translation max-entries all-host 3400 no ip nat service all-algs ip nat pool CGNAT-POOL-1 Q.W.E.R Q.W.E.R prefix-length 24 ip nat pool CGNAT-POOL-2 Q.W.E.R Q.W.E.R prefix-length 26 ip nat inside source list 1 pool CGNAT-POOL-1 overload ip nat inside source list 2 pool CGNAT-POOL-2 overload Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 17, 2018 · Report post @jffulcrum а какая нынче актуально-стабильная версия, в которой адекватно работает CGNAT в IPoE? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ShyLion Posted September 17, 2018 · Report post А CGNAT нужен вообще? По опыту использования - один гемор от него. Чего только стоит разбор логов для отдела "К". Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted September 17, 2018 · Report post нужно читать логи. интерфейс ги0 (мнг) раз доступен. заходите и читайте. поставьте только logging buffered 512000 logging buffered informa Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 17, 2018 · Report post 10 минут назад, zhenya` сказал: нужно читать логи. интерфейс ги0 (мнг) раз доступен. заходите и читайте. поставьте только logging buffered 512000 logging buffered informa да в том то и дело, что это сделали в первую очередь и на момент падения логи остаются чистыми. там ничего нет, от чего можно оттолкнуться. в любом случае, пока железяка не падает, после отключения ip local-proxy-arp на интерфейсах. ищем актуальную версию ios (16.3.7 или 16.6.3). 1 час назад, ShyLion сказал: А CGNAT нужен вообще? По опыту использования - один гемор от него. Чего только стоит разбор логов для отдела "К". в ситуации, когда надо максимально утилизировать доступные ipv4, он нужен. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted September 17, 2018 · Report post не нужно переходить на 16.xx Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 17, 2018 · Report post Только что, zhenya` сказал: не нужно переходить на 16.xx почему? что посоветуете? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted September 17, 2018 · Report post потому, что это больше для ent. последний 3.16 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ShyLion Posted September 18, 2018 · Report post 14 hours ago, simpl3x said: в ситуации, когда надо максимально утилизировать доступные ipv4, он нужен. Просветите, плиз. По моему опыту _наоборот_, требуется больше реальников, потому что количестов доступных сочетаний адресов:портов сокращается просто монументально. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 26, 2018 · Report post в общем, суть оказалась проще. один из клиентов генерировал ~1 млн. соединений в минуту(видимо какой то ботнет) и укладывал asr. вопрос, есть ли какой то механизм, который позволит не падать кошке в такой ситуации? (ответ: "резать это на доступе" - реализован) В 18.09.2018 в 07:40, ShyLion сказал: Просветите, плиз. По моему опыту _наоборот_, требуется больше реальников, потому что количестов доступных сочетаний адресов:портов сокращается просто монументально. в этом отношении заблуждался. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ShyLion Posted September 26, 2018 · Report post Обычно ограничивают количество трансляций на один приватник. у меня: ip nat translation max-entries all-host 2000 2000 пользователей, жалоб нет. asr-1002x-621#show ip nat limits all-host number-of-sessions greater-than 50 Host Max Entries Use Count Miss Count ------------------------------------------------- 100.64.21.161 2000 53 0 Total number of limit entries: 1 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 26, 2018 · Report post @ShyLion Ну вот проблема в том, что у клиента на доступе не было юникаст рейтлимита, у кошки естественно настройки: Цитата ip nat translation max-entries 1024000 ip nat translation max-entries all-host 3400 В итоге все как описано выше. Да - кошка не даёт клиенту больше выделенного, но при этом дохнет сама. При этом, я не нашел как это ещё проявляется, кроме как на ошибоках nat quota drops резкий скачек до 1.5 млн. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted September 26, 2018 · Report post он может спуфит? урпф ? ipmb на аксесе? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 26, 2018 · Report post 1 час назад, zhenya` сказал: он может спуфит? урпф ? ipmb на аксесе? Не, посмотрели netflow по потокам и по нат трансляциям, явно видно что он лупит какие то китайские адреса по 80 порту или по порту на котором крутятся какие то фронтенды вебсервисов, в пиках выдавая 75k pps. И при этом процессорная загрузка RP никаким образом не показывает что ему как то не по себе. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted September 27, 2018 · Report post дык он железный. откуда возьмется загрузка на RP.. Вообще странно, что max-entries all-host 3400 не сработало. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ShyLion Posted September 27, 2018 · Report post 1 hour ago, zhenya` said: Вообще странно, что max-entries all-host 3400 не сработало. Там рейт TCP/SYN большой тупо. Трансляции не создаются, но мозги поджаривают. Как я понял. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 27, 2018 · Report post 2 часа назад, zhenya` сказал: дык он железный. откуда возьмется загрузка на RP.. Вообще странно, что max-entries all-host 3400 не сработало. сработало всё кошка честно резала квоту, при этом отмирало всё остальное(в том числе и трафик в бридждомене, который к нату не имеет никакого отношения) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ShyLion Posted September 27, 2018 · Report post Коллега, OIDами не поделитесь? :) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
simpl3x Posted September 27, 2018 · Report post 25 минут назад, ShyLion сказал: Коллега, OIDами не поделитесь? :) NAT - общее количество сессий - .1.3.6.1.2.1.123.1.7.0 NAT - Error - resource errors - .1.3.6.1.2.1.123.1.12.1.1.3.0 NAT - Error - quota drops - .1.3.6.1.2.1.123.1.12.1.1.4.0 NAT - Error - out of port error - .1.3.6.1.2.1.123.1.12.1.1.2.0 NAT - IP - освобождение в блоке - .1.3.6.1.2.1.123.1.14.2.1.6.0.{ID} NAT - IP - резервирование в блоке - .1.3.6.1.2.1.123.1.14.2.1.5.0.{ID} Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ShyLion Posted September 27, 2018 · Report post спасибо # snmpget 10.0.6.21 .1.3.6.1.2.1.123.1.7.0 SNMPv2-SMI::mib-2.123.1.7.0 = No Such Object available on this agent at this OID Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...