simpl3x Опубликовано 16 сентября, 2018 (изменено) · Жалоба на борту 8 Гб RAM и: Cisco IOS XE Software, Version 03.17.03.S - Standard Support Release Cisco IOS Software, ASR1000 Software (X86_64_LINUX_IOSD-UNIVERSALK9-M), Version 15.6(1)S3, RELEASE SOFTWARE (fc2) на нем терминируются IPoE QINQ клиенты (>5200 душ, >6 Гбит/с, CG-NAT ~700k сессий), и проброшен 1 bridge-domain (>500 Мбит/с). периодически, не зависимо от нагрузки и времени (разве что ночью не падает) падает forward трафика. вплоть до того, что он перестает видеть следующий по цепочке ASBR, в который непосредственно воткнут. при этом сам роутер доступен, поддается управлению. в логах стерильно чисто (за исключением того что отваливается OSPF на уплинк порту по таймауту, как следствие). никаких всплесков по CPU в этот момент нет #show platform resources **State Acronym: H - Healthy, W - Warning, C - Critical Resource Usage Max Warning Critical State ---------------------------------------------------------------------------------------------------- RP0 (ok, active) H Control Processor 3.00% 100% 90% 95% H DRAM 2379MB(30%) 7903MB 90% 95% H ESP0(ok, active) H QFP H TCAM 116cells(0%) 131072cells 45% 55% H DRAM 388252KB(10%) 3670016KB 80% 90% H IRAM 8618KB(6%) 131072KB 80% 90% H при этом, т.к. роутер в этот момент управляем, пытались сбрасывать NAT (clear ip nat translation *), помогает секунд на 5, а потом заново. такое ощущение что где то забивается какой то буфер. так продолжается минут 5-10, и отвисает само. периодичность и зависимость отсутствует. может например помереть сразу после рестарта роутера. что ещё посмотреть, чтобы понять что это? Изменено 16 сентября, 2018 пользователем simpl3x Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 16 сентября, 2018 · Жалоба очень похоже на ASR-ISG-ZARYA-1#sh processes history PID Exectime(ms) Caller PC Process Name 451 1 0x0 Virtual Exec 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 76 1105 0x7FD22CA285AF IOSD chasfs task 15 600997 0x7FD22787F3BD ARP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 15 1201994 0x7FD22787F3BD ARP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 15 600997 0x7FD22787F3BD ARP Input 246 21051 0x7FD230EF4F79 IPAM Manager 185 19946 0x7FD2298519C7 IP ARP Retry Ager 150 5227 0x7FD23029886C MCP RP autovc process 391 18666 0x7FD230E64FB9 IP Inband Session Initiator 391 18666 0x7FD230E64FE4 IP Inband Session Initiator 186 24074 0x7FD22980AE15 IP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 15 1201992 0x7FD22787F3BD ARP Input 76 2210 0x7FD22CA285AF IOSD chasfs task 15 600996 0x7FD22787F3BD ARP Input 186 24074 0x7FD22980AE15 IP Input 120 312896 0x7FD2300BF785 IOSXE-RP Punt Service Process 391 18666 0x7FD230E64FB9 IP Inband Session Initiator 391 18666 0x7FD230E64FE4 IP Inband Session Initiator 500 1815 0x7FD229EFDD4F IP NAT Ager 427 1361 0x7FD2318A4BFC Timer Library 368 1352 0x7FD22DB1A3B8 Inspect process 76 1105 0x7FD22CA285AF IOSD chasfs task 15 600996 0x7FD22787F3BD ARP Input 96 7157 0x7FD22D68940E 100ms check 120 312896 0x7FD2300BF785 IOSXE-RP Punt Service Process 76 1105 0x7FD22CA285AF IOSD chasfs task 15 600996 0x7FD22787F3BD ARP Input 180 17411 0x7FD22C32784D VRRS Main thread 186 24074 0x7FD22980AE15 IP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 52 440 0x7FD22FC9AECC Net Input 246 21051 0x7FD230EF4F79 IPAM Manager 304 107937 0x7FD22B651DEF RADIUS 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 185 19946 0x7FD2298519C7 IP ARP Retry Ager 15 600996 0x7FD22787F3BD ARP Input 76 1105 0x7FD22CA285AF IOSD chasfs task 15 1201992 0x7FD22787F3BD ARP Input 304 107937 0x7FD22B651DEF RADIUS 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 304 107937 0x7FD22B651DEF RADIUS 169 49142 0x7FD2277BAB21 AAA ACCT Proc 170 136802 0x7FD2277BADC8 ACCT Periodic Proc 15 600996 0x7FD22787F3BD ARP Input 419 17143 0x7FD22C32784D MMA DB TIMER 15 1802988 0x7FD22787F3BD ARP Input 316 100548 0x7FD228CACCE4 DHCPD Receive 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 316 100548 0x7FD228CACCE4 DHCPD Receive 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 15 600996 0x7FD22787F3BD ARP Input 120 156448 0x7FD2300BF785 IOSXE-RP Punt Service Process 197 23167 0x7FD22B9D83CA SSM connection manager 198 60249 0x7FD22BBA537D SSS Manager 197 23167 0x7FD22B9D84A8 SSM connection manager 75 79128 0x7FD22CA27FB8 IOSD ipc task но клиентам выдаётся /20 маска. #sh ip arp summary 5574 IP ARP entries, with 146 of them incomplete Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 16 сентября, 2018 · Жалоба Трафик в бридждомене тоже роняется? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 16 сентября, 2018 · Жалоба 4 часа назад, zhenya` сказал: Трафик в бридждомене тоже роняется? да, в том числе. железяка перестает видеть даже next-hop, который находится на расстоянии 1.5 метров оптического кабеля! когда наткнулся на историю с ARP input - убрал с интерфейсов ip local-proxy-arp не могу сказать, что изменилось что то в нагрузке. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
jffulcrum Опубликовано 16 сентября, 2018 · Жалоба 9 часов назад, simpl3x сказал: Version 15.6(1)S3, Древненькая... В ту пору были большие проблемы с NAT gatekeeper, попробуйте no ip nat service gatekeeper Ежели вдруг помогло, значит пора апгрейдить IOS Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 16 сентября, 2018 · Жалоба 1 минуту назад, jffulcrum сказал: no ip nat service gatekeeper no ip nat service all-algs либо так? оно сейчас так настроено. ip nat settings mode cgn no ip nat settings support mapping outside ip nat settings pap limit 30 ip nat log translations flow-export v9 udp destination Q.W.E.R 2115 source GigabitEthernet0 ip nat translation timeout 3600 ip nat translation tcp-timeout 12000 ip nat translation pptp-timeout 12000 ip nat translation udp-timeout 60 ip nat translation finrst-timeout 120 ip nat translation syn-timeout 20 ip nat translation dns-timeout 10 ip nat translation routemap-entry-timeout 12000 ip nat translation icmp-timeout 10 ip nat translation port-timeout tcp 80 180 ip nat translation port-timeout tcp 8080 180 ip nat translation port-timeout tcp 1600 180 ip nat translation port-timeout tcp 110 180 ip nat translation port-timeout tcp 25 180 ip nat translation port-timeout tcp 6666 3600 ip nat translation max-entries 1024000 ip nat translation max-entries all-host 3400 no ip nat service all-algs ip nat pool CGNAT-POOL-1 Q.W.E.R Q.W.E.R prefix-length 24 ip nat pool CGNAT-POOL-2 Q.W.E.R Q.W.E.R prefix-length 26 ip nat inside source list 1 pool CGNAT-POOL-1 overload ip nat inside source list 2 pool CGNAT-POOL-2 overload Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 17 сентября, 2018 · Жалоба @jffulcrum а какая нынче актуально-стабильная версия, в которой адекватно работает CGNAT в IPoE? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ShyLion Опубликовано 17 сентября, 2018 · Жалоба А CGNAT нужен вообще? По опыту использования - один гемор от него. Чего только стоит разбор логов для отдела "К". Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 17 сентября, 2018 · Жалоба нужно читать логи. интерфейс ги0 (мнг) раз доступен. заходите и читайте. поставьте только logging buffered 512000 logging buffered informa Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 17 сентября, 2018 · Жалоба 10 минут назад, zhenya` сказал: нужно читать логи. интерфейс ги0 (мнг) раз доступен. заходите и читайте. поставьте только logging buffered 512000 logging buffered informa да в том то и дело, что это сделали в первую очередь и на момент падения логи остаются чистыми. там ничего нет, от чего можно оттолкнуться. в любом случае, пока железяка не падает, после отключения ip local-proxy-arp на интерфейсах. ищем актуальную версию ios (16.3.7 или 16.6.3). 1 час назад, ShyLion сказал: А CGNAT нужен вообще? По опыту использования - один гемор от него. Чего только стоит разбор логов для отдела "К". в ситуации, когда надо максимально утилизировать доступные ipv4, он нужен. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 17 сентября, 2018 · Жалоба не нужно переходить на 16.xx Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 17 сентября, 2018 · Жалоба Только что, zhenya` сказал: не нужно переходить на 16.xx почему? что посоветуете? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 17 сентября, 2018 · Жалоба потому, что это больше для ent. последний 3.16 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ShyLion Опубликовано 18 сентября, 2018 · Жалоба 14 hours ago, simpl3x said: в ситуации, когда надо максимально утилизировать доступные ipv4, он нужен. Просветите, плиз. По моему опыту _наоборот_, требуется больше реальников, потому что количестов доступных сочетаний адресов:портов сокращается просто монументально. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 26 сентября, 2018 · Жалоба в общем, суть оказалась проще. один из клиентов генерировал ~1 млн. соединений в минуту(видимо какой то ботнет) и укладывал asr. вопрос, есть ли какой то механизм, который позволит не падать кошке в такой ситуации? (ответ: "резать это на доступе" - реализован) В 18.09.2018 в 07:40, ShyLion сказал: Просветите, плиз. По моему опыту _наоборот_, требуется больше реальников, потому что количестов доступных сочетаний адресов:портов сокращается просто монументально. в этом отношении заблуждался. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ShyLion Опубликовано 26 сентября, 2018 · Жалоба Обычно ограничивают количество трансляций на один приватник. у меня: ip nat translation max-entries all-host 2000 2000 пользователей, жалоб нет. asr-1002x-621#show ip nat limits all-host number-of-sessions greater-than 50 Host Max Entries Use Count Miss Count ------------------------------------------------- 100.64.21.161 2000 53 0 Total number of limit entries: 1 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 26 сентября, 2018 · Жалоба @ShyLion Ну вот проблема в том, что у клиента на доступе не было юникаст рейтлимита, у кошки естественно настройки: Цитата ip nat translation max-entries 1024000 ip nat translation max-entries all-host 3400 В итоге все как описано выше. Да - кошка не даёт клиенту больше выделенного, но при этом дохнет сама. При этом, я не нашел как это ещё проявляется, кроме как на ошибоках nat quota drops резкий скачек до 1.5 млн. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 26 сентября, 2018 · Жалоба он может спуфит? урпф ? ipmb на аксесе? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 26 сентября, 2018 · Жалоба 1 час назад, zhenya` сказал: он может спуфит? урпф ? ipmb на аксесе? Не, посмотрели netflow по потокам и по нат трансляциям, явно видно что он лупит какие то китайские адреса по 80 порту или по порту на котором крутятся какие то фронтенды вебсервисов, в пиках выдавая 75k pps. И при этом процессорная загрузка RP никаким образом не показывает что ему как то не по себе. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 27 сентября, 2018 · Жалоба дык он железный. откуда возьмется загрузка на RP.. Вообще странно, что max-entries all-host 3400 не сработало. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ShyLion Опубликовано 27 сентября, 2018 · Жалоба 1 hour ago, zhenya` said: Вообще странно, что max-entries all-host 3400 не сработало. Там рейт TCP/SYN большой тупо. Трансляции не создаются, но мозги поджаривают. Как я понял. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 27 сентября, 2018 · Жалоба 2 часа назад, zhenya` сказал: дык он железный. откуда возьмется загрузка на RP.. Вообще странно, что max-entries all-host 3400 не сработало. сработало всё кошка честно резала квоту, при этом отмирало всё остальное(в том числе и трафик в бридждомене, который к нату не имеет никакого отношения) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ShyLion Опубликовано 27 сентября, 2018 · Жалоба Коллега, OIDами не поделитесь? :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
simpl3x Опубликовано 27 сентября, 2018 · Жалоба 25 минут назад, ShyLion сказал: Коллега, OIDами не поделитесь? :) NAT - общее количество сессий - .1.3.6.1.2.1.123.1.7.0 NAT - Error - resource errors - .1.3.6.1.2.1.123.1.12.1.1.3.0 NAT - Error - quota drops - .1.3.6.1.2.1.123.1.12.1.1.4.0 NAT - Error - out of port error - .1.3.6.1.2.1.123.1.12.1.1.2.0 NAT - IP - освобождение в блоке - .1.3.6.1.2.1.123.1.14.2.1.6.0.{ID} NAT - IP - резервирование в блоке - .1.3.6.1.2.1.123.1.14.2.1.5.0.{ID} Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ShyLion Опубликовано 27 сентября, 2018 · Жалоба спасибо # snmpget 10.0.6.21 .1.3.6.1.2.1.123.1.7.0 SNMPv2-SMI::mib-2.123.1.7.0 = No Such Object available on this agent at this OID Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...