x-ocsic Posted January 21, 2022 Добрый день. Прошу помощи разобраться в ситуации. Проблема заключается в том что в чнн у юзеров жалобы на сервис в основном на скорость. Отчистка трансляций помогает, но не на долго. На коробке сидит ~ 10к юзеров, трансляций в чнн около 950к. Настройки такие ip nat settings mode cgn no ip nat settings support mapping outside ip nat settings pap ip nat translation timeout 600 ip nat translation tcp-timeout 900 ip nat translation pptp-timeout 600 ip nat translation udp-timeout 60 ip nat translation finrst-timeout 120 ip nat translation syn-timeout 20 ip nat translation dns-timeout 10 ip nat translation icmp-timeout 10 ip nat translation port-timeout tcp 8080 180 ip nat translation port-timeout tcp 1600 180 ip nat translation port-timeout tcp 110 180 ip nat translation port-timeout tcp 25 180 ip nat translation port-timeout tcp 80 180 ip nat translation port-timeout tcp 443 180 no ip nat service all-algs ip nat service pptp ip nat pool 120 адресов ip nat inside source list nat pool www overload Статистика type generic, total addresses 120, allocated 83 (72%), misses 97730 Если потребуется доп. информация готов предоставить. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Andrei Posted January 21, 2022 Может пригодится: Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted January 21, 2022 На интерфейсах оверраны есть? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 21, 2022 присоединюсь к вопрошавшему. только у меня другой нюанс - четко в ЧНН у некоторых абонентов входящий трафик 0 байт (под данным радиуса с ASR и по жалобам самих абонентов). исходящий у них разный, от десятков байт до сотен кб. ну то есть абонент ломится внаружу через нат, а ему ничего. проблемы появились буквально неделю назад в процессе перетаскивания на ASR абонентов (т.е. шло активное увеличение нагрузки каждый день). оверранов почти нет (было три единичных всплеска на внешнем интерфейсе, тоже в чнн, но не вчера-позавчера, когда пошла основная масса жалоб). утилизация qfp выше 16 процентов не поднимается. трансляций в чнн 350к. и вообще по всей стате, которую можно снять по show platform hardware... - всё прекрасно. сейчас планирую добавить в конфиг no ip nat service all-algs, больше идей нет. ну и сбрасывать трансляции ежесуточно попробую. разве что есть подозрение, что моя идея прибивания айпишников ната к конкретным подсетям имеет какие-то непонятные мне изъяны. ну то есть одна абонентская подсеть натится в один айпишник, другая - в другой, и т.д., пулов, как таковых, нет - каждый пул имеет в себе только один адрес. это самый "загруженный" трансляциями адрес: #show ip nat statistics [Id: 11] access-list NAT-USERS09 pool IPPOOL09 refcount 26605 pool IPPOOL09: id 9, netmask 255.255.255.224 start xx.xx.xx.9 end xx.xx.xx.9 type generic, total addresses 1, allocated 1 (100%), misses 0 #show ip nat pool name IPPOOL09 NAT Pool Statistics Pool name IPPOOL09, id 9 Assigned Available Addresses 1 0 UDP Low Ports 11 501 TCP Low Ports 0 512 UDP High Ports 1426 63086 TCP High Ports 21376 43136 то есть вроде как запас по портам прекрасный. если всё же идеологически что-то не так - подскажите. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted January 22, 2022 show platform software infrastructure lsmpi driver P.S. сраный Гугель стал везде пихать QUIC, который на UDP, под это дело и keepalive поставил на секунды, и теперь расходы памяти на трансляции на клиента резко возрасли Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 22, 2022 Дико извинячюсь, вы трафик до прихода на рррoe очистили от мусора? А то говнокиенты способны уделать любой проц в софтроутере на входе... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 (edited) В 22.01.2022 в 12:17, jffulcrum сказал: show platform software infrastructure lsmpi driver P.S. сраный Гугель стал везде пихать QUIC, который на UDP, под это дело и keepalive поставил на секунды, и теперь расходы памяти на трансляции на клиента резко возрасли Скрытый текст #show platform software infrastructure lsmpi driver LSMPI Driver stat ver: 3 Packets: In: 195277567 Out: 183368801 Rings: RX: 4095 free 0 in-use 4096 total TX: 2047 free 0 in-use 2048 total RXDONE: 4094 free 1 in-use 4096 total TXDONE: 2046 free 1 in-use 2048 total Buffers: RX: 6145 free 2049 in-use 8194 total Transmit fail retry: Disabled Reason for RX drops (sticky): Ring full : 0 Ring put failed : 0 No free buffer : 0 Receive failed : 0 Packet too large : 0 Other inst buf : 0 Consecutive SOPs : 0 No SOP or EOP : 0 EOP but no SOP : 0 Particle overrun : 0 Bad particle ins : 0 Bad buf cond : 0 DS rd req failed : 0 HT rd req failed : 0 Reason for TX drops (sticky): Bad packet len : 0 Bad buf len : 0 Bad ifindex : 0 No device : 0 No skbuff : 0 Device xmit fail : 0 Device xmit rtry : 0 Tx Done ringfull : 0 Bad u->k xlation : 0 No extra skbuff : 0 Consecutive SOPs : 0 No SOP or EOP : 0 EOP but no SOP : 0 Particle overrun : 0 Other inst buf : 0 Dual stack: Registration : 1 De-registration : 0 Rx packets : 195277567 Rx packets err : 0 L2 Rx packets : 297421 L3 Rx packets : 3230452 Looped packets : 0 skb nonlinear : 3 Rx IP frag : 0 Rx IP frag err : 0 Drv stat: Rx particles : 0 Tx particles : 0 Rx err : 0 Tx err : 0 Total Err : 0 Transport stat: Registration : 1 De-registration : 0 Tx packets : 0 Rx packets : 19 вроде все нормально. или чего-то не вижу? вот только что посреди субботнего дня десяток тыщ оверранов выскочил на внешнем интерфейсе в несколько секунд. выскочил, и замолкло всё... и абоненты опять ругаются в колл-центр. по поводу QUIC - стоит, как и у ТС, в конфиге ip nat translation udp-timeout 60 Edited January 22, 2022 by nixx Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
x-ocsic Posted January 22, 2022 В 21.01.2022 в 14:13, zhenya` сказал: На интерфейсах оверраны есть? Можно об этом по подробнее? А то я только постигаю циску с натом. Плюс добавил графики в заббикс и показывает он мне ошибки, о них бы тоже хотелось по подробнее, такие ошибки как: Error quote drops их 17kk Resourse errors тоже куча и Out of port error Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 22, 2022 Просто уберите нат с киски, вам многое будет лучше, флоу например. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
x-ocsic Posted January 22, 2022 2 минуты назад, YuryD сказал: Просто уберите нат с киски, вам многое будет лучше, флоу например. Было бы все так просто, давно бы убрали. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 22, 2022 В 22.01.2022 в 15:59, x-ocsic сказал: Было бы все так просто, давно бы убрали. Понимание прийдет со временем. Поставить тазик с натом - и многие траблемы уйдут сами. Оставьте нарезку скорости киске, а остальное - тазику, который и белые и черные листы пережует лучше, и иные хотелки. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 В 22.01.2022 в 13:39, x-ocsic сказал: Можно об этом по подробнее? А то я только постигаю циску с натом. Скрытый текст #show inter ten 0/1/0 TenGigabitEthernet0/1/0 is up, line protocol is up Hardware is SPA-1X10GE-L-V2, address is e865.492b.c810 (bia e865.492b.c810) Description: --= Internet side =-- MTU 1500 bytes, BW 10000000 Kbit/sec, DLY 10 usec, reliability 255/255, txload 17/255, rxload 122/255 Encapsulation 802.1Q Virtual LAN, Vlan ID 1., loopback not set Keepalive not supported Full Duplex, 10000Mbps, link type is force-up, media type is 10GBase-SR/SW output flow-control is on, input flow-control is on ARP type: ARPA, ARP Timeout 04:00:00 Last input 00:00:00, output 00:00:00, output hang never Last clearing of "show interface" counters never Input queue: 0/375/0/0 (size/max/drops/flushes); Total output drops: 0 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 4817945000 bits/sec, 472747 packets/sec 5 minute output rate 679801000 bits/sec, 239061 packets/sec 1530409338277 packets input, 1991003630109842 bytes, 0 no buffer Received 365243 broadcasts (0 IP multicasts) 0 runts, 0 giants, 0 throttles 54142 input errors, 0 CRC, 0 frame, 54142 overrun, 0 ignored 0 watchdog, 558405 multicast, 0 pause input 752440825955 packets output, 239217023071012 bytes, 0 underruns 0 output errors, 0 collisions, 2 interface resets 558033 unknown protocol drops 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 pause output 0 output buffer failures, 0 output buffers swapped out 1 carrier transitions вот сюда Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 22, 2022 Чего необычного - 54142 input errors, 0 CRC, 0 frame, 54142 overrun, 0 ignored. кто-то гадит, далее найти и отсечь голову... Ну предварительно счетчики обнулить :) За какой период этот счетчик накопился - непонятно.... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted January 22, 2022 В 22.01.2022 в 13:01, nixx сказал: вроде все нормально. или чего-то не вижу? С памятью норм, переполнений нет. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted January 22, 2022 22 часа назад, nixx сказал: присоединюсь к вопрошавшему. только у меня другой нюанс - четко в ЧНН у некоторых абонентов входящий трафик 0 байт (под данным радиуса с ASR и по жалобам самих абонентов). исходящий у них разный, от десятков байт до сотен кб. ну то есть абонент ломится внаружу через нат, а ему ничего. проблемы появились буквально неделю назад в процессе перетаскивания на ASR абонентов (т.е. шло активное увеличение нагрузки каждый день). оверранов почти нет (было три единичных всплеска на внешнем интерфейсе, тоже в чнн, но не вчера-позавчера, когда пошла основная масса жалоб). утилизация qfp выше 16 процентов не поднимается. трансляций в чнн 350к. и вообще по всей стате, которую можно снять по show platform hardware... - всё прекрасно. сейчас планирую добавить в конфиг no ip nat service all-algs, больше идей нет. ну и сбрасывать трансляции ежесуточно попробую. разве что есть подозрение, что моя идея прибивания айпишников ната к конкретным подсетям имеет какие-то непонятные мне изъяны. ну то есть одна абонентская подсеть натится в один айпишник, другая - в другой, и т.д., пулов, как таковых, нет - каждый пул имеет в себе только один адрес. это самый "загруженный" трансляциями адрес: #show ip nat statistics [Id: 11] access-list NAT-USERS09 pool IPPOOL09 refcount 26605 pool IPPOOL09: id 9, netmask 255.255.255.224 start xx.xx.xx.9 end xx.xx.xx.9 type generic, total addresses 1, allocated 1 (100%), misses 0 #show ip nat pool name IPPOOL09 NAT Pool Statistics Pool name IPPOOL09, id 9 Assigned Available Addresses 1 0 UDP Low Ports 11 501 TCP Low Ports 0 512 UDP High Ports 1426 63086 TCP High Ports 21376 43136 то есть вроде как запас по портам прекрасный. если всё же идеологически что-то не так - подскажите. А зачем пулы по одному адресу? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 В 22.01.2022 в 20:18, zhenya` сказал: А зачем пулы по одному адресу? чтобы абоненты не скакали рандомно по внешним адресам. давняя привычка с софтовых натов ) да и с таких же давних жалоб абонентов. с ASR не стоит так делать? щас вот, думаю, выполнить ваш совет в другой теме - убрать не-натящихся белых абонентов с интерфейса, на котором nat outside. их не так уж и много, но мало ли... у меня общая схема работы asr такая (это если вдруг поможет для прихода какого-нибудь совета в голову) - два влана в LAN к абонентам, по одному влану приходят серые, по одному белые. все это в отдельном vrf, nat inside на "серых". дальше vasileft в том же vrf, на котором nat outside (через него как раз все ходят - и белые, и серые), и vasiright для стыка с ним. ну а в основной таблице маршрутизации уже bgp и три фулл-вью болтается. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted January 22, 2022 В один пул соберите. график утилизации qfp есть? Покажите вывод datapath util. а в чем смысл vasi?) мб клиентов по vrf разделить? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 (edited) В 22.01.2022 в 21:09, zhenya` сказал: В один пул соберите. график утилизации qfp есть? Покажите вывод datapath util. а в чем смысл vasi?) мб клиентов по vrf разделить? в один пул - на это есть причина, или примерно как я сейчас действую - ищу подземные стуки? ) хочется понимания, что это даст. смысл vasi - тот самый нат. убирание абонентов из глобального vrf. сделан по мануалу по vrf разделить клиентов - имеете в виду белых и серых? а что это даст? график только вчера рисовать начал, там все гладко вроде как. снимается ежеминутный показатель. Скрытый текст #show platform hardware qfp active datapath utilization CPP 0: Subdev 0 5 secs 1 min 5 min 60 min Input: Priority (pps) 0 0 0 0 (bps) 0 0 0 0 Non-Priority (pps) 1054234 1036547 1033161 1003757 (bps) 8219074360 8090695440 8032205896 7814476696 Total (pps) 1054234 1036547 1033161 1003757 (bps) 8219074360 8090695440 8032205896 7814476696 Output: Priority (pps) 1 1 1 1 (bps) 1416 1792 1552 1536 Non-Priority (pps) 1051058 1033388 1029507 998854 (bps) 8305118608 8174903728 8110285920 7876239880 Total (pps) 1051059 1033389 1029508 998855 (bps) 8305120024 8174905520 8110287472 7876241416 Processing: Load (pct) 16 15 15 15 upd: вообще давно руки чешутся, ну а щас реальная причина появилась - вынести bgp на отдельный тазик (ступор asr на пару минут от вливания фулл-вью - это незабываемое ощущение в первый раз, а что будет, если аплинк флапать начнет?), а asr без всяких vasi и vrf использовать как чистый nat/съемник нетфлоу/авторизатор. вот только сервера пока нет под рукой, надо покупать, а с текущими глюками что-то надо делать. upd2: планы на ближайшую ночь - таки слить пулы в один по принципу "хуже уже не будет" и убрать трафик белых адресов с интерфейса с nat'ом (сделаю второй экземпляр vasi). и ребут до кучи в последнюю прошивку (стоит 16.09.07, будет 16.09.08). сегодня колл-центр одолели. завтра колл-центр придет за моей шкурой, наверное. Edited January 22, 2022 by nixx Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted January 23, 2022 Добавьте на графики с цифрами трафика (bps), причём раздельные по input non priority и priority. да, я именно про это разделение. Вы все правильно поняли. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 23, 2022 ну по priority вообще нули, вы ж видите. по кэшам портов тоже нули в "Fill Status Max". после ребута внешне все прекрасно. однако люди жалуются. но меньше. то ли это остаточное по следам предыдущих дней, то ли вообще дело не в циске... Скрытый текст #show platform hardware port 0/1/0 plim buffer settings Interface 0/1/0 RX Low Buffer Size 28901376 Bytes Drop Threshold Low 28891200 Bytes Hi 28891200 Bytes Fill Status Curr/Max 7573504 Bytes / 7573504 Bytes TX Low Fill Status Curr/Max 0 Bytes / 2048 Bytes RX High Buffer Size 4128768 Bytes Drop Threshold Low 4118592 Bytes Hi 4118592 Bytes Fill Status Curr/Max 0 Bytes / 0 Bytes TX High Fill Status Curr/Max 0 Bytes / 0 Bytes #show platform hardware port 0/2/0 plim buffer settings Interface 0/2/0 RX Low Buffer Size 28901376 Bytes Drop Threshold Low 28891200 Bytes Hi 28891200 Bytes Fill Status Curr/Max 45056 Bytes / 45056 Bytes TX Low Fill Status Curr/Max 256 Bytes / 4288 Bytes RX High Buffer Size 4128768 Bytes Drop Threshold Low 4118592 Bytes Hi 4118592 Bytes Fill Status Curr/Max 0 Bytes / 0 Bytes TX High Fill Status Curr/Max 0 Bytes / 0 Bytes свежий ios начал писать в логи вот такое: %IOSXE-4-PLATFORM: R0/0: cpp_cp: QFP:0.0 Thread:119 TS:00000051456541238108 %NAT-4-ALL_HOST_MAX_ENTRIES: all-host maximum limit of 3000 reached for 10.15.12.10. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted January 23, 2022 В 23.01.2022 в 18:36, nixx сказал: NAT-4-ALL_HOST_MAX_ENTRIES: all-host maximum limit of 3000 reached for 10.15.12.10. Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 23, 2022 В 23.01.2022 в 19:43, jffulcrum сказал: Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу. необязательно. такое и торрентами нагенерить можно, если чел раздает активно. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 24, 2022 В 23.01.2022 в 21:43, jffulcrum сказал: Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу. Скриптом парсить что ? flow ? ацлем проц наргружать ? Это же все внутри асрки... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pppoetest Posted January 24, 2022 В 24.01.2022 в 09:10, YuryD сказал: Скриптом парсить что ? flow ? remote syslog Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted January 24, 2022 В 24.01.2022 в 06:10, YuryD сказал: ацлем проц наргружать ? Ну если всё в одной коробке, то да. Обычно есть еще коммутатор, на котором можно все это делать до попадания в ASR Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...