x-ocsic Posted January 21, 2022 · Report post Добрый день. Прошу помощи разобраться в ситуации. Проблема заключается в том что в чнн у юзеров жалобы на сервис в основном на скорость. Отчистка трансляций помогает, но не на долго. На коробке сидит ~ 10к юзеров, трансляций в чнн около 950к. Настройки такие ip nat settings mode cgn no ip nat settings support mapping outside ip nat settings pap ip nat translation timeout 600 ip nat translation tcp-timeout 900 ip nat translation pptp-timeout 600 ip nat translation udp-timeout 60 ip nat translation finrst-timeout 120 ip nat translation syn-timeout 20 ip nat translation dns-timeout 10 ip nat translation icmp-timeout 10 ip nat translation port-timeout tcp 8080 180 ip nat translation port-timeout tcp 1600 180 ip nat translation port-timeout tcp 110 180 ip nat translation port-timeout tcp 25 180 ip nat translation port-timeout tcp 80 180 ip nat translation port-timeout tcp 443 180 no ip nat service all-algs ip nat service pptp ip nat pool 120 адресов ip nat inside source list nat pool www overload Статистика type generic, total addresses 120, allocated 83 (72%), misses 97730 Если потребуется доп. информация готов предоставить. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Andrei Posted January 21, 2022 · Report post Может пригодится: Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted January 21, 2022 · Report post На интерфейсах оверраны есть? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 21, 2022 · Report post присоединюсь к вопрошавшему. только у меня другой нюанс - четко в ЧНН у некоторых абонентов входящий трафик 0 байт (под данным радиуса с ASR и по жалобам самих абонентов). исходящий у них разный, от десятков байт до сотен кб. ну то есть абонент ломится внаружу через нат, а ему ничего. проблемы появились буквально неделю назад в процессе перетаскивания на ASR абонентов (т.е. шло активное увеличение нагрузки каждый день). оверранов почти нет (было три единичных всплеска на внешнем интерфейсе, тоже в чнн, но не вчера-позавчера, когда пошла основная масса жалоб). утилизация qfp выше 16 процентов не поднимается. трансляций в чнн 350к. и вообще по всей стате, которую можно снять по show platform hardware... - всё прекрасно. сейчас планирую добавить в конфиг no ip nat service all-algs, больше идей нет. ну и сбрасывать трансляции ежесуточно попробую. разве что есть подозрение, что моя идея прибивания айпишников ната к конкретным подсетям имеет какие-то непонятные мне изъяны. ну то есть одна абонентская подсеть натится в один айпишник, другая - в другой, и т.д., пулов, как таковых, нет - каждый пул имеет в себе только один адрес. это самый "загруженный" трансляциями адрес: #show ip nat statistics [Id: 11] access-list NAT-USERS09 pool IPPOOL09 refcount 26605 pool IPPOOL09: id 9, netmask 255.255.255.224 start xx.xx.xx.9 end xx.xx.xx.9 type generic, total addresses 1, allocated 1 (100%), misses 0 #show ip nat pool name IPPOOL09 NAT Pool Statistics Pool name IPPOOL09, id 9 Assigned Available Addresses 1 0 UDP Low Ports 11 501 TCP Low Ports 0 512 UDP High Ports 1426 63086 TCP High Ports 21376 43136 то есть вроде как запас по портам прекрасный. если всё же идеологически что-то не так - подскажите. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted January 22, 2022 · Report post show platform software infrastructure lsmpi driver P.S. сраный Гугель стал везде пихать QUIC, который на UDP, под это дело и keepalive поставил на секунды, и теперь расходы памяти на трансляции на клиента резко возрасли Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 22, 2022 · Report post Дико извинячюсь, вы трафик до прихода на рррoe очистили от мусора? А то говнокиенты способны уделать любой проц в софтроутере на входе... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 (edited) · Report post В 22.01.2022 в 12:17, jffulcrum сказал: show platform software infrastructure lsmpi driver P.S. сраный Гугель стал везде пихать QUIC, который на UDP, под это дело и keepalive поставил на секунды, и теперь расходы памяти на трансляции на клиента резко возрасли Скрытый текст #show platform software infrastructure lsmpi driver LSMPI Driver stat ver: 3 Packets: In: 195277567 Out: 183368801 Rings: RX: 4095 free 0 in-use 4096 total TX: 2047 free 0 in-use 2048 total RXDONE: 4094 free 1 in-use 4096 total TXDONE: 2046 free 1 in-use 2048 total Buffers: RX: 6145 free 2049 in-use 8194 total Transmit fail retry: Disabled Reason for RX drops (sticky): Ring full : 0 Ring put failed : 0 No free buffer : 0 Receive failed : 0 Packet too large : 0 Other inst buf : 0 Consecutive SOPs : 0 No SOP or EOP : 0 EOP but no SOP : 0 Particle overrun : 0 Bad particle ins : 0 Bad buf cond : 0 DS rd req failed : 0 HT rd req failed : 0 Reason for TX drops (sticky): Bad packet len : 0 Bad buf len : 0 Bad ifindex : 0 No device : 0 No skbuff : 0 Device xmit fail : 0 Device xmit rtry : 0 Tx Done ringfull : 0 Bad u->k xlation : 0 No extra skbuff : 0 Consecutive SOPs : 0 No SOP or EOP : 0 EOP but no SOP : 0 Particle overrun : 0 Other inst buf : 0 Dual stack: Registration : 1 De-registration : 0 Rx packets : 195277567 Rx packets err : 0 L2 Rx packets : 297421 L3 Rx packets : 3230452 Looped packets : 0 skb nonlinear : 3 Rx IP frag : 0 Rx IP frag err : 0 Drv stat: Rx particles : 0 Tx particles : 0 Rx err : 0 Tx err : 0 Total Err : 0 Transport stat: Registration : 1 De-registration : 0 Tx packets : 0 Rx packets : 19 вроде все нормально. или чего-то не вижу? вот только что посреди субботнего дня десяток тыщ оверранов выскочил на внешнем интерфейсе в несколько секунд. выскочил, и замолкло всё... и абоненты опять ругаются в колл-центр. по поводу QUIC - стоит, как и у ТС, в конфиге ip nat translation udp-timeout 60 Edited January 22, 2022 by nixx Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
x-ocsic Posted January 22, 2022 · Report post В 21.01.2022 в 14:13, zhenya` сказал: На интерфейсах оверраны есть? Можно об этом по подробнее? А то я только постигаю циску с натом. Плюс добавил графики в заббикс и показывает он мне ошибки, о них бы тоже хотелось по подробнее, такие ошибки как: Error quote drops их 17kk Resourse errors тоже куча и Out of port error Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 22, 2022 · Report post Просто уберите нат с киски, вам многое будет лучше, флоу например. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
x-ocsic Posted January 22, 2022 · Report post 2 минуты назад, YuryD сказал: Просто уберите нат с киски, вам многое будет лучше, флоу например. Было бы все так просто, давно бы убрали. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 22, 2022 · Report post В 22.01.2022 в 15:59, x-ocsic сказал: Было бы все так просто, давно бы убрали. Понимание прийдет со временем. Поставить тазик с натом - и многие траблемы уйдут сами. Оставьте нарезку скорости киске, а остальное - тазику, который и белые и черные листы пережует лучше, и иные хотелки. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 · Report post В 22.01.2022 в 13:39, x-ocsic сказал: Можно об этом по подробнее? А то я только постигаю циску с натом. Скрытый текст #show inter ten 0/1/0 TenGigabitEthernet0/1/0 is up, line protocol is up Hardware is SPA-1X10GE-L-V2, address is e865.492b.c810 (bia e865.492b.c810) Description: --= Internet side =-- MTU 1500 bytes, BW 10000000 Kbit/sec, DLY 10 usec, reliability 255/255, txload 17/255, rxload 122/255 Encapsulation 802.1Q Virtual LAN, Vlan ID 1., loopback not set Keepalive not supported Full Duplex, 10000Mbps, link type is force-up, media type is 10GBase-SR/SW output flow-control is on, input flow-control is on ARP type: ARPA, ARP Timeout 04:00:00 Last input 00:00:00, output 00:00:00, output hang never Last clearing of "show interface" counters never Input queue: 0/375/0/0 (size/max/drops/flushes); Total output drops: 0 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 4817945000 bits/sec, 472747 packets/sec 5 minute output rate 679801000 bits/sec, 239061 packets/sec 1530409338277 packets input, 1991003630109842 bytes, 0 no buffer Received 365243 broadcasts (0 IP multicasts) 0 runts, 0 giants, 0 throttles 54142 input errors, 0 CRC, 0 frame, 54142 overrun, 0 ignored 0 watchdog, 558405 multicast, 0 pause input 752440825955 packets output, 239217023071012 bytes, 0 underruns 0 output errors, 0 collisions, 2 interface resets 558033 unknown protocol drops 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 pause output 0 output buffer failures, 0 output buffers swapped out 1 carrier transitions вот сюда Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 22, 2022 · Report post Чего необычного - 54142 input errors, 0 CRC, 0 frame, 54142 overrun, 0 ignored. кто-то гадит, далее найти и отсечь голову... Ну предварительно счетчики обнулить :) За какой период этот счетчик накопился - непонятно.... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted January 22, 2022 · Report post В 22.01.2022 в 13:01, nixx сказал: вроде все нормально. или чего-то не вижу? С памятью норм, переполнений нет. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted January 22, 2022 · Report post 22 часа назад, nixx сказал: присоединюсь к вопрошавшему. только у меня другой нюанс - четко в ЧНН у некоторых абонентов входящий трафик 0 байт (под данным радиуса с ASR и по жалобам самих абонентов). исходящий у них разный, от десятков байт до сотен кб. ну то есть абонент ломится внаружу через нат, а ему ничего. проблемы появились буквально неделю назад в процессе перетаскивания на ASR абонентов (т.е. шло активное увеличение нагрузки каждый день). оверранов почти нет (было три единичных всплеска на внешнем интерфейсе, тоже в чнн, но не вчера-позавчера, когда пошла основная масса жалоб). утилизация qfp выше 16 процентов не поднимается. трансляций в чнн 350к. и вообще по всей стате, которую можно снять по show platform hardware... - всё прекрасно. сейчас планирую добавить в конфиг no ip nat service all-algs, больше идей нет. ну и сбрасывать трансляции ежесуточно попробую. разве что есть подозрение, что моя идея прибивания айпишников ната к конкретным подсетям имеет какие-то непонятные мне изъяны. ну то есть одна абонентская подсеть натится в один айпишник, другая - в другой, и т.д., пулов, как таковых, нет - каждый пул имеет в себе только один адрес. это самый "загруженный" трансляциями адрес: #show ip nat statistics [Id: 11] access-list NAT-USERS09 pool IPPOOL09 refcount 26605 pool IPPOOL09: id 9, netmask 255.255.255.224 start xx.xx.xx.9 end xx.xx.xx.9 type generic, total addresses 1, allocated 1 (100%), misses 0 #show ip nat pool name IPPOOL09 NAT Pool Statistics Pool name IPPOOL09, id 9 Assigned Available Addresses 1 0 UDP Low Ports 11 501 TCP Low Ports 0 512 UDP High Ports 1426 63086 TCP High Ports 21376 43136 то есть вроде как запас по портам прекрасный. если всё же идеологически что-то не так - подскажите. А зачем пулы по одному адресу? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 · Report post В 22.01.2022 в 20:18, zhenya` сказал: А зачем пулы по одному адресу? чтобы абоненты не скакали рандомно по внешним адресам. давняя привычка с софтовых натов ) да и с таких же давних жалоб абонентов. с ASR не стоит так делать? щас вот, думаю, выполнить ваш совет в другой теме - убрать не-натящихся белых абонентов с интерфейса, на котором nat outside. их не так уж и много, но мало ли... у меня общая схема работы asr такая (это если вдруг поможет для прихода какого-нибудь совета в голову) - два влана в LAN к абонентам, по одному влану приходят серые, по одному белые. все это в отдельном vrf, nat inside на "серых". дальше vasileft в том же vrf, на котором nat outside (через него как раз все ходят - и белые, и серые), и vasiright для стыка с ним. ну а в основной таблице маршрутизации уже bgp и три фулл-вью болтается. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted January 22, 2022 · Report post В один пул соберите. график утилизации qfp есть? Покажите вывод datapath util. а в чем смысл vasi?) мб клиентов по vrf разделить? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 22, 2022 (edited) · Report post В 22.01.2022 в 21:09, zhenya` сказал: В один пул соберите. график утилизации qfp есть? Покажите вывод datapath util. а в чем смысл vasi?) мб клиентов по vrf разделить? в один пул - на это есть причина, или примерно как я сейчас действую - ищу подземные стуки? ) хочется понимания, что это даст. смысл vasi - тот самый нат. убирание абонентов из глобального vrf. сделан по мануалу по vrf разделить клиентов - имеете в виду белых и серых? а что это даст? график только вчера рисовать начал, там все гладко вроде как. снимается ежеминутный показатель. Скрытый текст #show platform hardware qfp active datapath utilization CPP 0: Subdev 0 5 secs 1 min 5 min 60 min Input: Priority (pps) 0 0 0 0 (bps) 0 0 0 0 Non-Priority (pps) 1054234 1036547 1033161 1003757 (bps) 8219074360 8090695440 8032205896 7814476696 Total (pps) 1054234 1036547 1033161 1003757 (bps) 8219074360 8090695440 8032205896 7814476696 Output: Priority (pps) 1 1 1 1 (bps) 1416 1792 1552 1536 Non-Priority (pps) 1051058 1033388 1029507 998854 (bps) 8305118608 8174903728 8110285920 7876239880 Total (pps) 1051059 1033389 1029508 998855 (bps) 8305120024 8174905520 8110287472 7876241416 Processing: Load (pct) 16 15 15 15 upd: вообще давно руки чешутся, ну а щас реальная причина появилась - вынести bgp на отдельный тазик (ступор asr на пару минут от вливания фулл-вью - это незабываемое ощущение в первый раз, а что будет, если аплинк флапать начнет?), а asr без всяких vasi и vrf использовать как чистый nat/съемник нетфлоу/авторизатор. вот только сервера пока нет под рукой, надо покупать, а с текущими глюками что-то надо делать. upd2: планы на ближайшую ночь - таки слить пулы в один по принципу "хуже уже не будет" и убрать трафик белых адресов с интерфейса с nat'ом (сделаю второй экземпляр vasi). и ребут до кучи в последнюю прошивку (стоит 16.09.07, будет 16.09.08). сегодня колл-центр одолели. завтра колл-центр придет за моей шкурой, наверное. Edited January 22, 2022 by nixx Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zhenya` Posted January 23, 2022 · Report post Добавьте на графики с цифрами трафика (bps), причём раздельные по input non priority и priority. да, я именно про это разделение. Вы все правильно поняли. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 23, 2022 · Report post ну по priority вообще нули, вы ж видите. по кэшам портов тоже нули в "Fill Status Max". после ребута внешне все прекрасно. однако люди жалуются. но меньше. то ли это остаточное по следам предыдущих дней, то ли вообще дело не в циске... Скрытый текст #show platform hardware port 0/1/0 plim buffer settings Interface 0/1/0 RX Low Buffer Size 28901376 Bytes Drop Threshold Low 28891200 Bytes Hi 28891200 Bytes Fill Status Curr/Max 7573504 Bytes / 7573504 Bytes TX Low Fill Status Curr/Max 0 Bytes / 2048 Bytes RX High Buffer Size 4128768 Bytes Drop Threshold Low 4118592 Bytes Hi 4118592 Bytes Fill Status Curr/Max 0 Bytes / 0 Bytes TX High Fill Status Curr/Max 0 Bytes / 0 Bytes #show platform hardware port 0/2/0 plim buffer settings Interface 0/2/0 RX Low Buffer Size 28901376 Bytes Drop Threshold Low 28891200 Bytes Hi 28891200 Bytes Fill Status Curr/Max 45056 Bytes / 45056 Bytes TX Low Fill Status Curr/Max 256 Bytes / 4288 Bytes RX High Buffer Size 4128768 Bytes Drop Threshold Low 4118592 Bytes Hi 4118592 Bytes Fill Status Curr/Max 0 Bytes / 0 Bytes TX High Fill Status Curr/Max 0 Bytes / 0 Bytes свежий ios начал писать в логи вот такое: %IOSXE-4-PLATFORM: R0/0: cpp_cp: QFP:0.0 Thread:119 TS:00000051456541238108 %NAT-4-ALL_HOST_MAX_ENTRIES: all-host maximum limit of 3000 reached for 10.15.12.10. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted January 23, 2022 · Report post В 23.01.2022 в 18:36, nixx сказал: NAT-4-ALL_HOST_MAX_ENTRIES: all-host maximum limit of 3000 reached for 10.15.12.10. Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nixx Posted January 23, 2022 · Report post В 23.01.2022 в 19:43, jffulcrum сказал: Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу. необязательно. такое и торрентами нагенерить можно, если чел раздает активно. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 24, 2022 · Report post В 23.01.2022 в 21:43, jffulcrum сказал: Протрояненые. Хорошо бы скриптом парсить и в ACL для шейпера/блеклиста добавлять сразу. Скриптом парсить что ? flow ? ацлем проц наргружать ? Это же все внутри асрки... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
pppoetest Posted January 24, 2022 · Report post В 24.01.2022 в 09:10, YuryD сказал: Скриптом парсить что ? flow ? remote syslog Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted January 24, 2022 · Report post В 24.01.2022 в 06:10, YuryD сказал: ацлем проц наргружать ? Ну если всё в одной коробке, то да. Обычно есть еще коммутатор, на котором можно все это делать до попадания в ASR Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...