shvlad1 Posted November 27, 2012 Всем добрый день. Имеем 7609 с RSP720-3CXL-GE, один FV от одного аплинка и куча префиксов от iBGP. Общее кол-во IPv4 маршрутов получаемых по eiBGP под милллион: BGP table version is 282188545, main routing table version 282188545 428743 network entries using 52735389 bytes of memory 1358490 path entries using 70641480 bytes of memory 1 multipath network entries and 2 multipath paths 306052/71139 BGP path/bestpath attribute entries using 23259952 bytes of memory 188086 BGP AS-PATH entries using 5125330 bytes of memory 7388 BGP community entries using 493546 bytes of memory 8 BGP extended community entries using 208 bytes of memory 0 BGP route-map cache entries using 0 bytes of memory 0 BGP filter-list cache entries using 0 bytes of memory BGP using 152255905 total bytes of memory 359589 received paths for inbound soft reconfiguration BGP activity 6058314/5618441 prefixes, 224242775/222868522 paths, scan interval 60 secs При добавлении нового аплинка с FV сессия с новым аплинком начинает флапиться, не получаем даже 3000 маршрутов. Ошибок на интерфейсах нет, кастомеры с их анонсами пяти-десяти префиксов подключены аналогично не не жужжат. Nov 27 15:27:23: %BGP-3-NOTIFICATION: sent to neighbor qq.q.q.q 4/0 (hold time expired) 0 bytes Nov 27 15:27:23: %BGP_SESSION-5-ADJCHANGE: neighbor q.q.q.q IPv4 Unicast topology base removed from session BGP Notification sent Nov 27 15:27:37: %BGP-5-ADJCHANGE: neighbor q.q.q.q Up В логах, кроме падения-установки сессии нет ничего. Конфиг обычный, префикс-листами запрет 1918 сетей/дефолта и анонс только собственных/клиентских сетей. Убирал - не помогало. Читал про какие-то пляски с cef/mls/tcam, которые помогают решить проблему. Посоветуйте что-нибудь, а то уже совсем ничего в голову не приходит((. #show platform hardware pfc mode PFC operating mode : PFC3BXL #show module Mod Ports Card Type Model Serial No. --- ----- -------------------------------------- ------------------ ----------- 2 48 CEF720 48 port 1000mb SFP WS-X6748-SFP SAL1316NJUZ 3 8 CEF720 8 port 10GE with DFC WS-X6708-10GE SAL1222RSC0 5 2 Route Switch Processor 720 (Active) RSP720-3CXL-GE JAE1347ONF4 9 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX SAL134110Y5 Mod MAC addresses Hw Fw Sw Status --- ---------------------------------- ------ ------------ ------------ ------- 2 0025.4558.3854 to 0025.4558.3883 1.13 12.2(18r)S1 12.2(33)SRD5 Ok 3 001e.f7f7.c168 to 001e.f7f7.c16f 1.4 12.2(18r)S1 12.2(33)SRD5 Ok 5 001c.584e.d5a8 to 001c.584e.d5ab 5.9 12.2(33r)SRD 12.2(33)SRD5 Ok 9 0027.0d8a.a408 to 0027.0d8a.a437 3.2 12.2(18r)S1 12.2(33)SRD5 Ok Mod Sub-Module Model Serial Hw Status ---- --------------------------- ------------------ ----------- ------- ------- 2 Distributed Forwarding Card WS-F6700-DFC3BXL SAL1229XVHZ 5.3 Ok 3 Distributed Forwarding Card WS-F6700-DFC3CXL SAL1217NGBK 1.1 Ok 5 Policy Feature Card 3 7600-PFC3CXL JAE1348OZZF 1.1 Ok 5 C7600 MSFC4 Daughterboard 7600-MSFC4 JAE1347OGFQ 1.4 Ok 9 Centralized Forwarding Card WS-F6700-CFC SAL1310L9VQ 4.1 Ok Mod Online Diag Status #show platform hardware capacity forwarding | beg L3 For L3 Forwarding Resources Module FIB TCAM usage: Total Used %Used 5 72 bits (IPv4, MPLS, EoM) 524288 428302 82% 144 bits (IP mcast, IPv6) 262144 11410 4% detail: Protocol Used %Used IPv4 428258 82% MPLS 41 1% EoM 3 1% IPv6 11146 4% IPv4 mcast 261 1% IPv6 mcast 3 1% Adjacency usage: Total Used %Used 1048576 774 1% Forwarding engine load: Module pps peak-pps peak-time 2 800625 2316225 13:50:39 MSK Tue Sep 11 2012 3 3550835 8871960 23:30:54 MSK Sat Feb 18 2012 5 519332 1188413 22:05:48 MSK Sat Feb 25 2012 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
UnknownError Posted November 27, 2012 А что вываливается, если включить debug ip bgp? Сравнивали ли MTU с интерфейсом аплинка? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
shvlad1 Posted November 27, 2012 включал, вообще ничего есть подозрения, что вредят эти строки (Cisco Best Practices говорит об этом) mls rate-limit unicast cef glean 1000 10 mls rate-limit unicast acl input 500 10 mls rate-limit unicast acl output 500 10 no mls rate-limit unicast acl vacl-log mls rate-limit unicast ip options 10 1 mls rate-limit unicast ip rpf-failure 500 10 mls rate-limit unicast ip icmp unreachable no-route 500 10 mls rate-limit unicast ip icmp unreachable acl-drop 500 10 mls rate-limit unicast ip errors 500 10 щас попробую отключить Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
UnknownError Posted November 27, 2012 включал, вообще ничего А передернуть сессию после включения пробовали? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
shvlad1 Posted November 27, 2012 Nov 27 16:53:31: %BGP-5-ADJCHANGE: neighbor zzzz Down User reset Nov 27 16:53:31: %BGP_SESSION-5-ADJCHANGE: neighbor zzzz IPv4 Unicast topology base removed from session User reset Nov 27 16:53:31: %BGP-3-NOTIFICATION: received from neighbor zzzz active 6/5 (cease) 0 bytes Nov 27 16:53:32: %BGP_SESSION-5-ADJCHANGE: neighbor zzzz IPv4 Unicast topology base removed from session Unknown path error Nov 27 16:54:06: %BGP-5-ADJCHANGE: neighbor zzzz Up neighbor zzz remote-as 8 neighbor zzz description -- zzz --- neighbor zzz activate neighbor zzz send-community neighbor zzz soft-reconfiguration inbound neighbor zzz prefix-list UPLINKS out neighbor zzz route-map zzz out Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tros10 Posted November 27, 2012 А как орнанизован канал до аплинка ? Что происходит с CPU 76-й в момент поднятия сессии ? Попробуйте зафильтровать все маршруты от аплинка и поднять сессию. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
shvlad1 Posted November 27, 2012 канал до аплинка напрямую в 10г порт карты WS-X6708-10GE был через джунипер 4500ех агрегации - без разницы - симптомы те же, ошибок на портах нету. на циске bgp/ospf/mpls/multicast (bgp много, остального - нет), утилизация памяти и процессора - средняя 20-30 (бывают пики до 80-90), суммарный трафик порядка 20-30г почти все нейборы пингуются через пень-колоду, думаю, потери и служат причиной дропов сессии. однако старый FV и клиентские сессии не дропаются, трафик бегает через циску, в том числе и по новому интерфейсу аплинк видит эти потери и винит нас, по сути он прав. настроен CoPP, может он служить причиной тормозов? ping яяяяяя rep 100 si 1000 Type escape sequence to abort. Sending 100, 1000-byte ICMP Echos to яяяя, timeout is 2 seconds: !!!!.!.!!!.!.!!!!.!!.!!.!.!!..!!!.!!!.!!!.!!!.!!!!.!!!.!!.!!!!!.!!!!.! !!.!.!.!!!.!!!.!!.!.!!!.!!!.!! Success rate is 72 percent (72/100), round-trip min/avg/max = 1/2/24 ms А как орнанизован канал до аплинка ? Что происходит с CPU 76-й в момент поднятия сессии ? Попробуйте зафильтровать все маршруты от аплинка и поднять сессию. пробовал фильтровать только крупные блоки (принимал только ниже /18) - все равно, принимает 500-700 (рекорд до 2000) - далее сессия рвется. момент падения сессии совпадает с повышением утилизации CPU (скорее, оно является причиной). Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tros10 Posted November 27, 2012 CoPP явно может служить причиной потерь на ICMP. Попробуйте снять полисер и помотреть что будет с ICMP на сети. Какой нибудь STP используется ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Alex/AT Posted November 27, 2012 На нейборе ваш номер AS правильно прописан? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ugluck Posted November 27, 2012 Попробуйте копнуть в сторону совместимости "длинных" №№ автономок. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
shvlad1 Posted November 27, 2012 снял service-policy с control-plane - бинго. Prefixes Current: 293 426063 (Consumes 22155276 bytes) Два дня мучался. Спасибо. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tros10 Posted November 27, 2012 Не за что. Тут как раз увидел письмо с Вашей просьбой посмотреть, в чем проблема :) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ugluck Posted November 27, 2012 бинго. поздравляю! каждая лишняя строчка в конфиге - вредна! Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
triam Posted November 28, 2012 А мне лично кажется, что дело было в том, что кому-то ЗП не заплатили =) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
shvlad1 Posted November 28, 2012 Вопрос участникам дискуссии: используется ли у вас на оборудовании полисеры на control-plane? Ночь циска простояла без него, никакого криминала, по графикам загрузки проца/использования памяти ничего не изменилось. Или это до поры до времени? Знаю, что в достаточно крупных операторах этого нет, и ничего. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
tros10 Posted November 28, 2012 Лучше почитайте рекомендации по поводу CoPP, может спасти в нештатных ситуациях. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zi_rus Posted November 28, 2012 Вопрос участникам дискуссии: используется ли у вас на оборудовании полисеры на control-plane? Ночь циска простояла без него, никакого криминала, по графикам загрузки проца/использования памяти ничего не изменилось. Или это до поры до времени? Знаю, что в достаточно крупных операторах этого нет, и ничего. у нас есть это действительно до поры реализовали когда уже "петух жареный в задницу клюнул" главное настроить правильно Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
ugluck Posted November 28, 2012 полисеры на control-plane - палка о 2-х концах. с одной стороны, есть вероятность, что движок захлебнется при неком стечении обстоятельств и от этого хочется предохраниться. с другой стороны, данный топик - яркий пример случая, когда напрасно настроенная фича помешала сервису. был у меня подобный случай с bfd. для себя я давно уже решил - пользуюсь принципом оккама (не умножай сущности). чем решение проще - тем надежнее. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Wingman Posted November 28, 2012 А на акцесс-свитчах вы тоже сущности не умножаете? Нафиг нужны всякие lbd, traffic control и т.д.? =) В данном случае, насколько я знаю, это железко смотрит в т.ч. на IX, а там copp не лишний Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...