shvlad1 Опубликовано 27 ноября, 2012 · Жалоба Всем добрый день. Имеем 7609 с RSP720-3CXL-GE, один FV от одного аплинка и куча префиксов от iBGP. Общее кол-во IPv4 маршрутов получаемых по eiBGP под милллион: BGP table version is 282188545, main routing table version 282188545 428743 network entries using 52735389 bytes of memory 1358490 path entries using 70641480 bytes of memory 1 multipath network entries and 2 multipath paths 306052/71139 BGP path/bestpath attribute entries using 23259952 bytes of memory 188086 BGP AS-PATH entries using 5125330 bytes of memory 7388 BGP community entries using 493546 bytes of memory 8 BGP extended community entries using 208 bytes of memory 0 BGP route-map cache entries using 0 bytes of memory 0 BGP filter-list cache entries using 0 bytes of memory BGP using 152255905 total bytes of memory 359589 received paths for inbound soft reconfiguration BGP activity 6058314/5618441 prefixes, 224242775/222868522 paths, scan interval 60 secs При добавлении нового аплинка с FV сессия с новым аплинком начинает флапиться, не получаем даже 3000 маршрутов. Ошибок на интерфейсах нет, кастомеры с их анонсами пяти-десяти префиксов подключены аналогично не не жужжат. Nov 27 15:27:23: %BGP-3-NOTIFICATION: sent to neighbor qq.q.q.q 4/0 (hold time expired) 0 bytes Nov 27 15:27:23: %BGP_SESSION-5-ADJCHANGE: neighbor q.q.q.q IPv4 Unicast topology base removed from session BGP Notification sent Nov 27 15:27:37: %BGP-5-ADJCHANGE: neighbor q.q.q.q Up В логах, кроме падения-установки сессии нет ничего. Конфиг обычный, префикс-листами запрет 1918 сетей/дефолта и анонс только собственных/клиентских сетей. Убирал - не помогало. Читал про какие-то пляски с cef/mls/tcam, которые помогают решить проблему. Посоветуйте что-нибудь, а то уже совсем ничего в голову не приходит((. #show platform hardware pfc mode PFC operating mode : PFC3BXL #show module Mod Ports Card Type Model Serial No. --- ----- -------------------------------------- ------------------ ----------- 2 48 CEF720 48 port 1000mb SFP WS-X6748-SFP SAL1316NJUZ 3 8 CEF720 8 port 10GE with DFC WS-X6708-10GE SAL1222RSC0 5 2 Route Switch Processor 720 (Active) RSP720-3CXL-GE JAE1347ONF4 9 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX SAL134110Y5 Mod MAC addresses Hw Fw Sw Status --- ---------------------------------- ------ ------------ ------------ ------- 2 0025.4558.3854 to 0025.4558.3883 1.13 12.2(18r)S1 12.2(33)SRD5 Ok 3 001e.f7f7.c168 to 001e.f7f7.c16f 1.4 12.2(18r)S1 12.2(33)SRD5 Ok 5 001c.584e.d5a8 to 001c.584e.d5ab 5.9 12.2(33r)SRD 12.2(33)SRD5 Ok 9 0027.0d8a.a408 to 0027.0d8a.a437 3.2 12.2(18r)S1 12.2(33)SRD5 Ok Mod Sub-Module Model Serial Hw Status ---- --------------------------- ------------------ ----------- ------- ------- 2 Distributed Forwarding Card WS-F6700-DFC3BXL SAL1229XVHZ 5.3 Ok 3 Distributed Forwarding Card WS-F6700-DFC3CXL SAL1217NGBK 1.1 Ok 5 Policy Feature Card 3 7600-PFC3CXL JAE1348OZZF 1.1 Ok 5 C7600 MSFC4 Daughterboard 7600-MSFC4 JAE1347OGFQ 1.4 Ok 9 Centralized Forwarding Card WS-F6700-CFC SAL1310L9VQ 4.1 Ok Mod Online Diag Status #show platform hardware capacity forwarding | beg L3 For L3 Forwarding Resources Module FIB TCAM usage: Total Used %Used 5 72 bits (IPv4, MPLS, EoM) 524288 428302 82% 144 bits (IP mcast, IPv6) 262144 11410 4% detail: Protocol Used %Used IPv4 428258 82% MPLS 41 1% EoM 3 1% IPv6 11146 4% IPv4 mcast 261 1% IPv6 mcast 3 1% Adjacency usage: Total Used %Used 1048576 774 1% Forwarding engine load: Module pps peak-pps peak-time 2 800625 2316225 13:50:39 MSK Tue Sep 11 2012 3 3550835 8871960 23:30:54 MSK Sat Feb 18 2012 5 519332 1188413 22:05:48 MSK Sat Feb 25 2012 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
UnknownError Опубликовано 27 ноября, 2012 · Жалоба А что вываливается, если включить debug ip bgp? Сравнивали ли MTU с интерфейсом аплинка? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shvlad1 Опубликовано 27 ноября, 2012 · Жалоба включал, вообще ничего есть подозрения, что вредят эти строки (Cisco Best Practices говорит об этом) mls rate-limit unicast cef glean 1000 10 mls rate-limit unicast acl input 500 10 mls rate-limit unicast acl output 500 10 no mls rate-limit unicast acl vacl-log mls rate-limit unicast ip options 10 1 mls rate-limit unicast ip rpf-failure 500 10 mls rate-limit unicast ip icmp unreachable no-route 500 10 mls rate-limit unicast ip icmp unreachable acl-drop 500 10 mls rate-limit unicast ip errors 500 10 щас попробую отключить Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
UnknownError Опубликовано 27 ноября, 2012 · Жалоба включал, вообще ничего А передернуть сессию после включения пробовали? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shvlad1 Опубликовано 27 ноября, 2012 · Жалоба Nov 27 16:53:31: %BGP-5-ADJCHANGE: neighbor zzzz Down User reset Nov 27 16:53:31: %BGP_SESSION-5-ADJCHANGE: neighbor zzzz IPv4 Unicast topology base removed from session User reset Nov 27 16:53:31: %BGP-3-NOTIFICATION: received from neighbor zzzz active 6/5 (cease) 0 bytes Nov 27 16:53:32: %BGP_SESSION-5-ADJCHANGE: neighbor zzzz IPv4 Unicast topology base removed from session Unknown path error Nov 27 16:54:06: %BGP-5-ADJCHANGE: neighbor zzzz Up neighbor zzz remote-as 8 neighbor zzz description -- zzz --- neighbor zzz activate neighbor zzz send-community neighbor zzz soft-reconfiguration inbound neighbor zzz prefix-list UPLINKS out neighbor zzz route-map zzz out Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
tros10 Опубликовано 27 ноября, 2012 · Жалоба А как орнанизован канал до аплинка ? Что происходит с CPU 76-й в момент поднятия сессии ? Попробуйте зафильтровать все маршруты от аплинка и поднять сессию. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shvlad1 Опубликовано 27 ноября, 2012 · Жалоба канал до аплинка напрямую в 10г порт карты WS-X6708-10GE был через джунипер 4500ех агрегации - без разницы - симптомы те же, ошибок на портах нету. на циске bgp/ospf/mpls/multicast (bgp много, остального - нет), утилизация памяти и процессора - средняя 20-30 (бывают пики до 80-90), суммарный трафик порядка 20-30г почти все нейборы пингуются через пень-колоду, думаю, потери и служат причиной дропов сессии. однако старый FV и клиентские сессии не дропаются, трафик бегает через циску, в том числе и по новому интерфейсу аплинк видит эти потери и винит нас, по сути он прав. настроен CoPP, может он служить причиной тормозов? ping яяяяяя rep 100 si 1000 Type escape sequence to abort. Sending 100, 1000-byte ICMP Echos to яяяя, timeout is 2 seconds: !!!!.!.!!!.!.!!!!.!!.!!.!.!!..!!!.!!!.!!!.!!!.!!!!.!!!.!!.!!!!!.!!!!.! !!.!.!.!!!.!!!.!!.!.!!!.!!!.!! Success rate is 72 percent (72/100), round-trip min/avg/max = 1/2/24 ms А как орнанизован канал до аплинка ? Что происходит с CPU 76-й в момент поднятия сессии ? Попробуйте зафильтровать все маршруты от аплинка и поднять сессию. пробовал фильтровать только крупные блоки (принимал только ниже /18) - все равно, принимает 500-700 (рекорд до 2000) - далее сессия рвется. момент падения сессии совпадает с повышением утилизации CPU (скорее, оно является причиной). Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
tros10 Опубликовано 27 ноября, 2012 · Жалоба CoPP явно может служить причиной потерь на ICMP. Попробуйте снять полисер и помотреть что будет с ICMP на сети. Какой нибудь STP используется ? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Alex/AT Опубликовано 27 ноября, 2012 · Жалоба На нейборе ваш номер AS правильно прописан? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ugluck Опубликовано 27 ноября, 2012 · Жалоба Попробуйте копнуть в сторону совместимости "длинных" №№ автономок. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shvlad1 Опубликовано 27 ноября, 2012 · Жалоба снял service-policy с control-plane - бинго. Prefixes Current: 293 426063 (Consumes 22155276 bytes) Два дня мучался. Спасибо. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
tros10 Опубликовано 27 ноября, 2012 · Жалоба Не за что. Тут как раз увидел письмо с Вашей просьбой посмотреть, в чем проблема :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ugluck Опубликовано 27 ноября, 2012 · Жалоба бинго. поздравляю! каждая лишняя строчка в конфиге - вредна! Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
triam Опубликовано 28 ноября, 2012 · Жалоба А мне лично кажется, что дело было в том, что кому-то ЗП не заплатили =) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
shvlad1 Опубликовано 28 ноября, 2012 · Жалоба Вопрос участникам дискуссии: используется ли у вас на оборудовании полисеры на control-plane? Ночь циска простояла без него, никакого криминала, по графикам загрузки проца/использования памяти ничего не изменилось. Или это до поры до времени? Знаю, что в достаточно крупных операторах этого нет, и ничего. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
tros10 Опубликовано 28 ноября, 2012 · Жалоба Лучше почитайте рекомендации по поводу CoPP, может спасти в нештатных ситуациях. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zi_rus Опубликовано 28 ноября, 2012 · Жалоба Вопрос участникам дискуссии: используется ли у вас на оборудовании полисеры на control-plane? Ночь циска простояла без него, никакого криминала, по графикам загрузки проца/использования памяти ничего не изменилось. Или это до поры до времени? Знаю, что в достаточно крупных операторах этого нет, и ничего. у нас есть это действительно до поры реализовали когда уже "петух жареный в задницу клюнул" главное настроить правильно Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ugluck Опубликовано 28 ноября, 2012 · Жалоба полисеры на control-plane - палка о 2-х концах. с одной стороны, есть вероятность, что движок захлебнется при неком стечении обстоятельств и от этого хочется предохраниться. с другой стороны, данный топик - яркий пример случая, когда напрасно настроенная фича помешала сервису. был у меня подобный случай с bfd. для себя я давно уже решил - пользуюсь принципом оккама (не умножай сущности). чем решение проще - тем надежнее. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Wingman Опубликовано 28 ноября, 2012 · Жалоба А на акцесс-свитчах вы тоже сущности не умножаете? Нафиг нужны всякие lbd, traffic control и т.д.? =) В данном случае, насколько я знаю, это железко смотрит в т.ч. на IX, а там copp не лишний Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...