Перейти к содержимому
Калькуляторы

флапится BGP на 76

Всем добрый день.

Имеем 7609 с RSP720-3CXL-GE, один FV от одного аплинка и куча префиксов от iBGP.

Общее кол-во IPv4 маршрутов получаемых по eiBGP под милллион:

BGP table version is 282188545, main routing table version 282188545
428743 network entries using 52735389 bytes of memory
1358490 path entries using 70641480 bytes of memory
1 multipath network entries and 2 multipath paths
306052/71139 BGP path/bestpath attribute entries using 23259952 bytes of memory
188086 BGP AS-PATH entries using 5125330 bytes of memory
7388 BGP community entries using 493546 bytes of memory
8 BGP extended community entries using 208 bytes of memory
0 BGP route-map cache entries using 0 bytes of memory
0 BGP filter-list cache entries using 0 bytes of memory
BGP using 152255905 total bytes of memory
359589 received paths for inbound soft reconfiguration
BGP activity 6058314/5618441 prefixes, 224242775/222868522 paths, scan interval 60 secs

 

При добавлении нового аплинка с FV сессия с новым аплинком начинает флапиться, не получаем даже 3000 маршрутов.

Ошибок на интерфейсах нет, кастомеры с их анонсами пяти-десяти префиксов подключены аналогично не не жужжат.

Nov 27 15:27:23: %BGP-3-NOTIFICATION: sent to neighbor qq.q.q.q 4/0 (hold time expired) 0 bytes 
Nov 27 15:27:23: %BGP_SESSION-5-ADJCHANGE: neighbor q.q.q.q IPv4 Unicast topology base removed from session  BGP Notification sent
Nov 27 15:27:37: %BGP-5-ADJCHANGE: neighbor q.q.q.q Up 

В логах, кроме падения-установки сессии нет ничего.

Конфиг обычный, префикс-листами запрет 1918 сетей/дефолта и анонс только собственных/клиентских сетей.

Убирал - не помогало.

Читал про какие-то пляски с cef/mls/tcam, которые помогают решить проблему.

Посоветуйте что-нибудь, а то уже совсем ничего в голову не приходит((.

#show platform hardware pfc mode                        
PFC operating mode : PFC3BXL

#show module 
Mod Ports Card Type                              Model              Serial No.
--- ----- -------------------------------------- ------------------ -----------
 2   48  CEF720 48 port 1000mb SFP              WS-X6748-SFP       SAL1316NJUZ
 3    8  CEF720 8 port 10GE with DFC            WS-X6708-10GE      SAL1222RSC0
 5    2  Route Switch Processor 720 (Active)    RSP720-3CXL-GE     JAE1347ONF4
 9   48  CEF720 48 port 10/100/1000mb Ethernet  WS-X6748-GE-TX     SAL134110Y5

Mod MAC addresses                       Hw    Fw           Sw           Status
--- ---------------------------------- ------ ------------ ------------ -------
 2  0025.4558.3854 to 0025.4558.3883   1.13  12.2(18r)S1  12.2(33)SRD5 Ok
 3  001e.f7f7.c168 to 001e.f7f7.c16f   1.4   12.2(18r)S1  12.2(33)SRD5 Ok
 5  001c.584e.d5a8 to 001c.584e.d5ab   5.9   12.2(33r)SRD 12.2(33)SRD5 Ok
 9  0027.0d8a.a408 to 0027.0d8a.a437   3.2   12.2(18r)S1  12.2(33)SRD5 Ok

Mod  Sub-Module                  Model              Serial       Hw     Status 
---- --------------------------- ------------------ ----------- ------- -------
 2  Distributed Forwarding Card WS-F6700-DFC3BXL   SAL1229XVHZ  5.3    Ok
 3  Distributed Forwarding Card WS-F6700-DFC3CXL   SAL1217NGBK  1.1    Ok
 5  Policy Feature Card 3       7600-PFC3CXL       JAE1348OZZF  1.1    Ok
 5  C7600 MSFC4 Daughterboard   7600-MSFC4         JAE1347OGFQ  1.4    Ok
 9  Centralized Forwarding Card WS-F6700-CFC       SAL1310L9VQ  4.1    Ok

Mod  Online Diag Status 




#show platform hardware capacity forwarding | beg L3 For
L3 Forwarding Resources
Module              FIB TCAM usage:                     Total        Used     %Used
  5                     72 bits (IPv4, MPLS, EoM)      524288      428302     82%
                       144 bits (IP mcast, IPv6)      262144        11410      4%

                    detail:      Protocol                    Used       %Used
                                 IPv4                      428258         82%
                                 MPLS                          41          1%
                                 EoM                            3          1%

                                 IPv6                       11146          4%
                                 IPv4 mcast                   261          1%
                                 IPv6 mcast                     3          1%

           Adjacency usage:                     Total        Used       %Used
                                              1048576         774          1%

    Forwarding engine load:
                    Module       pps   peak-pps                     peak-time
                    2         800625    2316225  13:50:39 MSK Tue Sep 11 2012
                    3        3550835    8871960  23:30:54 MSK Sat Feb 18 2012
                    5         519332    1188413  22:05:48 MSK Sat Feb 25 2012


Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А что вываливается, если включить debug ip bgp?

 

Сравнивали ли MTU с интерфейсом аплинка?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

включал, вообще ничего

есть подозрения, что вредят эти строки (Cisco Best Practices говорит об этом)

mls rate-limit unicast cef glean 1000 10

mls rate-limit unicast acl input 500 10

mls rate-limit unicast acl output 500 10

no mls rate-limit unicast acl vacl-log

mls rate-limit unicast ip options 10 1

mls rate-limit unicast ip rpf-failure 500 10

mls rate-limit unicast ip icmp unreachable no-route 500 10

mls rate-limit unicast ip icmp unreachable acl-drop 500 10

mls rate-limit unicast ip errors 500 10

 

 

щас попробую отключить

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

включал, вообще ничего

 

А передернуть сессию после включения пробовали?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Nov 27 16:53:31: %BGP-5-ADJCHANGE: neighbor zzzz Down User reset

Nov 27 16:53:31: %BGP_SESSION-5-ADJCHANGE: neighbor zzzz IPv4 Unicast topology base removed from session User reset

Nov 27 16:53:31: %BGP-3-NOTIFICATION: received from neighbor zzzz active 6/5 (cease) 0 bytes

Nov 27 16:53:32: %BGP_SESSION-5-ADJCHANGE: neighbor zzzz IPv4 Unicast topology base removed from session Unknown path error

Nov 27 16:54:06: %BGP-5-ADJCHANGE: neighbor zzzz Up

 

 

neighbor zzz remote-as 8

neighbor zzz description -- zzz ---

neighbor zzz activate

neighbor zzz send-community

neighbor zzz soft-reconfiguration inbound

neighbor zzz prefix-list UPLINKS out

neighbor zzz route-map zzz out

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А как орнанизован канал до аплинка ?

Что происходит с CPU 76-й в момент поднятия сессии ?

Попробуйте зафильтровать все маршруты от аплинка и поднять сессию.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

канал до аплинка напрямую в 10г порт карты WS-X6708-10GE

был через джунипер 4500ех агрегации - без разницы - симптомы те же, ошибок на портах нету.

на циске bgp/ospf/mpls/multicast (bgp много, остального - нет), утилизация памяти и процессора - средняя 20-30 (бывают пики до 80-90), суммарный трафик порядка 20-30г

 

почти все нейборы пингуются через пень-колоду, думаю, потери и служат причиной дропов сессии.

однако старый FV и клиентские сессии не дропаются, трафик бегает через циску, в том числе и по новому интерфейсу

аплинк видит эти потери и винит нас, по сути он прав.

настроен CoPP, может он служить причиной тормозов?

 

 

ping яяяяяя rep 100 si 1000

 

Type escape sequence to abort.

Sending 100, 1000-byte ICMP Echos to яяяя, timeout is 2 seconds:

!!!!.!.!!!.!.!!!!.!!.!!.!.!!..!!!.!!!.!!!.!!!.!!!!.!!!.!!.!!!!!.!!!!.!

!!.!.!.!!!.!!!.!!.!.!!!.!!!.!!

Success rate is 72 percent (72/100), round-trip min/avg/max = 1/2/24 ms

 

А как орнанизован канал до аплинка ?

Что происходит с CPU 76-й в момент поднятия сессии ?

Попробуйте зафильтровать все маршруты от аплинка и поднять сессию.

пробовал фильтровать только крупные блоки (принимал только ниже /18) - все равно, принимает 500-700 (рекорд до 2000) - далее сессия рвется.

момент падения сессии совпадает с повышением утилизации CPU (скорее, оно является причиной).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

CoPP явно может служить причиной потерь на ICMP. Попробуйте снять полисер и помотреть что будет с ICMP на сети.

Какой нибудь STP используется ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

На нейборе ваш номер AS правильно прописан?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Попробуйте копнуть в сторону совместимости "длинных" №№ автономок.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

снял service-policy с control-plane - бинго.

  Prefixes Current:             293     426063 (Consumes 22155276 bytes)

 

Два дня мучался.

Спасибо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Не за что. Тут как раз увидел письмо с Вашей просьбой посмотреть, в чем проблема :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

бинго.

поздравляю! каждая лишняя строчка в конфиге - вредна!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А мне лично кажется, что дело было в том, что кому-то ЗП не заплатили =)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вопрос участникам дискуссии:

используется ли у вас на оборудовании полисеры на control-plane?

Ночь циска простояла без него, никакого криминала, по графикам загрузки проца/использования памяти ничего не изменилось.

Или это до поры до времени?

Знаю, что в достаточно крупных операторах этого нет, и ничего.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Лучше почитайте рекомендации по поводу CoPP, может спасти в нештатных ситуациях.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вопрос участникам дискуссии:

используется ли у вас на оборудовании полисеры на control-plane?

Ночь циска простояла без него, никакого криминала, по графикам загрузки проца/использования памяти ничего не изменилось.

Или это до поры до времени?

Знаю, что в достаточно крупных операторах этого нет, и ничего.

у нас есть

это действительно до поры

реализовали когда уже "петух жареный в задницу клюнул"

главное настроить правильно

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

полисеры на control-plane - палка о 2-х концах. с одной стороны, есть вероятность, что движок захлебнется при неком стечении обстоятельств и от этого хочется предохраниться. с другой стороны, данный топик - яркий пример случая, когда напрасно настроенная фича помешала сервису. был у меня подобный случай с bfd. для себя я давно уже решил - пользуюсь принципом оккама (не умножай сущности). чем решение проще - тем надежнее.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А на акцесс-свитчах вы тоже сущности не умножаете? Нафиг нужны всякие lbd, traffic control и т.д.? =)

В данном случае, насколько я знаю, это железко смотрит в т.ч. на IX, а там copp не лишний

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.