Перейти к содержимому
Калькуляторы

MX80 потеря сигнального трафика ldp и bgp пакеты дропаются внутри коробки

Поставили новый MX80 в сеть, настроили, пустили трафик.. и тут в ЧНН начали наблюдаться флапы ibgp и ldp.

Начали дебажить. Сессии отваливаются по таймауту.

Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит.

И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше.

Выглядит это вот так:

Filter: signalling_count_out-lo0.0-o

Counters:

Name Bytes Packets

bgp_to_4-lo0.0-o 2339302 27985

bgp_to_5-lo0.0-o 1705092 23981

bgp_to_6-lo0.0-o 2645249 21054

ldp_to_4-lo0.0-o 55790 1154

ldp_to_5-lo0.0-o 55554 1149

ldp_to_6-lo0.0-o 54686 1130

 

Filter: signalling_count_out-xe-0/0/1.500-o

Counters:

Name Bytes Packets

bgp_to_4-xe-0/0/1.500-o 2325926 27900

bgp_to_5-xe-0/0/1.500-o 1698009 23923

bgp_to_6-xe-0/0/1.500-o 2645249 21054

ldp_to_4-xe-0/0/1.500-o 54682 1129

ldp_to_5-xe-0/0/1.500-o 54846 1134

ldp_to_6-xe-0/0/1.500-o 54686 1130

 

Т.е. пакеты погибают где-то внутри MX.

Причем во входящем направлении никаких потерь нет, все что пришло, доходит до lo0.

 

Увели с коробки трафик, поставили рекомендованный 10.4R8.5, настроили control plane firewall.

Дропы сигнального трафика продолжаются.

Кто-нибудь сталкивался с подобным на MX80? Any ideas?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

а что ещё идёт на cpu? arp/igmp много трафика он обрабатывает? по snmp его не сильно мучаете?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Проверьте загрузку цпу.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Загрузка CPU близка к нулю.

root@MX80-1> show chassis routing-engine

Routing Engine status:

Temperature 36 degrees C / 96 degrees F

CPU temperature 49 degrees C / 120 degrees F

DRAM 2048 MB

Memory utilization 43 percent

CPU utilization:

User 1 percent

Background 0 percent

Kernel 1 percent

Interrupt 1 percent

Idle 97 percent

Model RE-MX80

Start time 2012-09-07 22:00:43 MSD

Uptime 2 days, 12 hours, 17 minutes, 20 seconds

Last reboot reason Router rebooted after a normal shutdown.

Load averages: 1 minute 5 minute 15 minute

0.00 0.00 0.00

 

Вот статистика за сутки по control plane:

Filter: control-plane

Counters:

Name Bytes Packets

bgp-accept 18245973 143242

default-discard 0 0

dns 0 0

icmp-accept 112 2

ldp-accept 3396348 56299

normal-fragment-accept 0 0

ntp 11400 150

ospf-accept 3511532 42698

overlay-fragment-discard 0 0

snmp-accept 2589231 21661

ssh-in 96520 1509

tacacs 92058 1448

tcp-control-accept 652 13

telnet 0 0

tiny-initial-fragment-discard 0 0

Policers:

Name Bytes Packets

icmp-icmp 0 0

small-bw-dns 0 0

small-bw-everything-else 0 0

small-bw-ntp 0 0

small-bw-snmp 0 0

small-bw-tacacs 0 0

telnet-telnet 0 0

 

Тут даже в default-discard ничего не попало, т.к. кроме мониторинга и ssh на коробку ходит только сигнальный трафик bgp, ldp, ospf.

Проблемы начинаются когда увеличивается динамика апдейтов в bgp.l3vpn.

Это не повод дропать пакеты. Ни на cisco, ни на huawei никогда такого не наблюдалось.

Кроме того, если бы что-то долбило по control plane, то должны были быть дропы во входящем направлении, т.к. прежде чем что-то послать назад, оно должно было дойти до cpu.

Но во входящем направлении дропов нет, есть только в исходящем.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А каких-нибудь странных сообщений в логах нет?

show system core-dump ?

sh log messages | match pfe

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А загрузку cpu то рисуете? А то она ноль, ноль а потом бац - 100%, и опять нули. Особенно при включеном семплинге и перезаливке full-view обычно на минуту-две видим 100% загрузку проца. Может у вас что-то похожее?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит.

И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше.

 

Так может быть если у маршрутизатора нет ARP-записи для destination. RE пакет отдает а PFE не знает, куда его слать.

IGP какой? Не разваливается?

 

Filter: signalling_count_out-lo0.0-o

Counters:

Name Bytes Packets

bgp_to_4-lo0.0-o 2339302 27985

bgp_to_5-lo0.0-o 1705092 23981

bgp_to_6-lo0.0-o 2645249 21054

ldp_to_4-lo0.0-o 55790 1154

ldp_to_5-lo0.0-o 55554 1149

ldp_to_6-lo0.0-o 54686 1130

 

 

Это три разных пира, с которыми общаемся через xe? Они directly connected или нет?

Изменено пользователем nnm

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А загрузку cpu то рисуете? А то она ноль, ноль а потом бац - 100%, и опять нули. Особенно при включеном семплинге и перезаливке full-view обычно на минуту-две видим 100% загрузку проца. Может у вас что-то похожее?

 

Рисуем. Все ровно. Выше 13% пока еще не подскакивала.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит.

И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше.

 

Так может быть если у маршрутизатора нет ARP-записи для destination. RE пакет отдает а PFE не знает, куда его слать.

IGP какой? Не разваливается?

 

 

Filter: signalling_count_out-lo0.0-o

Counters:

Name Bytes Packets

bgp_to_4-lo0.0-o 2339302 27985

bgp_to_5-lo0.0-o 1705092 23981

bgp_to_6-lo0.0-o 2645249 21054

ldp_to_4-lo0.0-o 55790 1154

ldp_to_5-lo0.0-o 55554 1149

ldp_to_6-lo0.0-o 54686 1130

 

 

Это три разных пира, с которыми общаемся через xe? Они directly connected или нет?

 

Три пира directly connected через xe-0/0/1.500.

igp ospf. Он, что интересно, не отваливался ни разу.

На хе-0/0/0 есть еще несколько сабинтерфейсов с ebgp,

там тоже ничего не отваливалось ни разу.

А вот ibgp и ldp с сорсом lo0.0 через xe-0/0/1.500 флапают.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Три пира directly connected через xe-0/0/1.500.

igp ospf. Он, что интересно, не отваливался ни разу.

 

OSPF использует multicast-пакеты. Т.е. если в Ethernet-сегменте проблема с доставкой unicast пакетов (косо встали MAC в коммуторах) или сломался ARP, то он это может и не заметить. BGP, LDP - unicast.

Судя по тому, что Вы написали в первом письме, счетчики для маршрутизатора номер

6 совпадают.

 

ldp_to_6-lo0.0-o 54686 1130

ldp_to_6-xe-0/0/1.500-o 54686 1130

 

Т.е. потери проявляется для двух пиров из трех? Тогда мне кажется, что скорее всего проблема

где-то в Ethernet-сегменте, подключенном к xe-0/0/1.500.

 

Но на всякий случай неплохо было-бы проверить возраст маршрутов от MX80 на loopback всех трех

подключенных устройств и в обратном направлении от них на loopback MX. Если OSPF не дергается, то они

по идее должны быть стабильными.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5

 

Не аргументировано. У нас там стоял другой софт и обновились до рекомендованного JTAC, чтобы можно было им эту проблему сдать, т.к. поддержка имеется.

Изменено пользователем Bambuk

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Три пира directly connected через xe-0/0/1.500.

igp ospf. Он, что интересно, не отваливался ни разу.

 

OSPF использует multicast-пакеты. Т.е. если в Ethernet-сегменте проблема с доставкой unicast пакетов (косо встали MAC в коммуторах) или сломался ARP, то он это может и не заметить. BGP, LDP - unicast.

Судя по тому, что Вы написали в первом письме, счетчики для маршрутизатора номер

6 совпадают.

 

ldp_to_6-lo0.0-o 54686 1130

ldp_to_6-xe-0/0/1.500-o 54686 1130

 

Т.е. потери проявляется для двух пиров из трех? Тогда мне кажется, что скорее всего проблема

где-то в Ethernet-сегменте, подключенном к xe-0/0/1.500.

 

Но на всякий случай неплохо было-бы проверить возраст маршрутов от MX80 на loopback всех трех

подключенных устройств и в обратном направлении от них на loopback MX. Если OSPF не дергается, то они

по идее должны быть стабильными.

 

3 и 4 пиры - ASR1000, 6 - 7201. один из ASR и 7201 включены в соседние порты того же коммутатора, в который включен MX.

между собой у цисок ничего не отваливается, ни ldp, ни ibgp(специально настроил фуллмеш для проверки).

т.е. коммутатор тут ни при чем.

 

на xe-0/0/1.500 повесил отдельный полисер для arp, чтоб быть уверенным в том что оно не попало в общий полисер.

проблемы все равно продолжаются. arp вроде на месте. как включить его отладку на MX я что-то пока не нашел.

 

сдали проблему в JTAC. посмотрим что они скажут.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

PR695224 , не?

 

когда знакомые сдавали кейс, симптомы такие же сначала приводили.. "LDP OSPF BGP flap"

в итоге номер pr выше.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5

 

Не аргументировано. У нас там стоял другой софт и обновились до рекомендованного JTAC, чтобы можно было им эту проблему сдать, т.к. поддержка имеется.

Аргументировал short :) ему спасибо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

PR695224 Resolved In 10.4R10 11.2R6 11.4R3 12.1R1

В 12.1R2.9 наша проблема присутствует.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я бы вообще ветку 12.X еще бы не использовал. Начните с 11.4 последнего релиза.

Будет повод сказать JTAC что попробовали вот такие-то софты вот с каждого RSI ( request support information).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Все-таки попробуйте 10.4R11, или 11.4R5, если есть возможность.

Это стабильные ветки, в них больше фиксов закомичено, чем в 12.1

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

http://kb.juniper.net/InfoCenter/index?page=content&id=KB21476&smlogin=true

LDP и iBGP у многих используется. Если бы оно у всех так флапало, то в приведенной ссылке JTAC не рекомендовал бы настоятельно использовать для MX серии 10.4R8.5.

Предположение, что никто, кто покупал MX80, не поднимал на нем MPLS мне кажется сомнительным. Прецеденты должны были бы быть.

 

А во-вторых, нужно разобраться с причиной, а не просто надеяться, что в более новом софте это будет работать. Если мы не узнаем почему проявляется проблема, то не сможем сказать починена она в новом софте или нет, т.е. не сможем с уверенностью сказать повторится оно снова или нет.

 

Поэтому смену софта без оснований считаю неконструктивной в данном вопросе. Вот найдут проблему, скажут что там то она починена, тогда поменяем.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Поэтому смену софта без оснований считаю неконструктивной в данном вопросе.

 

 

Предложение имеет экспериментальный смысл, никто не мешает потом откатиться и исследовать дальше.

Я не знаю какие у вас приоритеты. Кому-то интересно разобраться, другим важно починить сервис любой ценой, как можно быстрее.

Желание разобраться в причинах, конечно же, понятно.

 

 

Страничка с рекомендованными софтами JTAC давно не обновлялась для MX'ов.

Со времен 10.4R8 было исправлено несколько неприятных багов. Кстати, у вас не видно дропов в show pfe statistics traffic ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Кстати, у вас не видно дропов в show pfe statistics traffic ?

 

Тут дропы по нулям.

А вот в request pfe execute command " show ttp statistics" target tfeb0 | no-more

медленно растет счетчик Discard пакетов принимаемых PFE от RE.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Коллеги, а что у вас в конфиге, на котором у вас дискарды сыпятся?

У нас та же проблема. Смена софта не спасает.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В конфиге самый обычный iBGP и MPLS с LDP на dot1q сабинтерфейсе.

Кейс в JTAC открывали?

 

А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики?

 

 

Да работают десятками. И не только MPLS + LDP.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В конфиге самый обычный iBGP и MPLS с LDP на dot1q сабинтерфейсе.

Кейс в JTAC открывали?

 

А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики?

У меня работает :) все ок!

Изменено пользователем triam

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.