Bambuk Posted September 9, 2012 Поставили новый MX80 в сеть, настроили, пустили трафик.. и тут в ЧНН начали наблюдаться флапы ibgp и ldp. Начали дебажить. Сессии отваливаются по таймауту. Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит. И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше. Выглядит это вот так: Filter: signalling_count_out-lo0.0-o Counters: Name Bytes Packets bgp_to_4-lo0.0-o 2339302 27985 bgp_to_5-lo0.0-o 1705092 23981 bgp_to_6-lo0.0-o 2645249 21054 ldp_to_4-lo0.0-o 55790 1154 ldp_to_5-lo0.0-o 55554 1149 ldp_to_6-lo0.0-o 54686 1130 Filter: signalling_count_out-xe-0/0/1.500-o Counters: Name Bytes Packets bgp_to_4-xe-0/0/1.500-o 2325926 27900 bgp_to_5-xe-0/0/1.500-o 1698009 23923 bgp_to_6-xe-0/0/1.500-o 2645249 21054 ldp_to_4-xe-0/0/1.500-o 54682 1129 ldp_to_5-xe-0/0/1.500-o 54846 1134 ldp_to_6-xe-0/0/1.500-o 54686 1130 Т.е. пакеты погибают где-то внутри MX. Причем во входящем направлении никаких потерь нет, все что пришло, доходит до lo0. Увели с коробки трафик, поставили рекомендованный 10.4R8.5, настроили control plane firewall. Дропы сигнального трафика продолжаются. Кто-нибудь сталкивался с подобным на MX80? Any ideas? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
s.lobanov Posted September 9, 2012 а что ещё идёт на cpu? arp/igmp много трафика он обрабатывает? по snmp его не сильно мучаете? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
triam Posted September 10, 2012 Проверьте загрузку цпу. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 10, 2012 Загрузка CPU близка к нулю. root@MX80-1> show chassis routing-engine Routing Engine status: Temperature 36 degrees C / 96 degrees F CPU temperature 49 degrees C / 120 degrees F DRAM 2048 MB Memory utilization 43 percent CPU utilization: User 1 percent Background 0 percent Kernel 1 percent Interrupt 1 percent Idle 97 percent Model RE-MX80 Start time 2012-09-07 22:00:43 MSD Uptime 2 days, 12 hours, 17 minutes, 20 seconds Last reboot reason Router rebooted after a normal shutdown. Load averages: 1 minute 5 minute 15 minute 0.00 0.00 0.00 Вот статистика за сутки по control plane: Filter: control-plane Counters: Name Bytes Packets bgp-accept 18245973 143242 default-discard 0 0 dns 0 0 icmp-accept 112 2 ldp-accept 3396348 56299 normal-fragment-accept 0 0 ntp 11400 150 ospf-accept 3511532 42698 overlay-fragment-discard 0 0 snmp-accept 2589231 21661 ssh-in 96520 1509 tacacs 92058 1448 tcp-control-accept 652 13 telnet 0 0 tiny-initial-fragment-discard 0 0 Policers: Name Bytes Packets icmp-icmp 0 0 small-bw-dns 0 0 small-bw-everything-else 0 0 small-bw-ntp 0 0 small-bw-snmp 0 0 small-bw-tacacs 0 0 telnet-telnet 0 0 Тут даже в default-discard ничего не попало, т.к. кроме мониторинга и ssh на коробку ходит только сигнальный трафик bgp, ldp, ospf. Проблемы начинаются когда увеличивается динамика апдейтов в bgp.l3vpn. Это не повод дропать пакеты. Ни на cisco, ни на huawei никогда такого не наблюдалось. Кроме того, если бы что-то долбило по control plane, то должны были быть дропы во входящем направлении, т.к. прежде чем что-то послать назад, оно должно было дойти до cpu. Но во входящем направлении дропов нет, есть только в исходящем. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
triam Posted September 10, 2012 А каких-нибудь странных сообщений в логах нет? show system core-dump ? sh log messages | match pfe Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Andrey1984 Posted September 10, 2012 А загрузку cpu то рисуете? А то она ноль, ноль а потом бац - 100%, и опять нули. Особенно при включеном семплинге и перезаливке full-view обычно на минуту-две видим 100% загрузку проца. Может у вас что-то похожее? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nnm Posted September 10, 2012 (edited) Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит. И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше. Так может быть если у маршрутизатора нет ARP-записи для destination. RE пакет отдает а PFE не знает, куда его слать. IGP какой? Не разваливается? Filter: signalling_count_out-lo0.0-o Counters: Name Bytes Packets bgp_to_4-lo0.0-o 2339302 27985 bgp_to_5-lo0.0-o 1705092 23981 bgp_to_6-lo0.0-o 2645249 21054 ldp_to_4-lo0.0-o 55790 1154 ldp_to_5-lo0.0-o 55554 1149 ldp_to_6-lo0.0-o 54686 1130 Это три разных пира, с которыми общаемся через xe? Они directly connected или нет? Edited September 10, 2012 by nnm Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 10, 2012 А загрузку cpu то рисуете? А то она ноль, ноль а потом бац - 100%, и опять нули. Особенно при включеном семплинге и перезаливке full-view обычно на минуту-две видим 100% загрузку проца. Может у вас что-то похожее? Рисуем. Все ровно. Выше 13% пока еще не подскакивала. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 10, 2012 Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит. И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше. Так может быть если у маршрутизатора нет ARP-записи для destination. RE пакет отдает а PFE не знает, куда его слать. IGP какой? Не разваливается? Filter: signalling_count_out-lo0.0-o Counters: Name Bytes Packets bgp_to_4-lo0.0-o 2339302 27985 bgp_to_5-lo0.0-o 1705092 23981 bgp_to_6-lo0.0-o 2645249 21054 ldp_to_4-lo0.0-o 55790 1154 ldp_to_5-lo0.0-o 55554 1149 ldp_to_6-lo0.0-o 54686 1130 Это три разных пира, с которыми общаемся через xe? Они directly connected или нет? Три пира directly connected через xe-0/0/1.500. igp ospf. Он, что интересно, не отваливался ни разу. На хе-0/0/0 есть еще несколько сабинтерфейсов с ebgp, там тоже ничего не отваливалось ни разу. А вот ibgp и ldp с сорсом lo0.0 через xe-0/0/1.500 флапают. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
triam Posted September 10, 2012 Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nnm Posted September 10, 2012 Три пира directly connected через xe-0/0/1.500. igp ospf. Он, что интересно, не отваливался ни разу. OSPF использует multicast-пакеты. Т.е. если в Ethernet-сегменте проблема с доставкой unicast пакетов (косо встали MAC в коммуторах) или сломался ARP, то он это может и не заметить. BGP, LDP - unicast. Судя по тому, что Вы написали в первом письме, счетчики для маршрутизатора номер 6 совпадают. ldp_to_6-lo0.0-o 54686 1130 ldp_to_6-xe-0/0/1.500-o 54686 1130 Т.е. потери проявляется для двух пиров из трех? Тогда мне кажется, что скорее всего проблема где-то в Ethernet-сегменте, подключенном к xe-0/0/1.500. Но на всякий случай неплохо было-бы проверить возраст маршрутов от MX80 на loopback всех трех подключенных устройств и в обратном направлении от них на loopback MX. Если OSPF не дергается, то они по идее должны быть стабильными. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 10, 2012 (edited) Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5 Не аргументировано. У нас там стоял другой софт и обновились до рекомендованного JTAC, чтобы можно было им эту проблему сдать, т.к. поддержка имеется. Edited September 10, 2012 by Bambuk Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 10, 2012 Три пира directly connected через xe-0/0/1.500. igp ospf. Он, что интересно, не отваливался ни разу. OSPF использует multicast-пакеты. Т.е. если в Ethernet-сегменте проблема с доставкой unicast пакетов (косо встали MAC в коммуторах) или сломался ARP, то он это может и не заметить. BGP, LDP - unicast. Судя по тому, что Вы написали в первом письме, счетчики для маршрутизатора номер 6 совпадают. ldp_to_6-lo0.0-o 54686 1130 ldp_to_6-xe-0/0/1.500-o 54686 1130 Т.е. потери проявляется для двух пиров из трех? Тогда мне кажется, что скорее всего проблема где-то в Ethernet-сегменте, подключенном к xe-0/0/1.500. Но на всякий случай неплохо было-бы проверить возраст маршрутов от MX80 на loopback всех трех подключенных устройств и в обратном направлении от них на loopback MX. Если OSPF не дергается, то они по идее должны быть стабильными. 3 и 4 пиры - ASR1000, 6 - 7201. один из ASR и 7201 включены в соседние порты того же коммутатора, в который включен MX. между собой у цисок ничего не отваливается, ни ldp, ни ibgp(специально настроил фуллмеш для проверки). т.е. коммутатор тут ни при чем. на xe-0/0/1.500 повесил отдельный полисер для arp, чтоб быть уверенным в том что оно не попало в общий полисер. проблемы все равно продолжаются. arp вроде на месте. как включить его отладку на MX я что-то пока не нашел. сдали проблему в JTAC. посмотрим что они скажут. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
short Posted September 10, 2012 PR695224 , не? когда знакомые сдавали кейс, симптомы такие же сначала приводили.. "LDP OSPF BGP flap" в итоге номер pr выше. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
triam Posted September 11, 2012 Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5 Не аргументировано. У нас там стоял другой софт и обновились до рекомендованного JTAC, чтобы можно было им эту проблему сдать, т.к. поддержка имеется. Аргументировал short :) ему спасибо. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 11, 2012 PR695224 Resolved In 10.4R10 11.2R6 11.4R3 12.1R1 В 12.1R2.9 наша проблема присутствует. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
triam Posted September 12, 2012 Я бы вообще ветку 12.X еще бы не использовал. Начните с 11.4 последнего релиза. Будет повод сказать JTAC что попробовали вот такие-то софты вот с каждого RSI ( request support information). Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Tima Posted September 12, 2012 Все-таки попробуйте 10.4R11, или 11.4R5, если есть возможность. Это стабильные ветки, в них больше фиксов закомичено, чем в 12.1 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 12, 2012 http://kb.juniper.net/InfoCenter/index?page=content&id=KB21476&smlogin=true LDP и iBGP у многих используется. Если бы оно у всех так флапало, то в приведенной ссылке JTAC не рекомендовал бы настоятельно использовать для MX серии 10.4R8.5. Предположение, что никто, кто покупал MX80, не поднимал на нем MPLS мне кажется сомнительным. Прецеденты должны были бы быть. А во-вторых, нужно разобраться с причиной, а не просто надеяться, что в более новом софте это будет работать. Если мы не узнаем почему проявляется проблема, то не сможем сказать починена она в новом софте или нет, т.е. не сможем с уверенностью сказать повторится оно снова или нет. Поэтому смену софта без оснований считаю неконструктивной в данном вопросе. Вот найдут проблему, скажут что там то она починена, тогда поменяем. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Tima Posted September 12, 2012 Поэтому смену софта без оснований считаю неконструктивной в данном вопросе. Предложение имеет экспериментальный смысл, никто не мешает потом откатиться и исследовать дальше. Я не знаю какие у вас приоритеты. Кому-то интересно разобраться, другим важно починить сервис любой ценой, как можно быстрее. Желание разобраться в причинах, конечно же, понятно. Страничка с рекомендованными софтами JTAC давно не обновлялась для MX'ов. Со времен 10.4R8 было исправлено несколько неприятных багов. Кстати, у вас не видно дропов в show pfe statistics traffic ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 12, 2012 Кстати, у вас не видно дропов в show pfe statistics traffic ? Тут дропы по нулям. А вот в request pfe execute command " show ttp statistics" target tfeb0 | no-more медленно растет счетчик Discard пакетов принимаемых PFE от RE. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
k109x Posted September 12, 2012 Коллеги, а что у вас в конфиге, на котором у вас дискарды сыпятся? У нас та же проблема. Смена софта не спасает. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Bambuk Posted September 12, 2012 В конфиге самый обычный iBGP и MPLS с LDP на dot1q сабинтерфейсе. Кейс в JTAC открывали? А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Tima Posted September 12, 2012 А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики? Да работают десятками. И не только MPLS + LDP. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
triam Posted September 13, 2012 (edited) В конфиге самый обычный iBGP и MPLS с LDP на dot1q сабинтерфейсе. Кейс в JTAC открывали? А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики? У меня работает :) все ок! Edited September 13, 2012 by triam Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...