Bambuk Опубликовано 9 сентября, 2012 · Жалоба Поставили новый MX80 в сеть, настроили, пустили трафик.. и тут в ЧНН начали наблюдаться флапы ibgp и ldp. Начали дебажить. Сессии отваливаются по таймауту. Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит. И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше. Выглядит это вот так: Filter: signalling_count_out-lo0.0-o Counters: Name Bytes Packets bgp_to_4-lo0.0-o 2339302 27985 bgp_to_5-lo0.0-o 1705092 23981 bgp_to_6-lo0.0-o 2645249 21054 ldp_to_4-lo0.0-o 55790 1154 ldp_to_5-lo0.0-o 55554 1149 ldp_to_6-lo0.0-o 54686 1130 Filter: signalling_count_out-xe-0/0/1.500-o Counters: Name Bytes Packets bgp_to_4-xe-0/0/1.500-o 2325926 27900 bgp_to_5-xe-0/0/1.500-o 1698009 23923 bgp_to_6-xe-0/0/1.500-o 2645249 21054 ldp_to_4-xe-0/0/1.500-o 54682 1129 ldp_to_5-xe-0/0/1.500-o 54846 1134 ldp_to_6-xe-0/0/1.500-o 54686 1130 Т.е. пакеты погибают где-то внутри MX. Причем во входящем направлении никаких потерь нет, все что пришло, доходит до lo0. Увели с коробки трафик, поставили рекомендованный 10.4R8.5, настроили control plane firewall. Дропы сигнального трафика продолжаются. Кто-нибудь сталкивался с подобным на MX80? Any ideas? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
s.lobanov Опубликовано 9 сентября, 2012 · Жалоба а что ещё идёт на cpu? arp/igmp много трафика он обрабатывает? по snmp его не сильно мучаете? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
triam Опубликовано 10 сентября, 2012 · Жалоба Проверьте загрузку цпу. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 10 сентября, 2012 · Жалоба Загрузка CPU близка к нулю. root@MX80-1> show chassis routing-engine Routing Engine status: Temperature 36 degrees C / 96 degrees F CPU temperature 49 degrees C / 120 degrees F DRAM 2048 MB Memory utilization 43 percent CPU utilization: User 1 percent Background 0 percent Kernel 1 percent Interrupt 1 percent Idle 97 percent Model RE-MX80 Start time 2012-09-07 22:00:43 MSD Uptime 2 days, 12 hours, 17 minutes, 20 seconds Last reboot reason Router rebooted after a normal shutdown. Load averages: 1 minute 5 minute 15 minute 0.00 0.00 0.00 Вот статистика за сутки по control plane: Filter: control-plane Counters: Name Bytes Packets bgp-accept 18245973 143242 default-discard 0 0 dns 0 0 icmp-accept 112 2 ldp-accept 3396348 56299 normal-fragment-accept 0 0 ntp 11400 150 ospf-accept 3511532 42698 overlay-fragment-discard 0 0 snmp-accept 2589231 21661 ssh-in 96520 1509 tacacs 92058 1448 tcp-control-accept 652 13 telnet 0 0 tiny-initial-fragment-discard 0 0 Policers: Name Bytes Packets icmp-icmp 0 0 small-bw-dns 0 0 small-bw-everything-else 0 0 small-bw-ntp 0 0 small-bw-snmp 0 0 small-bw-tacacs 0 0 telnet-telnet 0 0 Тут даже в default-discard ничего не попало, т.к. кроме мониторинга и ssh на коробку ходит только сигнальный трафик bgp, ldp, ospf. Проблемы начинаются когда увеличивается динамика апдейтов в bgp.l3vpn. Это не повод дропать пакеты. Ни на cisco, ни на huawei никогда такого не наблюдалось. Кроме того, если бы что-то долбило по control plane, то должны были быть дропы во входящем направлении, т.к. прежде чем что-то послать назад, оно должно было дойти до cpu. Но во входящем направлении дропов нет, есть только в исходящем. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
triam Опубликовано 10 сентября, 2012 · Жалоба А каких-нибудь странных сообщений в логах нет? show system core-dump ? sh log messages | match pfe Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Andrey1984 Опубликовано 10 сентября, 2012 · Жалоба А загрузку cpu то рисуете? А то она ноль, ноль а потом бац - 100%, и опять нули. Особенно при включеном семплинге и перезаливке full-view обычно на минуту-две видим 100% загрузку проца. Может у вас что-то похожее? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nnm Опубликовано 10 сентября, 2012 (изменено) · Жалоба Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит. И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше. Так может быть если у маршрутизатора нет ARP-записи для destination. RE пакет отдает а PFE не знает, куда его слать. IGP какой? Не разваливается? Filter: signalling_count_out-lo0.0-o Counters: Name Bytes Packets bgp_to_4-lo0.0-o 2339302 27985 bgp_to_5-lo0.0-o 1705092 23981 bgp_to_6-lo0.0-o 2645249 21054 ldp_to_4-lo0.0-o 55790 1154 ldp_to_5-lo0.0-o 55554 1149 ldp_to_6-lo0.0-o 54686 1130 Это три разных пира, с которыми общаемся через xe? Они directly connected или нет? Изменено 10 сентября, 2012 пользователем nnm Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 10 сентября, 2012 · Жалоба А загрузку cpu то рисуете? А то она ноль, ноль а потом бац - 100%, и опять нули. Особенно при включеном семплинге и перезаливке full-view обычно на минуту-две видим 100% загрузку проца. Может у вас что-то похожее? Рисуем. Все ровно. Выше 13% пока еще не подскакивала. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 10 сентября, 2012 · Жалоба Привесили на MX80 firewall со счетчиками по интересующему трафику на lo0 и на xe, через который все в сеть ходит. И часов с 3 дня стабильно начинает расти разница между тем что ушло с lo0 и тем, что прошло через xe дальше. Так может быть если у маршрутизатора нет ARP-записи для destination. RE пакет отдает а PFE не знает, куда его слать. IGP какой? Не разваливается? Filter: signalling_count_out-lo0.0-o Counters: Name Bytes Packets bgp_to_4-lo0.0-o 2339302 27985 bgp_to_5-lo0.0-o 1705092 23981 bgp_to_6-lo0.0-o 2645249 21054 ldp_to_4-lo0.0-o 55790 1154 ldp_to_5-lo0.0-o 55554 1149 ldp_to_6-lo0.0-o 54686 1130 Это три разных пира, с которыми общаемся через xe? Они directly connected или нет? Три пира directly connected через xe-0/0/1.500. igp ospf. Он, что интересно, не отваливался ни разу. На хе-0/0/0 есть еще несколько сабинтерфейсов с ebgp, там тоже ничего не отваливалось ни разу. А вот ibgp и ldp с сорсом lo0.0 через xe-0/0/1.500 флапают. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
triam Опубликовано 10 сентября, 2012 · Жалоба Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nnm Опубликовано 10 сентября, 2012 · Жалоба Три пира directly connected через xe-0/0/1.500. igp ospf. Он, что интересно, не отваливался ни разу. OSPF использует multicast-пакеты. Т.е. если в Ethernet-сегменте проблема с доставкой unicast пакетов (косо встали MAC в коммуторах) или сломался ARP, то он это может и не заметить. BGP, LDP - unicast. Судя по тому, что Вы написали в первом письме, счетчики для маршрутизатора номер 6 совпадают. ldp_to_6-lo0.0-o 54686 1130 ldp_to_6-xe-0/0/1.500-o 54686 1130 Т.е. потери проявляется для двух пиров из трех? Тогда мне кажется, что скорее всего проблема где-то в Ethernet-сегменте, подключенном к xe-0/0/1.500. Но на всякий случай неплохо было-бы проверить возраст маршрутов от MX80 на loopback всех трех подключенных устройств и в обратном направлении от них на loopback MX. Если OSPF не дергается, то они по идее должны быть стабильными. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 10 сентября, 2012 (изменено) · Жалоба Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5 Не аргументировано. У нас там стоял другой софт и обновились до рекомендованного JTAC, чтобы можно было им эту проблему сдать, т.к. поддержка имеется. Изменено 10 сентября, 2012 пользователем Bambuk Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 10 сентября, 2012 · Жалоба Три пира directly connected через xe-0/0/1.500. igp ospf. Он, что интересно, не отваливался ни разу. OSPF использует multicast-пакеты. Т.е. если в Ethernet-сегменте проблема с доставкой unicast пакетов (косо встали MAC в коммуторах) или сломался ARP, то он это может и не заметить. BGP, LDP - unicast. Судя по тому, что Вы написали в первом письме, счетчики для маршрутизатора номер 6 совпадают. ldp_to_6-lo0.0-o 54686 1130 ldp_to_6-xe-0/0/1.500-o 54686 1130 Т.е. потери проявляется для двух пиров из трех? Тогда мне кажется, что скорее всего проблема где-то в Ethernet-сегменте, подключенном к xe-0/0/1.500. Но на всякий случай неплохо было-бы проверить возраст маршрутов от MX80 на loopback всех трех подключенных устройств и в обратном направлении от них на loopback MX. Если OSPF не дергается, то они по идее должны быть стабильными. 3 и 4 пиры - ASR1000, 6 - 7201. один из ASR и 7201 включены в соседние порты того же коммутатора, в который включен MX. между собой у цисок ничего не отваливается, ни ldp, ни ibgp(специально настроил фуллмеш для проверки). т.е. коммутатор тут ни при чем. на xe-0/0/1.500 повесил отдельный полисер для arp, чтоб быть уверенным в том что оно не попало в общий полисер. проблемы все равно продолжаются. arp вроде на месте. как включить его отладку на MX я что-то пока не нашел. сдали проблему в JTAC. посмотрим что они скажут. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
short Опубликовано 10 сентября, 2012 · Жалоба PR695224 , не? когда знакомые сдавали кейс, симптомы такие же сначала приводили.. "LDP OSPF BGP flap" в итоге номер pr выше. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
triam Опубликовано 11 сентября, 2012 · Жалоба Пробуйте обновиться до 10.4R11.4 либо до 11.4R5.5 Не аргументировано. У нас там стоял другой софт и обновились до рекомендованного JTAC, чтобы можно было им эту проблему сдать, т.к. поддержка имеется. Аргументировал short :) ему спасибо. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 11 сентября, 2012 · Жалоба PR695224 Resolved In 10.4R10 11.2R6 11.4R3 12.1R1 В 12.1R2.9 наша проблема присутствует. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
triam Опубликовано 12 сентября, 2012 · Жалоба Я бы вообще ветку 12.X еще бы не использовал. Начните с 11.4 последнего релиза. Будет повод сказать JTAC что попробовали вот такие-то софты вот с каждого RSI ( request support information). Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tima Опубликовано 12 сентября, 2012 · Жалоба Все-таки попробуйте 10.4R11, или 11.4R5, если есть возможность. Это стабильные ветки, в них больше фиксов закомичено, чем в 12.1 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 12 сентября, 2012 · Жалоба http://kb.juniper.net/InfoCenter/index?page=content&id=KB21476&smlogin=true LDP и iBGP у многих используется. Если бы оно у всех так флапало, то в приведенной ссылке JTAC не рекомендовал бы настоятельно использовать для MX серии 10.4R8.5. Предположение, что никто, кто покупал MX80, не поднимал на нем MPLS мне кажется сомнительным. Прецеденты должны были бы быть. А во-вторых, нужно разобраться с причиной, а не просто надеяться, что в более новом софте это будет работать. Если мы не узнаем почему проявляется проблема, то не сможем сказать починена она в новом софте или нет, т.е. не сможем с уверенностью сказать повторится оно снова или нет. Поэтому смену софта без оснований считаю неконструктивной в данном вопросе. Вот найдут проблему, скажут что там то она починена, тогда поменяем. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tima Опубликовано 12 сентября, 2012 · Жалоба Поэтому смену софта без оснований считаю неконструктивной в данном вопросе. Предложение имеет экспериментальный смысл, никто не мешает потом откатиться и исследовать дальше. Я не знаю какие у вас приоритеты. Кому-то интересно разобраться, другим важно починить сервис любой ценой, как можно быстрее. Желание разобраться в причинах, конечно же, понятно. Страничка с рекомендованными софтами JTAC давно не обновлялась для MX'ов. Со времен 10.4R8 было исправлено несколько неприятных багов. Кстати, у вас не видно дропов в show pfe statistics traffic ? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 12 сентября, 2012 · Жалоба Кстати, у вас не видно дропов в show pfe statistics traffic ? Тут дропы по нулям. А вот в request pfe execute command " show ttp statistics" target tfeb0 | no-more медленно растет счетчик Discard пакетов принимаемых PFE от RE. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
k109x Опубликовано 12 сентября, 2012 · Жалоба Коллеги, а что у вас в конфиге, на котором у вас дискарды сыпятся? У нас та же проблема. Смена софта не спасает. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Bambuk Опубликовано 12 сентября, 2012 · Жалоба В конфиге самый обычный iBGP и MPLS с LDP на dot1q сабинтерфейсе. Кейс в JTAC открывали? А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tima Опубликовано 12 сентября, 2012 · Жалоба А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики? Да работают десятками. И не только MPLS + LDP. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
triam Опубликовано 13 сентября, 2012 (изменено) · Жалоба В конфиге самый обычный iBGP и MPLS с LDP на dot1q сабинтерфейсе. Кейс в JTAC открывали? А у кого-нибудь вообще нормально работает на MX80 MPLS+LDP? Есть тут такие счастливчики? У меня работает :) все ок! Изменено 13 сентября, 2012 пользователем triam Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...