apetrov Posted October 12, 2007 Posted October 12, 2007 Сегодня около 12:00 резко и одновременно провалились РТ и ТТК, причем если РТ жопу и ее устранение признал, то ТТК всю дорогу клялся, что все шоколадно и мы сами себе злобно набуратинили. На подлете к 14:00 РТ починился и ТТК чудесным образом заработал тоже, причем с точностью до секунды, мы ничего не делали. Как выяснилось позже из рткоммовского спама у тех тоже примерно в это время были проблемы. РТ и ТТК за последнее время синхронно падают/восстанавливаются второй раз. Причем ситуации, когда одна нога падает, а вторая работает штатно и все ок за последнее время тоже были, причем последний раз этой ночью (т.е. есть вероятность, что не мы виноваты). Внимание вопрос. РТ и ТТК имеют что-то общее, вырубающее их одновременно? Если да, то очень любопытно что, если нет, то может ТТК прокомментирует, что было с их точки зрения (хотя бы в ЛС)? Если мы сами виноваты, то объясните тупым, где? Вставить ник Quote
MrBear Posted October 12, 2007 Posted October 12, 2007 Внимание вопрос. РТ и ТТК имеют что-то общее, вырубающее их одновременно? Если да, то очень любопытно что, если нет, то может ТТК прокомментирует, что было с их точки зрения (хотя бы в ЛС)? Сумма магистральных локалпрефов, морспецификов и ваших собственных препендов с анонсами по разным аплинкам может складываться в причудливые конфигурации, порой. :) Может в этом проблема? Вставить ник Quote
leiden Posted October 12, 2007 Posted October 12, 2007 Странно. Будем поисследовать. Вроде ничего общего у нас нет. Провал по трафику на вашем порту (но не до нуля) действительно имел место с 12 до 14. При этом с раутером все в порядке, потому что у соседей по нему ничего такого не наблюдалось. В том числе и у тех, кто проходит с этого-же раутера мимо вас дальше. Кстати - в связи с этим вопрос - РТ залег в 2 часа ночи? А во сколько восстановился - а то ин от вас пришел к стандартному значению только в 15. А до этого (не считая периода просадки) был существенно выше стандартного уровня. У вас какие-нибудь еще комментарии есть? Вставить ник Quote
leiden Posted October 12, 2007 Posted October 12, 2007 Так. Вы последнюю милю до нас делаете сами. При этом вроде как проблема после визита ваших специалистов на узел отнесена в вашу зону ответственности - т.е. ваши специалисты вроде подтвердили получение услуги в полном объеме на нашем порту (это из того, что я отсюда быстро могу увидеть). Т.е. проблема таки реально где-то у вас. Таким образом скорее всего - либо у вас с вашим транспортом что-то поплохело одновременно и в нашу сторону, и в сторону РТ, либо действительно какие-то чудеса с вашей маршрутизацией. В порядке эксперимента советую вырубить на некоторое время РТ (минут на 10) - вроде как порта к нам вам должно хватить. И посмотреть, что происходит. Вставить ник Quote
apetrov Posted October 12, 2007 Author Posted October 12, 2007 РТ в 2 часа ночи делал плановые работы, все отработало нормально. Наши специалисты действительно ходили на узел, но последнюю милю не трогали, они пускали пинги непосредственно с нашего пира на ваш и видели большие потери, которые пропали после восстановления РТ. За маршрутизацию я наших управлятелей маршрутизацией сурово пытал перед тем, как писать сюда, клянутся, что все у нас пучком. Косвенно в эту пользу говорит и то, что в ровно аналогичной ситуации в 2 часа ночи все прошло как надо, с другой стороны синхронность была уж очень одновременная. Может ли ТТК на 100% исключить свою причастность? Вставить ник Quote
MrBear Posted October 12, 2007 Posted October 12, 2007 РТ в 2 часа ночи делал плановые работы, все отработало нормально. Не зная Вашего местоположения, могу только предположить, что рыть надо все же в настройках BGP. Вставить ник Quote
apetrov Posted October 12, 2007 Author Posted October 12, 2007 MrBear, почему тогда пир пинговался с жуткими потерями? Как BGP мог повлиять на прямой линк без роутинга? C6504#sh clock 12:26:17.849 MSD Fri Oct 12 2007 C6504#ping Protocol [ip]: Target IP address: ххх.ххх.хх.ххх Repeat count [5]: 100 Datagram size [100]: Timeout in seconds [2]: Extended commands [n]: Sweep range of sizes [n]: Type escape sequence to abort. Sending 100, 100-byte ICMP Echos to ххх.ххх.хх.ххх, timeout is 2 seconds: !!!!!.!..!!.!!.!!!!....!!!!!!...!!!....!.!!..!!!!!..!!!!!!.!!..!!!!!.. ...!!!!!!!!!!.....!!!!.!!!!.!! Success rate is 64 percent (64/100), round-trip min/avg/max = 4/4/8 ms Вставить ник Quote
MrBear Posted October 12, 2007 Posted October 12, 2007 MrBear, почему тогда пир пинговался с жуткими потерями? Как BGP мог повлиять на прямой линк без роутинга? Например, нехваткой памяти у рутера. Или подземным стуком и космическими голосами. :) Странно искать здесь точных ответов, практически не давая исходной информации. Но сама предпосылка о "слиянии" ТТК и РТ в экстазе выглядит наиболее малореально. :) Вставить ник Quote
apetrov Posted October 12, 2007 Author Posted October 12, 2007 Памяти и процессорного свободного времени у роутера более чем достаточно. Слышу космические голоса и произвожу подземный стук в нашей конторе только я и я был в это время далеко от роутера :). Насчет точных ответов, их от вас в общем то не требуют, более менее точные ответы ожидаются в основном от ТТК (ведь здесь в последнее время образовался их форум техподдержки :) ), а они данных имеют достаточно. Вы же изволили упомянуть про причуды BGP, я и поинтересовался, как эти причуды могли хотя бы теоретически затронуть пир. P.S.: я не бычу, мне просто интересно, что это могло быть. Вставить ник Quote
leiden Posted October 12, 2007 Posted October 12, 2007 На 100% что-либо гарантировать не может никто. но подчеркиваю: проблем канального уровня на участке от PE до порта на мультиплексоре в городе не было, потому что все остальные клиенты по вашему направлению (в том числе и в вашем городе) проблем не испытывали проблем уровня IP на PE, который смотрит в вашу сторону не было, потому что все остальные клиенты на этом PE проблем не испытывали поэтому это либо проблема на карте мультиплексора, либо где-то у вас. но поскольку карта мультиплексора штука тупая и не умеет глючить и потом беспроблемно восстанавливаться, да и к тому-же вы заявляете о синхронности проблем с другим аплинком - я таки склонен сделать вывод, что проблемы на вашей стороне Кстати, рекомендую поисследовать свои соединения с вашими соседями. На период падения трафика от вас - входящий трафик от них прыгнул вдвое. Вставить ник Quote
MrBear Posted October 12, 2007 Posted October 12, 2007 Кстати, рекомендую поисследовать свои соединения с вашими соседями. На период падения трафика от вас - входящий трафик от них прыгнул вдвое. :)))) Вот и BGP в причине потери пакетов на пире просматривается - в отсутствие "no export" все пошло через него, вероятно. Вставить ник Quote
UglyAdmin Posted October 12, 2007 Posted October 12, 2007 Кстати, у РТ довольно своеобразно сделана сеть и если у Вас с ними больше 1 сессии BGP, то придётся рулить руками. :( Вставить ник Quote
MrBear Posted October 12, 2007 Posted October 12, 2007 Кстати, у РТ довольно своеобразно сделана сеть и если у Вас с ними больше 1 сессии BGP, то придётся рулить руками. :( Комьюнити они скоро сделают - обещали в конце октября оттестироваться и открыться. Вставить ник Quote
UglyAdmin Posted October 12, 2007 Posted October 12, 2007 (edited) Да COMMUNITY они ещё весной обещали. Но я не о том. Например, у нас 2 сессии BGP с ними - одна маленькая, с ближайшим рутером, другая полная - с центральным. Падает обычно сессия с центральным, но наши сети всё равно анонсятся в мир через них, хоть трафик и не идёт. Приходится рубить руками. :( Edited October 12, 2007 by UglyAdmin Вставить ник Quote
MrBear Posted October 12, 2007 Posted October 12, 2007 Да COMMUNITY они ещё весной обещали. This is SPARTA, ***! :) Уж если они крупнейшие на регион заказы по месяцу подписывают... Например, у нас 2 сессии BGP с ними - одна маленькая, с ближайшим рутером, другая полная - с центральным. Падает обычно сессия с центральным, но наши сети всё равно анонсятся в мир через них, хоть трафик и не идёт. Приходится рубить руками. :( Господа, каждый оператор знает, что подавляющее большинство проблем у клиентов порождают сами клиенты. Так вот, магистралы, это тоже операторы. :) Вы бы хоть объяснили, зачем так причудливо? Вставить ник Quote
UglyAdmin Posted October 12, 2007 Posted October 12, 2007 Ближайший слабоват и FullView не держит, поэтому анонсит нам маршрут на центральный, а мы ему - свои префиксы... Вставить ник Quote
leiden Posted October 12, 2007 Posted October 12, 2007 ЕПОНА МАМА!!! На чем-же РТ построил свою мегапупер сеть, что у МАГИСТРАЛА! PE не держит фулвью... Магистрал, однака... Вставить ник Quote
UglyAdmin Posted October 12, 2007 Posted October 12, 2007 Да ладно, болезни роста. У Вас тоже скелетов в шкафу хватает... Вставить ник Quote
wk3urg Posted October 12, 2007 Posted October 12, 2007 Кое-где таки похоже имеют ;) Было пару месяцев назад РТ и ТТК в Калининграде упали синхронно, списали на финских экскаваторщиков. Не иначе как таскают трафик по петле через msk/spb (оба через один кабель в конце концов). Вставить ник Quote
apetrov Posted October 12, 2007 Author Posted October 12, 2007 Кстати, рекомендую поисследовать свои соединения с вашими соседями. На период падения трафика от вас - входящий трафик от них прыгнул вдвое.:)))) Вот и BGP в причине потери пакетов на пире просматривается - в отсутствие "no export" все пошло через него, вероятно. Снова мимо. У нас нет BGP с соседями. Даже если бы и было, то не может при пинговании пира напрямую с интерфейса пинг зароутиться накривую, там все гвоздями приколочено. Удвоение трафика соседей связано не с нами, это нам видно. Если бы наше потекло через них, то у них была бы катастрофа, слишком разные масштабы. leiden, нельзя ли в приват получить координаты какого-нибудь технаря, который в ответ на наше обращение о падении BGP сессии не будет говорить, что у вас все нормально и ничего проблемного не видно, а сможет оперативно посмотреть, почему она упала? А то от суппорта ничего добиться как правило не удается, в лучшем случае заводят траблтикет. Вставить ник Quote
p2d Posted October 12, 2007 Posted October 12, 2007 Да COMMUNITY они ещё весной обещали.Но я не о том. Например, у нас 2 сессии BGP с ними - одна маленькая, с ближайшим рутером, другая полная - с центральным. Падает обычно сессия с центральным, но наши сети всё равно анонсятся в мир через них, хоть трафик и не идёт. Приходится рубить руками. :( Аналогично. Правда для нас уже это не имеет занчения.ЗЫ Централизованная модель, плюс шаблонное решение, или же сказывается нехватка каких-либо ресурсов. Вставить ник Quote
Cr_net Posted October 13, 2007 Posted October 13, 2007 ЕПОНА МАМА!!! На чем-же РТ построил свою мегапупер сеть, что у МАГИСТРАЛА! PE не держит фулвью...Магистрал, однака... Он её ещё не построил. Там ремонт того что было и параллельно стройка, что как известно хуже пожара. Во многих местах стоят не так давно поставленные 7206. Отсюда и две бгп сессии.leiden они этот бардак вполне успешно компенсируют действиями продавцов, не гнушаются лично наведываться. Вставить ник Quote
Cr_net Posted October 13, 2007 Posted October 13, 2007 Да COMMUNITY они ещё весной обещали.Но я не о том. Например, у нас 2 сессии BGP с ними - одна маленькая, с ближайшим рутером, другая полная - с центральным. Падает обычно сессия с центральным, но наши сети всё равно анонсятся в мир через них, хоть трафик и не идёт. Приходится рубить руками. :( А на ближайший аннонсить только префикс своего лупбека с которого бгп сессия с дальним, не поможет? Вставить ник Quote
wk3urg Posted October 13, 2007 Posted October 13, 2007 хуже того, они на региональных как выяснилось не фильтруют клиентов, а потом так искренне удивляются когда один криворукий клиент соседа положил "никогда не фильтровали и не имели проблем". при этом поскольку в мир анонсируется с "дальнего" - на внешних LG этого совершенно не видно, BGP стоит - трафика нет... Вставить ник Quote
Sonne Posted October 13, 2007 Posted October 13, 2007 Из объяснительной записки: "Мы забивали кувалдой маршрутизатор в стойку. Внезапно одновременно отвалились все аплинки и прервалась связь. Наиболее вероятной причиной возникновения проблемы считаем тайное слияние сети ТТК и РТ на всей территории РФ с последующим случайным сбоем в физическом канале этой объеденненой сети. Просим решить вопрос с этим недружественным актом на самом высоком уровне, разобраться и наказать техперсонал обоих операторов" Подпись: мудрые, честные и высокопрофессиональные админы 3-го кувалдно-монтажного цеха сыктывкарского леспромхоза номер пять. Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.