Перейти к содержимому
Калькуляторы

XYZ упал А написать некуда!!!

Вопрос с фильтрацией транзитн. трафика вроде закрылся, за что спс. технарям ТТК.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Напишу для разнообразия о хорошем, после нескольких лет отсутствия снова замечены маршруты по RETN в Азии, на этот раз видим входящий трафик от NTT в Гонконге. #XYZподнялся
 

2017-10-06T071018Z-retn-hk.png

 

Изменено пользователем rm_

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 10/6/2017 в 10:14, rm_ сказал:

после нескольких лет отсутствия снова замечены маршруты по RETN в Азии, на этот раз видим входящий трафик от NTT в Гонконге

Спасибо на добром слове. Но правильнее было бы сказать не "снова", а "впервые". Пока не было короткого маршрута в Гонконг - не имело смысла поднимать там стык с NTT

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
34 минуты назад, TheUser сказал:

А что с Гуглом случилось?

Ломался, но починился. Пинги подросли до 600-800мс, потом медленно в норму пришли.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
5 часов назад, TheUser сказал:

W-IX радует своими постоянными падениями.

 

w-ix-govno_2017-10-16.png

 

Аварий на сети не было в этот период. Это график не строился по причине, что были проблемы на сервере статистики.

 

Хоть один провайдер, наш клиент, пусть сюда напишет, у кого были проблемы в этот период.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

а что с мобильным инетом у мегафона никто не вкурса?

на точке жалуются что веб жестко тупит а впн норм пашет. с пятницы.

у себя глянул на телефоне - да - веб лагает. пинги норм.

урфо

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
30 минут назад, karpa13a сказал:

а что с мобильным инетом у мегафона никто не вкурса?

на точке жалуются что веб жестко тупит а впн норм пашет. с пятницы.

у себя глянул на телефоне - да - веб лагает. пинги норм.

урфо

В ПФО и  МСК  все нормально работает.

Если завтра так же будет в личку отпишитесь поговорю с инженером на коре.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Мегафон: починили? В СПб в понедельник стало гораздо лучше.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 час назад, gsn74 сказал:

W-IX, УРФО, все норм?? Не падает??

Были проблемы в течении часа с одним из крупных участников. Шел паразитный трафик, сейчас сеть работает в штатном режиме.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
10 часов назад, Black_Dragon сказал:

Были проблемы в течении часа с одним из крупных участников. Шел паразитный трафик, сейчас сеть работает в штатном режиме.

А можно технические подробности что за трафик?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

ДЦ OVH Strasbourg упал, отказ сразу двух линий подачи электроэнергии, + отказ половины генераторов при попытке их запуска.

В процессе восстановления каким-то неведомым образом умудрились заодно целиком уронить и ДЦ в Roubaix, и по сообщениям юзеров, частично Gravelines.

Суммарно более 500 тысяч выделенных серверов.

Поскольку статус-страница хостилась в Roubaix, подробной информации о том что сейчас происходит больше нет.

https://twitter.com/olesovhcom

Изменено пользователем rm_

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Цитата

We have a general optical issue on all our optical network in Europe: all chassis in all POP shutdown all the links 100G simultaneous (!!). RBX SBG GRA LIM ERI are down. P19 WAW BHS are UP.

Весело. 5 датацентров в дауне. Кто-то нашёл NSA бэкдор для третьей мировой?)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

rm_ ждём сообщений от Сноудена или в очередной раз про Russian Hackers)

сорри за оффтоп

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ну круто мля. У меня там вся инфраструктура болталась. Весь их IaaS превратился в тыкву.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Цитата

 

Hello,
Two pieces of information,

This morning we had 2 separate incidents that have nothing to do with each other. The first incident impacted our Strasbourg site (SBG) and the 2nd Roubaix (RBX). In SBG we have 3 datacentres in operation and 1 under construction. In RBX, we have 7 datacentres in operation. 

SBG:
In SBG we had an electrical problem. Power has been restored and services are being restarted. Some customers are UP and others not yet. If your service is not UP yet, the recovery time is between 5 minutes and 3-4 hours. Our monitoring system allows us to know which customers are still impacted and we are working to fix it.

RBX: 
We had a problem on the optical network that allows RBX to be connected with the interconnection points we have in Paris, Frankfurt, Amsterdam, London, Brussels. The origin of the problem is a software bug on the optical equipment, which caused the configuration to be lost and the connection to be cut from our site in RBX. We handed over the backup of the software configuration as soon as we diagnosed the source of the problem and the DC can be reached again. The incident on RBX is fixed. With the manufacturer, we are looking for the origin of the software bug and also looking to avoid this kind of critical incident. 

We are in the process of retrieving the details to provide you with information on the SBG recovery time for all services/customers. Also, we will give all the technical details on the origin of these 2 incidents. 

We are sincerely sorry. We have just experienced 2 simultaneous and independent events that impacted all RBX customers between 8:15 am abd 10:37 am and all SBG customers between 7:15 am and 11:15 am. We are still working on customers who are not UP yet in SBG. 
Best, Octave

 

http://status.ovh.net/?do=details&id=15162

Цитата

Hello, 
This morning, we had an incident on the optical network that interconnects our site Roubaix (RBX) with 6 of the 33 points of presence (POP) of our network: Paris (TH2 and GSW), Frankfurt (FRA), Amsterdam (AMS), London (LDN), Brussels (BRU). 

The RBX site is connected through 6 optical fibers to these 6 POPs: 2x RBX <> BRU, 2x RBX <> LDN, 2x RBX <> Paris (1x RBX <> TH2 and 1x RBX <> GSW). These 6 optical fibers are connected to optical node systems that allow to have 80 wavelengths of 100Gbps on each optical fiber.

For each 100G connected to the routers, we use 2 optical paths that are geographically distinct. In case of optical fiber cut, the famous "kick back", the system is reconfigured in 50ms and all links remain UP. To connect RBX to POPs, we have 4.4Tbps capacity, 44x100G: 12x 100G to Paris, 8x100G to London, 2x100G to Brussels, 8x100G to Amsterdam, 10x100G to Frankfurt, 2x100G to DC GRA and 2x100G to DC SBG.

At 8:01, all 100G links, 44x 100G, were lost. Given the redundancy system we put in place, the root of the problem could not be the physical cutoff of 6 optical fibers simultaneously. We could not do the remote chassis diagnostics because the management interfaces were fixed. We had to intervene directly in the routing rooms, to manipulate the chassis: disconnect the cables between the chassis and then restart the system and finally only make the diagnostics with the equipment manufacturer. Attempts to reboot the system took a long time because each chassis needs 10 to 12 minutes to boot. This is the main reason for the duration of the incident.

Diagnosis: All the transponder cards we use, ncs2k-400g-lk9, ncs2k-200g-cklc, are in "standby" state. One of the possible origins of such a state is the loss of configuration. So we recovered the backup and put back the configuration, which allowed the system to reconfigure all the transponder cards. The 100Gs in the routers came back naturally and the connection of RBX to the 6 POPs was restored at 10:34.

This is clearly a software bug on optical equipment. The database with the configuration is saved 3 times and copied to 2 supervision cards. Despite all these security, the base has disappeared. We will work with the OEM to find the source of the problem and help fix the bug. We do not question the trust with the equipment manufacturer, even if this type of bug is particularly critical. The uptime is a matter of design that takes into account all the cases, including when nothing else works. The parano mode at Ovh has to be pushed even further in all of our designs.

The bugs can exist, the incidents that impact our customers no. There is necessarily a mistake at Ovh since despite all investments in the network, in the fibers, in the technologies, we just have 2 hours of downtime on all of our infrastructure in Roubaix.

One of the solutions is to create 2 optical node systems instead of one. 2 systems, that means 2 databases and so in case of loss of configuration, only one system is down. If 50% of the links go through one of the systems, today we would have lost 50% of the capacity but not 100% of links. This is one of the projects we started 1 month ago, the chassis have been ordered and we will receive them in the coming days. We can start the configuration and migration work in 2 weeks. Given today's incident, this project is becoming a priority for all of our infrastructures, all DCs, all POPs.

In the business of providing cloud infrastructures, only those that are paranoid last. The quality of service is a consequence of 2 elements. All anticipated incidents "by design". And the incidents where we learned from our mistakes. This incident leads us to raise the bar even higher to approach the zero risk. 

We are sincerely sorry for the 2H33 minutes of downtime on the RBX site. In the coming days, impacted customers will receive an email to trigger SLA commitments. 

Regards 
Octave

 

http://travaux.ovh.net/?do=details&id=28244

 

Изменено пользователем rm_

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А нет ли у кого-либо информации, о каких-либо более или менее масштабных проблемах у Украинских провайдеров с загрузкой иностранных каналов в сторону Европы? С сентября месяца все чаще стали жаловаться клиенты на проблемы со скоростями в сторону ДЦ в Германии (не Hetzner) через Telia и Level 3. Бывает, что на порту в 100 Мбит/с с трудом удается выжать 11 Мбит/с в сторону Украины. Причем если тестировать iperf3 в мультипоточном режиме, то скорости подрастают. Такое впечатление, что украинские магистралы начали экономить на зарубежных каналах. Но трассировка какого-либо криминала не выявляет. Никто ни в чем не признается.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Интересная история на днях приключилась с Ростелекомом (AS12389). В субботу 18.11 в 04:34 МСК обнаружил проблемы в работе IPSec ESP туннеля между Хабаровском (моя AS) и Екатеринбургом (посторонняя AS). Проблема оказалась очень интересная - 56 минут каждого часа внутри туннеля не ходят пакеты, при этом сам туннель не падает. Каждую 30 минуту часа туннель начинает работать корректно, а каждую 35ую - опять глючит. Отправил исходящий трафик (Хабаровск -> Екатеринбург) минуя Ростелеком, проблема ушла. Связался с коллегами (в т.ч. и из Ростелекома), все покрутили пальцем у виска. Весь вторник совместно с Ростелекомом пытались локализовать проблему - безуспешно.

В среду выловил аналогичную проблему, но уже с другим направлением (Хабаровск -> СПб), на этот раз блочился ICMP и TCP трафик (UDP почему-то ходил) и в другое время - в 48 минут каждого часа трафик начинал ходить, а в 53 минуты - переставал. Проблема наблюдалась только с конкретной связкой (некоторые IP из моего блока адресов - несколько конкретных IP по всей России). Вместе с РТ выявили, что проблема наблюдается даже в случае, если SRC IP = айпишник моего бордера (из блока РТ). При этом, если SRC IP = айпишник аплинка/BGP-соседа РТ- проблемы нет. Представители РТ дошли до москвы, и выяснили, что проблема кроется где-то на московском роутере. А в 9:05 МСК той же среды всё внезапно само заработало (видимо, в москве кто-то на работу пришёл).

Кстати, на ДВ нашёл таких же товарищей по несчастью.

Изменено пользователем dr Tr0jan
день попутал

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 23.11.2017 в 13:56, dr Tr0jan сказал:

Интересная история на днях приключилась с Ростелекомом (AS12389). В субботу 18.11 в 04:34 МСК обнаружил проблемы в работе IPSec ESP туннеля между Хабаровском (моя AS) и Екатеринбургом (посторонняя AS). Проблема оказалась очень интересная - 56 минут каждого часа внутри туннеля не ходят пакеты, при этом сам туннель не падает. Каждую 30 минуту часа туннель начинает работать корректно, а каждую 35ую - опять глючит. Отправил исходящий трафик (Хабаровск -> Екатеринбург) минуя Ростелеком, проблема ушла. Связался с коллегами (в т.ч. и из Ростелекома), все покрутили пальцем у виска. Весь вторник совместно с Ростелекомом пытались локализовать проблему - безуспешно.

В среду выловил аналогичную проблему, но уже с другим направлением (Хабаровск -> СПб), на этот раз блочился ICMP и TCP трафик (UDP почему-то ходил) и в другое время - в 48 минут каждого часа трафик начинал ходить, а в 53 минуты - переставал. Проблема наблюдалась только с конкретной связкой (некоторые IP из моего блока адресов - несколько конкретных IP по всей России). Вместе с РТ выявили, что проблема наблюдается даже в случае, если SRC IP = айпишник моего бордера (из блока РТ). При этом, если SRC IP = айпишник аплинка/BGP-соседа РТ- проблемы нет. Представители РТ дошли до москвы, и выяснили, что проблема кроется где-то на московском роутере. А в 9:05 МСК той же среды всё внезапно само заработало (видимо, в москве кто-то на работу пришёл).

Кстати, на ДВ нашёл таких же товарищей по несчастью.

Была такая же проблема с одним из клиентов. Их админы резюмировали что не ходит трафик с dscp метками af11 и af13. Тоннель в Москву строился, пинги ходили, но покрашенный трафик - нет.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

ТТК в екб и нтг лег, и не только шпд, операторские каналы тоже.

2042b-clip-21kb.png

 

Поднялось спустя минут 20...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
7 часов назад, Unker сказал:

ТТК в екб и нтг лег, и не только шпд, операторские каналы тоже.

2042b-clip-21kb.png

 

Поднялось спустя минут 20...

Было оповещение о плановых работах, во всяком случае мне приходило.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

ттк северозапад деградация по трафику почти в 2 раза

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас