Abram Опубликовано 10 января, 2011 (изменено) · Жалоба Доброго времени суток, коллеги! Вчера/сегодня случилась у меня беда: падает ospfd, на всех серверах. В dmesg - пусто. В логах квагги - пусто. Просто падает и всё. При этом полученные маршруты в таблице ядра остаются. Версии - от 0.99.15 до последней, 0.99.17. У кого-нибудь есть идеи? Изменено 10 января, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 10 января, 2011 · Жалоба Еще один упал. 0.99.10. Закономерности не вижу. FreeBSD, Debian, Arch, разные конфигурации, разные версии. Общее одно - quagga и ospfd. При этом, bird не падает - работает себе. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 10 января, 2011 · Жалоба У меня когда-то была проблема с оспф когда синхронизировалось время (ntpdate в кроне, и не говорите что это не правильно, знаю) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Slad Опубликовано 11 января, 2011 · Жалоба ntpd надо поднимать на всех хостах. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
s.lobanov Опубликовано 11 января, 2011 · Жалоба +1 к проблеме со временем. Но только ospfd не падал, а рвались "сессии" с соседями, через несколько, может с десяток секунд соседские отношения восстанавливались. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 11 января, 2011 · Жалоба Да, похоже, все-таки время. На одном сервере часы на час отставали. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
kayot Опубликовано 11 января, 2011 (изменено) · Жалоба О, это я удачно зашел. Неделю несчастный 3750G мучаю и не могу понять что у него за непонятная загрузка периодически проскакивает. Время на серверах разное было, видать маршруты постоянно обновлялись. Изменено 11 января, 2011 пользователем kayot Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alexaaa Опубликовано 11 января, 2011 · Жалоба не думаю что время виновато. у нас это вообще неучитывалось никогда не на серверах не на роутерах, стоит и quagga и bird на серверах причём они не падали вчера вообще, вчера вечером у нас роутер тоже заглючил который на внешку смотрит и работал без проблем пол года. там и ospf и bgp. скорей всего на внешке проблема была. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 11 января, 2011 · Жалоба Дыра в квагге и волна атак, чтоли? Или defective by design? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 14 января, 2011 · Жалоба Сегодня была вторая волна. Виноваты все-таки часы. Настроил на всех хостах ntp - работает. На некоторых от греха подальше заменил кваггу на bird. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 15 января, 2011 · Жалоба Фиг там. На всех хостах ntpd настроен и работает. Некоторые все равно валятся. :( Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
s.lobanov Опубликовано 15 января, 2011 · Жалоба Фиг там.На всех хостах ntpd настроен и работает. Некоторые все равно валятся. :( ntpd переводит время? На сколько(максимум) за один раз? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 15 января, 2011 · Жалоба https://bugzilla.quagga.net/show_bug.cgi?id=629 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
s.lobanov Опубликовано 15 января, 2011 · Жалоба Запустите tcpdump на всех серверах с ospf: tcpdump -i any "proto ospf" -s 0 -w /root/ospf_dump Может удасться выявить какую-нибудь гадость Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 15 января, 2011 (изменено) · Жалоба s.lobanov, Спасибо. Не допер. :) На всех, правда, не получится, запустил на некоторых. Фиг там.На всех хостах ntpd настроен и работает. Некоторые все равно валятся. :( ntpd переводит время? На сколько(максимум) за один раз? ntpd, насколько я знаю, при возникновении рассинхронизации ускоряет либо замедляет часы. За несколько минут упущенные 2-3 милисекунды догоняются. Изменено 15 января, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
s.lobanov Опубликовано 15 января, 2011 · Жалоба Фиг там.На всех хостах ntpd настроен и работает. Некоторые все равно валятся. :( ntpd переводит время? На сколько(максимум) за один раз? ntpd, насколько я знаю, при возникновении рассинхронизации ускоряет либо замедляет часы. За несколько минут упущенные 2-3 милисекунды догоняются. Выделенное жирным - предположение или факт? Если предпложение, то надо посмотреть что происходит на самом деле(обычно надо смотреть что-то типа /var/log/ntp - там пишется насколько подводятся часы). У меня было так - если подводилось, на время, соизмеримое с hello-интервалом, то соседство разрушалось(но segfault-а не было). Передел конфиг ntpd, чтобы он очень часто на маленькие интервалы подводил время - всё стало ок. Кстати, ваш баг врядли кто-то будет разбирать. segfault без корки - деньги на ветер. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 15 января, 2011 (изменено) · Жалоба Выделенное жирным - предположение или факт?Предположение. Читал где-то.Кстати, ваш баг врядли кто-то будет разбирать. segfault без корки - деньги на ветер.Кстати, да. Пересоберу в debug и запущу под gdb. Изменено 15 января, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 16 января, 2011 · Жалоба Заметил, что ospfd с большой вероятностью падает, если ребутнуть несколько узлов. Возможно, получается флуд - не знаю. Удалось воспроизвести. Сделал корку и tcpdump, отправил по адресу. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 17 января, 2011 · Жалоба Опять сегодня все рухнуло. Пока не убил bird на соседней машине - не поднималось (сразу падало в сегфолт). Так что подозрение на bird. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 17 января, 2011 · Жалоба bird не виноват. Опять упало. >_< Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 17 января, 2011 (изменено) · Жалоба Просмотрел tcpdump. Действительно, bird флудил LS Update-ами. Нашел еще один bird =). Поставил на один сервер и забыл. Он тоже флудил, но поменьше. Сейчас пристрелю птичку певчую и опять буду проводить краш-тест. Изменено 17 января, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 18 января, 2011 · Жалоба Краш-тест пройден. Результат: виноваты и bird, и quagga (ospfd). Первый - потому что флудит. Второй - потому что от этого падает. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...