Перейти к содержимому
Калькуляторы

ospfd падает? на всех серверах по очереди

Доброго времени суток, коллеги!

 

Вчера/сегодня случилась у меня беда: падает ospfd, на всех серверах.

В dmesg - пусто. В логах квагги - пусто. Просто падает и всё. При этом полученные маршруты в таблице ядра остаются.

 

Версии - от 0.99.15 до последней, 0.99.17.

 

У кого-нибудь есть идеи?

Изменено пользователем Abram

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Еще один упал. 0.99.10.

 

Закономерности не вижу. FreeBSD, Debian, Arch, разные конфигурации, разные версии. Общее одно - quagga и ospfd.

При этом, bird не падает - работает себе.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

У меня когда-то была проблема с оспф когда синхронизировалось время (ntpdate в кроне, и не говорите что это не правильно, знаю)

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

+1 к проблеме со временем. Но только ospfd не падал, а рвались "сессии" с соседями, через несколько, может с десяток секунд соседские отношения восстанавливались.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Да, похоже, все-таки время. На одном сервере часы на час отставали.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

О, это я удачно зашел.

Неделю несчастный 3750G мучаю и не могу понять что у него за непонятная загрузка периодически проскакивает. Время на серверах разное было, видать маршруты постоянно обновлялись.

Изменено пользователем kayot

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

не думаю что время виновато. у нас это вообще неучитывалось никогда не на серверах не на роутерах, стоит и quagga и bird на серверах причём они не падали вчера вообще, вчера вечером у нас роутер тоже заглючил который на внешку смотрит и работал без проблем пол года. там и ospf и bgp. скорей всего на внешке проблема была.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Дыра в квагге и волна атак, чтоли? Или defective by design?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Сегодня была вторая волна.

Виноваты все-таки часы. Настроил на всех хостах ntp - работает.

На некоторых от греха подальше заменил кваггу на bird.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Фиг там.

На всех хостах ntpd настроен и работает. Некоторые все равно валятся. :(

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Фиг там.

На всех хостах ntpd настроен и работает. Некоторые все равно валятся. :(

ntpd переводит время? На сколько(максимум) за один раз?

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Запустите tcpdump на всех серверах с ospf:

tcpdump -i any "proto ospf" -s 0 -w /root/ospf_dump

 

Может удасться выявить какую-нибудь гадость

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

s.lobanov,

Спасибо. Не допер. :) На всех, правда, не получится, запустил на некоторых.

Фиг там.

На всех хостах ntpd настроен и работает. Некоторые все равно валятся. :(

ntpd переводит время? На сколько(максимум) за один раз?

ntpd, насколько я знаю, при возникновении рассинхронизации ускоряет либо замедляет часы. За несколько минут упущенные 2-3 милисекунды догоняются.
Изменено пользователем Abram

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Фиг там.

На всех хостах ntpd настроен и работает. Некоторые все равно валятся. :(

ntpd переводит время? На сколько(максимум) за один раз?

ntpd, насколько я знаю, при возникновении рассинхронизации ускоряет либо замедляет часы. За несколько минут упущенные 2-3 милисекунды догоняются.

Выделенное жирным - предположение или факт? Если предпложение, то надо посмотреть что происходит на самом деле(обычно надо смотреть что-то типа /var/log/ntp - там пишется насколько подводятся часы). У меня было так - если подводилось, на время, соизмеримое с hello-интервалом, то соседство разрушалось(но segfault-а не было). Передел конфиг ntpd, чтобы он очень часто на маленькие интервалы подводил время - всё стало ок.

 

Кстати, ваш баг врядли кто-то будет разбирать. segfault без корки - деньги на ветер.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Выделенное жирным - предположение или факт?
Предположение. Читал где-то.
Кстати, ваш баг врядли кто-то будет разбирать. segfault без корки - деньги на ветер.
Кстати, да. Пересоберу в debug и запущу под gdb.
Изменено пользователем Abram

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Заметил, что ospfd с большой вероятностью падает, если ребутнуть несколько узлов. Возможно, получается флуд - не знаю.

Удалось воспроизвести. Сделал корку и tcpdump, отправил по адресу.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Опять сегодня все рухнуло. Пока не убил bird на соседней машине - не поднималось (сразу падало в сегфолт). Так что подозрение на bird.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Просмотрел tcpdump. Действительно, bird флудил LS Update-ами.

Нашел еще один bird =). Поставил на один сервер и забыл. Он тоже флудил, но поменьше. Сейчас пристрелю птичку певчую и опять буду проводить краш-тест.

Изменено пользователем Abram

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Краш-тест пройден.

 

Результат: виноваты и bird, и quagga (ospfd).

Первый - потому что флудит. Второй - потому что от этого падает.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.