Перейти к содержимому
Калькуляторы

Повисание роутера BGP при падении роутера NAT

Доброго дня всем форумчанам.

Есть следующая схема сети (cхемка ниже):

На всех роутерах стоит FreeBSD 8.x. Сетевые карточки igb.

Роутер BGP с 3-мя сетевыми net0 - интернет (подняты сессии BGP ), net1 - кабель напрямую в net0 NAT, net2 - зона DMZ. В качестве BGP работает quagga 0.99.17

Дальше соответственно идут сервер NAT (используется PF), за ним шейпер (ipfw pipe) и абоненты.

В сети работает статика.

 

Столкнулся со следующей проблемой:

При падении сервера NAT, отваливается для внешки BGP сервер (зайти невозможно).

DMZ зона также теряет связь с инетом (непонятно почему...).

При поднятии сервера NAT, сервера NAT и BGP не видят друг друга по MAC. При этом сетевые линкуются нормально.

Down затем Up интерфейсов не помогает. Приходится перезагружать и BGP сервер, тогда все начинает рабоать нормально.

 

Подскажите пожалуйста, почему может происходить такая ситуация?

Что не дает нормально работать BGP серверу?

Если нужна еще какая-то инфа - говорите, постараюсь выложить...

 

Собственно сама схемка

post-60185-055335300 1312472815_thumb.png

Изменено пользователем HEDG

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Доброго дня всем форумчанам.

Есть следующая схема сети (cхемка ниже):

На всех роутерах стоит FreeBSD 8.x. Сетевые карточки igb.

Роутер BGP с 3-мя сетевыми net0 - интернет (подняты сессии BGP ), net1 - кабель напрямую в net0 NAT, net2 - зона DMZ. В качестве BGP работает quagga 0.99.17

Дальше соответственно идут сервер NAT (используется PF), за ним шейпер (ipfw pipe) и абоненты.

В сети работает статика.

 

Столкнулся со следующей проблемой:

При падении сервера NAT, отваливается для внешки BGP сервер (зайти невозможно).

DMZ зона также теряет связь с инетом (непонятно почему...).

При поднятии сервера NAT, сервера NAT и BGP не видят друг друга по MAC. При этом сетевые линкуются нормально.

Down затем Up интерфейсов не помогает. Приходится перезагружать и BGP сервер, тогда все начинает рабоать нормально.

 

Подскажите пожалуйста, почему может происходить такая ситуация?

Что не дает нормально работать BGP серверу?

Если нужна еще какая-то инфа - говорите, постараюсь выложить...

 

Собственно сама схемка

 

Взялись админить? ;))) Да... Тяжелое это дело.

Для начала следует уточнить, по какой причине падает NAT? Далее по делу: видимо, Вы пытаетесь ломиться на BGP по IP, который расположен на карточке, которая Down. И последний, но самый "вкусный вопрос". ;) Что значит: "не видят друг друга по MAC"?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Опыт администрирования есть, знания тоже вроде некоторые имеются..

В данном случае нужен взгляд "со стороны", может кто-то хотя бы натолкнет на правильное направление...

 

Внесу немного ясности..

Была проблема с блоком питания на NAT, соответственно отвалились все абоненты, но DMZ по идее должно было работать...

В логах системы

Aug 2 21:16:14 bgp kernel: net1: link state changed to DOWN

В логах BGP есть следующее

Aug 2 21:17:45 mart bgpd[1490]: SLOW THREAD: task bgp_scan_timer (104b560) ran for 7676ms (cpu time 587ms)
Aug 2 21:19:06 bgp bgpd[1490]: SLOW THREAD: task bgp_scan_timer (104b560) ran for 29244ms (cpu time 588ms)
Aug 2 21:19:06 bgp bgpd[1490]: Terminating on signal
Aug 2 21:19:06 bgp bgpd[1490]: %NOTIFICATION: sent to neighbor x.x.x.x 6/3 (Cease/Peer Unconfigured) 0 bytes
Aug 2 21:19:06 bgp bgpd[1490]: %NOTIFICATION: sent to neighbor xx.xx.xx.xx 6/3 (Cease/Peer Unconfigured) 0 bytes
Aug 2 21:19:06 bgp bgpd[1490]: %NOTIFICATION: sent to neighbor xxx.xxx.xxx.xxx 6/3 (Cease/Peer Unconfigured) 0 bytes
Aug 2 21:19:07 bgp bgpd[1490]: %ADJCHANGE: neighbor x.x.x.x Down Neighbor deleted
Aug 2 21:19:08 bgp bgpd[1490]: %ADJCHANGE: neighbor xx.xx.xx.xx Down Neighbor deleted
Aug 2 21:19:08 bgp bgpd[1490]: %ADJCHANGE: neighbor xxx.xxx.xxx.xxx Down Neighbor deleted

 

Вот логи zebra

2011/08/02 21:17:43 ZEBRA: SLOW THREAD: task work_queue_run (210a4e40) ran for 12659ms (cpu time 0ms)
2011/08/02 21:17:57 ZEBRA: SLOW THREAD: task work_queue_run (210a4e40) ran for 8199ms (cpu time 0ms)
2011/08/02 21:18:10 ZEBRA: SLOW THREAD: task work_queue_run (210a4e40) ran for 12952ms (cpu time 0ms)
2011/08/02 21:18:22 ZEBRA: SLOW THREAD: task work_queue_run (210a4e40) ran for 6021ms (cpu time 0ms)
2011/08/02 21:18:41 ZEBRA: SLOW THREAD: task work_queue_run (210a4e40) ran for 10484ms (cpu time 0ms)
2011/08/02 21:18:55 ZEBRA: SLOW THREAD: task work_queue_run (210a4e40) ran for 13995ms (cpu time 0ms)
2011/08/02 21:57:44 ZEBRA: SLOW THREAD: task work_queue_run (210a4e40) ran for 2317764ms (cpu time 0ms)

Роуты на сети которые обслуживает NAT прописаны в zebra.

По логам видно, что упал демоны BGPd и zebra, непонятно почему...

Для анонса сетей использовалась команда network, никаких redistribute не использовалось.

Не понятно, почему происходил такой баг. В любом случае сервера NAT и BGP должны были видеть друг друга.

 

Опять же непонятно почему сервера не видели друг друга после поднятия сервера NAT.

Даже если учесть переполнение буфера сетевой, то он должен был освобождаться при Down Up интерфеса (делался программно, а также при выниманием патча). Не помогло.

Сервера начинали видеть друг друга только при перезагрузке BGP.

 

По логам большего накопать не удалось.

Изменено пользователем HEDG

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.