Перейти к содержимому
Калькуляторы

Виснет Nagios, как найти причину?

Всем добрый день.

 

 

Настроен Nagios 3.4.1, FreeBSD 9. Настроено около 1000 сервисов. Всё это крутится на ВМ с esx 5.0.

 

Мониторится в основном сетевое железо, по пингам и по snmp, намного меньше, но тоже есть всякие упсы и сервера.

 

За 3-4 месяца этот нагиос два раза завис. Последний раз вчера ночью. Зайти в систему по ssh я смог, посмотрел топ, в нём около 100 зомби процессов. Поделитесь опытом, как найти на чем стопорится система? Рестартануть сервис нагиоса не получилось, просто виснет и не отрабатывает, отправить в ребут тоже не получилось, пришлось через консоль vsphere по жесткому ребутать виртуалку.

 

Посоветуйте плз, как найти источник проблемы.

 

Есть ещё график Load Average-загрузки, который мне не нравится. После перезагрузки это значение постепенно растет, хотя новые сервисы не добавляются. После включения системы LA-находится в раойне 0.5, через месяц работы среднее значение уходит в район 1.5.. Загрузка процессора при этом не меняется.

post-93242-099008900 1351764849_thumb.jpg

Изменено пользователем alex116

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1.попробуйте перейти на пассивные проверки, оно гораздо меньше грузит систему.

2.Когда то давно была похожая проблема - пришлось откатываться на предыдущую версию нагиоса. Что было точно - не вспомню уже.

 

3.У нас стоит нагиос с похожей нагрузкой, до кучи на нем висит cacti, Trouble Ticket и очень много всего по мелочи -типа системы управления свичами,логи и прочее прочее.

 

Аптайм уже больше года, проблем нет никаких.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

почитать логи...

 

Чьи логи? Перечитал всё, что нашел. Ни ерроров, ни варнингов обнаружено не было.

 

 

 

 

1.попробуйте перейти на пассивные проверки, оно гораздо меньше грузит систему.

 

Да, читал в мануале к нагиосу, в разделе про производительность. Насколько я понял, пассивные проверки мы можем сделать для серверов, но от них нагрузка и так очень маленькая, ну.. 10-15 сервисов. Я не понимаю как можно сделать пассивную проверку для сетевого железа, чтобы, например, коммутатор отсылал раз в 3 минуты статус определенного порта. Или сама железка раз в n-минут сообщала о себе. Если есть пути, прошу указать, буду изучать.

 

 

2.Когда то давно была похожая проблема - пришлось откатываться на предыдущую версию нагиоса. Что было точно - не вспомню уже.

 

В итоге на какой версии сейчас всё это крутится?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А что пишет вывод команды:

ps axu | grep def

когда есть зомби процессы?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А что пишет вывод команды:

ps axu | grep def

когда есть зомби процессы?

 

Сейчас не могу проверить, это нужно опять дождаться такого же зависания.

 

При нормальной работе изредка проскакивает такое:

[root@graph /usr/local/libexec/nagios]# ps aux | grep Z
USER     PID  %CPU %MEM    VSZ    RSS  TT  STAT STARTED       TIME COMMAND
nagios 50386   0.0  0.0      0      0  ??  Z     8:28AM    0:00.01 <defunct>
nagios 50388   0.0  0.0      0      0  ??  Z     8:28AM    0:00.00 <defunct>
root   50393   0.0  0.1  16424   1528   1  S+    8:28AM    0:00.00 grep Z

 

Только defunct выскакивает где-то один раз из 10 запросов, потом опять сразу же чисто.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Хочу вывести все не бинарные скрипты проверок на отдельную виртуалку через nrpe, не самую критически важную, посмотреть на поведением Load Average.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Nagios® Core™ 3.2.3

 

Я не понимаю как можно сделать пассивную проверку для сетевого железа, чтобы, например, коммутатор отсылал раз в 3 минуты статус определенного порта. Или сама железка раз в n-минут сообщала о себе. Если есть пути, прошу указать, буду изучать.

Нет не так. Можно раз в 5 минут по крону выполнять скрипт, который пробегает по свичам, снимает нужные данные и отдает в нагиос.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Нет не так. Можно раз в 5 минут по крону выполнять скрипт, который пробегает по свичам, снимает нужные данные и отдает в нагиос.

 

Спасибо. Поизучаю тему.

 

А какой билд у ESXi ?

 

623860, не самый последний. Но esx вряд ли косячит, там аптайм больше полугода, да и не одна виртуалка крутится на нем.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.