Виснет Nagios, как найти причину?

Вся активность

Ответить

alex116

Опубликовано 1 ноября, 2012 (изменено) · Жалоба

Всем добрый день.

Настроен Nagios 3.4.1, FreeBSD 9. Настроено около 1000 сервисов. Всё это крутится на ВМ с esx 5.0.

Мониторится в основном сетевое железо, по пингам и по snmp, намного меньше, но тоже есть всякие упсы и сервера.

За 3-4 месяца этот нагиос два раза завис. Последний раз вчера ночью. Зайти в систему по ssh я смог, посмотрел топ, в нём около 100 зомби процессов. Поделитесь опытом, как найти на чем стопорится система? Рестартануть сервис нагиоса не получилось, просто виснет и не отрабатывает, отправить в ребут тоже не получилось, пришлось через консоль vsphere по жесткому ребутать виртуалку.

Посоветуйте плз, как найти источник проблемы.

Есть ещё график Load Average-загрузки, который мне не нравится. После перезагрузки это значение постепенно растет, хотя новые сервисы не добавляются. После включения системы LA-находится в раойне 0.5, через месяц работы среднее значение уходит в район 1.5.. Загрузка процессора при этом не меняется.

Изменено 1 ноября, 2012 пользователем alex116

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

martin74

Опубликовано 1 ноября, 2012 · Жалоба

почитать логи...

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Negator

Опубликовано 1 ноября, 2012 · Жалоба

1.попробуйте перейти на пассивные проверки, оно гораздо меньше грузит систему.

2.Когда то давно была похожая проблема - пришлось откатываться на предыдущую версию нагиоса. Что было точно - не вспомню уже.

3.У нас стоит нагиос с похожей нагрузкой, до кучи на нем висит cacti, Trouble Ticket и очень много всего по мелочи -типа системы управления свичами,логи и прочее прочее.

Аптайм уже больше года, проблем нет никаких.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

alex116

Опубликовано 1 ноября, 2012 · Жалоба

почитать логи...

Чьи логи? Перечитал всё, что нашел. Ни ерроров, ни варнингов обнаружено не было.

1.попробуйте перейти на пассивные проверки, оно гораздо меньше грузит систему.

Да, читал в мануале к нагиосу, в разделе про производительность. Насколько я понял, пассивные проверки мы можем сделать для серверов, но от них нагрузка и так очень маленькая, ну.. 10-15 сервисов. Я не понимаю как можно сделать пассивную проверку для сетевого железа, чтобы, например, коммутатор отсылал раз в 3 минуты статус определенного порта. Или сама железка раз в n-минут сообщала о себе. Если есть пути, прошу указать, буду изучать.

2.Когда то давно была похожая проблема - пришлось откатываться на предыдущую версию нагиоса. Что было точно - не вспомню уже.

В итоге на какой версии сейчас всё это крутится?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Alex_5252

Опубликовано 1 ноября, 2012 · Жалоба

А что пишет вывод команды:

ps axu | grep def

когда есть зомби процессы?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

alex116

Опубликовано 2 ноября, 2012 · Жалоба

А что пишет вывод команды:

ps axu | grep def

когда есть зомби процессы?

Сейчас не могу проверить, это нужно опять дождаться такого же зависания.

При нормальной работе изредка проскакивает такое:

[root@graph /usr/local/libexec/nagios]# ps aux | grep Z
USER     PID  %CPU %MEM    VSZ    RSS  TT  STAT STARTED       TIME COMMAND
nagios 50386   0.0  0.0      0      0  ??  Z     8:28AM    0:00.01 <defunct>
nagios 50388   0.0  0.0      0      0  ??  Z     8:28AM    0:00.00 <defunct>
root   50393   0.0  0.1  16424   1528   1  S+    8:28AM    0:00.00 grep Z

Только defunct выскакивает где-то один раз из 10 запросов, потом опять сразу же чисто.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

alex116

Опубликовано 2 ноября, 2012 · Жалоба

Хочу вывести все не бинарные скрипты проверок на отдельную виртуалку через nrpe, не самую критически важную, посмотреть на поведением Load Average.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Negator

Опубликовано 2 ноября, 2012 · Жалоба

Nagios® Core™ 3.2.3

Я не понимаю как можно сделать пассивную проверку для сетевого железа, чтобы, например, коммутатор отсылал раз в 3 минуты статус определенного порта. Или сама железка раз в n-минут сообщала о себе. Если есть пути, прошу указать, буду изучать.

Нет не так. Можно раз в 5 минут по крону выполнять скрипт, который пробегает по свичам, снимает нужные данные и отдает в нагиос.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Alex_5252

Опубликовано 2 ноября, 2012 · Жалоба

на ВМ с esx 5.0

А какой билд у ESXi ?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

alex116

Опубликовано 6 ноября, 2012 · Жалоба

Нет не так. Можно раз в 5 минут по крону выполнять скрипт, который пробегает по свичам, снимает нужные данные и отдает в нагиос.

Спасибо. Поизучаю тему.

А какой билд у ESXi ?

623860, не самый последний. Но esx вряд ли косячит, там аптайм больше полугода, да и не одна виртуалка крутится на нем.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Ответить в тему...

× Вставлено в виде отформатированного текста. Вставить в виде обычного текста

Разрешено не более 75 смайлов.

× Ваша ссылка была автоматически встроена. Отобразить как ссылку

× Ваш предыдущий контент был восстановлен. Очистить редактор

× Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Изображение по ссылке

Подписчики 0

Перейти к списку тем Программное обеспечение, биллинг и *unix системы

Войти

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Join the conversation