alex116 Posted November 1, 2012 (edited) Всем добрый день. Настроен Nagios 3.4.1, FreeBSD 9. Настроено около 1000 сервисов. Всё это крутится на ВМ с esx 5.0. Мониторится в основном сетевое железо, по пингам и по snmp, намного меньше, но тоже есть всякие упсы и сервера. За 3-4 месяца этот нагиос два раза завис. Последний раз вчера ночью. Зайти в систему по ssh я смог, посмотрел топ, в нём около 100 зомби процессов. Поделитесь опытом, как найти на чем стопорится система? Рестартануть сервис нагиоса не получилось, просто виснет и не отрабатывает, отправить в ребут тоже не получилось, пришлось через консоль vsphere по жесткому ребутать виртуалку. Посоветуйте плз, как найти источник проблемы. Есть ещё график Load Average-загрузки, который мне не нравится. После перезагрузки это значение постепенно растет, хотя новые сервисы не добавляются. После включения системы LA-находится в раойне 0.5, через месяц работы среднее значение уходит в район 1.5.. Загрузка процессора при этом не меняется. Edited November 1, 2012 by alex116 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
martin74 Posted November 1, 2012 почитать логи... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Negator Posted November 1, 2012 1.попробуйте перейти на пассивные проверки, оно гораздо меньше грузит систему. 2.Когда то давно была похожая проблема - пришлось откатываться на предыдущую версию нагиоса. Что было точно - не вспомню уже. 3.У нас стоит нагиос с похожей нагрузкой, до кучи на нем висит cacti, Trouble Ticket и очень много всего по мелочи -типа системы управления свичами,логи и прочее прочее. Аптайм уже больше года, проблем нет никаких. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex116 Posted November 1, 2012 почитать логи... Чьи логи? Перечитал всё, что нашел. Ни ерроров, ни варнингов обнаружено не было. 1.попробуйте перейти на пассивные проверки, оно гораздо меньше грузит систему. Да, читал в мануале к нагиосу, в разделе про производительность. Насколько я понял, пассивные проверки мы можем сделать для серверов, но от них нагрузка и так очень маленькая, ну.. 10-15 сервисов. Я не понимаю как можно сделать пассивную проверку для сетевого железа, чтобы, например, коммутатор отсылал раз в 3 минуты статус определенного порта. Или сама железка раз в n-минут сообщала о себе. Если есть пути, прошу указать, буду изучать. 2.Когда то давно была похожая проблема - пришлось откатываться на предыдущую версию нагиоса. Что было точно - не вспомню уже. В итоге на какой версии сейчас всё это крутится? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Alex_5252 Posted November 1, 2012 А что пишет вывод команды: ps axu | grep def когда есть зомби процессы? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex116 Posted November 2, 2012 А что пишет вывод команды: ps axu | grep def когда есть зомби процессы? Сейчас не могу проверить, это нужно опять дождаться такого же зависания. При нормальной работе изредка проскакивает такое: [root@graph /usr/local/libexec/nagios]# ps aux | grep Z USER PID %CPU %MEM VSZ RSS TT STAT STARTED TIME COMMAND nagios 50386 0.0 0.0 0 0 ?? Z 8:28AM 0:00.01 <defunct> nagios 50388 0.0 0.0 0 0 ?? Z 8:28AM 0:00.00 <defunct> root 50393 0.0 0.1 16424 1528 1 S+ 8:28AM 0:00.00 grep Z Только defunct выскакивает где-то один раз из 10 запросов, потом опять сразу же чисто. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex116 Posted November 2, 2012 Хочу вывести все не бинарные скрипты проверок на отдельную виртуалку через nrpe, не самую критически важную, посмотреть на поведением Load Average. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Negator Posted November 2, 2012 Nagios® Core™ 3.2.3 Я не понимаю как можно сделать пассивную проверку для сетевого железа, чтобы, например, коммутатор отсылал раз в 3 минуты статус определенного порта. Или сама железка раз в n-минут сообщала о себе. Если есть пути, прошу указать, буду изучать. Нет не так. Можно раз в 5 минут по крону выполнять скрипт, который пробегает по свичам, снимает нужные данные и отдает в нагиос. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Alex_5252 Posted November 2, 2012 на ВМ с esx 5.0 А какой билд у ESXi ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex116 Posted November 6, 2012 Нет не так. Можно раз в 5 минут по крону выполнять скрипт, который пробегает по свичам, снимает нужные данные и отдает в нагиос. Спасибо. Поизучаю тему. А какой билд у ESXi ? 623860, не самый последний. Но esx вряд ли косячит, там аптайм больше полугода, да и не одна виртуалка крутится на нем. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...