alex116 Опубликовано 1 ноября, 2012 (изменено) · Жалоба Всем добрый день. Настроен Nagios 3.4.1, FreeBSD 9. Настроено около 1000 сервисов. Всё это крутится на ВМ с esx 5.0. Мониторится в основном сетевое железо, по пингам и по snmp, намного меньше, но тоже есть всякие упсы и сервера. За 3-4 месяца этот нагиос два раза завис. Последний раз вчера ночью. Зайти в систему по ssh я смог, посмотрел топ, в нём около 100 зомби процессов. Поделитесь опытом, как найти на чем стопорится система? Рестартануть сервис нагиоса не получилось, просто виснет и не отрабатывает, отправить в ребут тоже не получилось, пришлось через консоль vsphere по жесткому ребутать виртуалку. Посоветуйте плз, как найти источник проблемы. Есть ещё график Load Average-загрузки, который мне не нравится. После перезагрузки это значение постепенно растет, хотя новые сервисы не добавляются. После включения системы LA-находится в раойне 0.5, через месяц работы среднее значение уходит в район 1.5.. Загрузка процессора при этом не меняется. Изменено 1 ноября, 2012 пользователем alex116 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
martin74 Опубликовано 1 ноября, 2012 · Жалоба почитать логи... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Negator Опубликовано 1 ноября, 2012 · Жалоба 1.попробуйте перейти на пассивные проверки, оно гораздо меньше грузит систему. 2.Когда то давно была похожая проблема - пришлось откатываться на предыдущую версию нагиоса. Что было точно - не вспомню уже. 3.У нас стоит нагиос с похожей нагрузкой, до кучи на нем висит cacti, Trouble Ticket и очень много всего по мелочи -типа системы управления свичами,логи и прочее прочее. Аптайм уже больше года, проблем нет никаких. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alex116 Опубликовано 1 ноября, 2012 · Жалоба почитать логи... Чьи логи? Перечитал всё, что нашел. Ни ерроров, ни варнингов обнаружено не было. 1.попробуйте перейти на пассивные проверки, оно гораздо меньше грузит систему. Да, читал в мануале к нагиосу, в разделе про производительность. Насколько я понял, пассивные проверки мы можем сделать для серверов, но от них нагрузка и так очень маленькая, ну.. 10-15 сервисов. Я не понимаю как можно сделать пассивную проверку для сетевого железа, чтобы, например, коммутатор отсылал раз в 3 минуты статус определенного порта. Или сама железка раз в n-минут сообщала о себе. Если есть пути, прошу указать, буду изучать. 2.Когда то давно была похожая проблема - пришлось откатываться на предыдущую версию нагиоса. Что было точно - не вспомню уже. В итоге на какой версии сейчас всё это крутится? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Alex_5252 Опубликовано 1 ноября, 2012 · Жалоба А что пишет вывод команды: ps axu | grep def когда есть зомби процессы? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alex116 Опубликовано 2 ноября, 2012 · Жалоба А что пишет вывод команды: ps axu | grep def когда есть зомби процессы? Сейчас не могу проверить, это нужно опять дождаться такого же зависания. При нормальной работе изредка проскакивает такое: [root@graph /usr/local/libexec/nagios]# ps aux | grep Z USER PID %CPU %MEM VSZ RSS TT STAT STARTED TIME COMMAND nagios 50386 0.0 0.0 0 0 ?? Z 8:28AM 0:00.01 <defunct> nagios 50388 0.0 0.0 0 0 ?? Z 8:28AM 0:00.00 <defunct> root 50393 0.0 0.1 16424 1528 1 S+ 8:28AM 0:00.00 grep Z Только defunct выскакивает где-то один раз из 10 запросов, потом опять сразу же чисто. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alex116 Опубликовано 2 ноября, 2012 · Жалоба Хочу вывести все не бинарные скрипты проверок на отдельную виртуалку через nrpe, не самую критически важную, посмотреть на поведением Load Average. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Negator Опубликовано 2 ноября, 2012 · Жалоба Nagios® Core™ 3.2.3 Я не понимаю как можно сделать пассивную проверку для сетевого железа, чтобы, например, коммутатор отсылал раз в 3 минуты статус определенного порта. Или сама железка раз в n-минут сообщала о себе. Если есть пути, прошу указать, буду изучать. Нет не так. Можно раз в 5 минут по крону выполнять скрипт, который пробегает по свичам, снимает нужные данные и отдает в нагиос. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Alex_5252 Опубликовано 2 ноября, 2012 · Жалоба на ВМ с esx 5.0 А какой билд у ESXi ? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alex116 Опубликовано 6 ноября, 2012 · Жалоба Нет не так. Можно раз в 5 минут по крону выполнять скрипт, который пробегает по свичам, снимает нужные данные и отдает в нагиос. Спасибо. Поизучаю тему. А какой билд у ESXi ? 623860, не самый последний. Но esx вряд ли косячит, там аптайм больше полугода, да и не одна виртуалка крутится на нем. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...