Всем добрый день.
Настроен Nagios 3.4.1, FreeBSD 9. Настроено около 1000 сервисов. Всё это крутится на ВМ с esx 5.0.
Мониторится в основном сетевое железо, по пингам и по snmp, намного меньше, но тоже есть всякие упсы и сервера.
За 3-4 месяца этот нагиос два раза завис. Последний раз вчера ночью. Зайти в систему по ssh я смог, посмотрел топ, в нём около 100 зомби процессов. Поделитесь опытом, как найти на чем стопорится система? Рестартануть сервис нагиоса не получилось, просто виснет и не отрабатывает, отправить в ребут тоже не получилось, пришлось через консоль vsphere по жесткому ребутать виртуалку.
Посоветуйте плз, как найти источник проблемы.
Есть ещё график Load Average-загрузки, который мне не нравится. После перезагрузки это значение постепенно растет, хотя новые сервисы не добавляются. После включения системы LA-находится в раойне 0.5, через месяц работы среднее значение уходит в район 1.5.. Загрузка процессора при этом не меняется.