Davion Posted April 20, 2011 Posted April 20, 2011 Установлен сервер NAGIOS+centreon Настроен мониторинг порядка 1400 хостов... И никак со всеми ими не управится 1/3 постоянно колеблится в дауне с ответом в духе (Host Check Timed Out) хотя таймаут уже увеличил до 10 секунд, куда копать как поднять производительность? Или часть хостов выносить на другой сервер... что не хотелось бы ибо на сервере еще Nagvis куда эти 1400 хостов пытаемся запихнуть.. Вставить ник Quote
sexst Posted April 20, 2011 Posted April 20, 2011 А что с нагрузкой на сервер? Процессор, диск? Что именно с хостов снимаете? Но подозреваю, что вы очень близко к его потолку. ~2к5 хостов тестировали еще до меня, говорят не осилил вообще никак. Вставить ник Quote
Negator Posted April 20, 2011 Posted April 20, 2011 (edited) У меня мониторится 1100 хостов без проблем в исходниках nagios-plugins поправлено -пинг пакетами 1400 байт - помогает при диагностике потерь В районе 800 хостов появились проблемы с пингом - безбожно врет на freebsd. перешел на fping - доволен. Загрузка проца 3-5% Host Check Timed Out - это надо ковырять конфиг на тему кол-ва параллельных опросов и метода опроса по видимому он просто за указанное время не успевает прочекать все хосты. Что мониторите то? И ось какая? Edited April 20, 2011 by Negator Вставить ник Quote
Davion Posted April 20, 2011 Author Posted April 20, 2011 ось CentOS 5.5 (2.6.18-194.32.1.el5) нагрузка на проц скачет до 90 процентов(проц целерон чето там) на интерфейсе поднято порядка 120 вланов, проверяются коммутаторы compex ps2216 с помощью check_rrcp плагина(/usr/lib/nagios/plugins/check_rrcp -I eth1.154 -H 00:80:48:60:00:15 -t 10000 ) . Вставить ник Quote
Davion Posted April 20, 2011 Author Posted April 20, 2011 может max_concurrent_checks уменьшить... сейчас стоит max_concurrent_checks=200 Вставить ник Quote
Negator Posted April 20, 2011 Posted April 20, 2011 compex ps2216 с помощью check_rrcp плагина 1400 компексов...не мало никогда не работал с этим плагином, но 90% загрузка системы нагиосом это серьезно Я бы для начала посмотрел что в сети творится, возможно флудит где то что то check_rrcp судя по всему проверяет по мак-адресу, а следовательно посылает arp запрос который распространяется броадкастом, что не есть гуд может max_concurrent_checks уменьшить...сейчас стоит max_concurrent_checks=200 возможно поможет, попробуйте. А за сколько минут нагиос должен прочекать все хосты? Там параметр есть в конфиге? Нужно попробовать выставить минут на 10-15 Вставить ник Quote
Davion Posted April 21, 2011 Author Posted April 21, 2011 да думаю наверно время надо увеличить, стоит 5 минут, чекает она четко по mac адресу не широковешательная рассылка. Вставить ник Quote
Davion Posted April 21, 2011 Author Posted April 21, 2011 компексы то все не в одном сегменте, а в разных вланах, соответственно опрашиваю нужный VLAN(например eth1.154) Вставить ник Quote
Davion Posted April 21, 2011 Author Posted April 21, 2011 а можно в нагиосе сделать чтоб он пару раз чекал а потом уже принимал решение даун или нет Вставить ник Quote
mcsim_ck Posted April 21, 2011 Posted April 21, 2011 (edited) 1. покажите tcpdump -eni eth1.154 broadcast 2. есть ли ограничение по brodcast 3. 90% нагрузки это много. Лично у меня железо Intel® Xeon® CPU E5405 @ 2.00GHz на нем nagios и cacti. В nagios 3029 хостов 5607 сервисов, жалоб нет. Edited April 21, 2011 by mcsim_ck Вставить ник Quote
Negator Posted April 21, 2011 Posted April 21, 2011 опрашиваю нужный VLAN(например eth1.154) а вы уверены что он работает как написано? Может быть все таки tcpdump ? Вставить ник Quote
martin74 Posted April 23, 2011 Posted April 23, 2011 passive check очень сильно помогает.... Вставить ник Quote
Davion Posted April 23, 2011 Author Posted April 23, 2011 passive check очень сильно помогает.... эмм а кто чекать будет??? Вставить ник Quote
martin74 Posted April 23, 2011 Posted April 23, 2011 ну не зная конфигурации вашей сети - сказать не могу ;) Но хотя бы и сам сервер с нагиосом, но запускать проверки будет не нагиос, а крон... В случае запуска проверок нагиосом - получаем 1400 проверок и скриптов надо выполнить. А если немного подумать - то можно ограничиться одним скриптом на влан... Сканировать список свичей и сравнивать с эталоном.... А вот уже нагиосу скармливать нужный результат.... Вставить ник Quote
Davion Posted April 24, 2011 Author Posted April 24, 2011 моя самописная система мониторинга так и делает) можно в принципе попробовать както её результаты скармливать нагиосу) ммм погуглю в этом направлении Вставить ник Quote
st_re Posted April 24, 2011 Posted April 24, 2011 у вас чисто нагиос или + его расширения ? всякие там rrd графики не строятся ? вообще что ест проц ? там на каждый чих по новому процессу. 1400 одних курьеров процессов наплодить. не дешевая операция однака. Вставить ник Quote
martin74 Posted April 26, 2011 Posted April 26, 2011 а что там гуглить... nsca и вперед... Вставить ник Quote
sirmax Posted April 26, 2011 Posted April 26, 2011 а что там гуглить... nsca и вперед... простите, а зачем nsca если все на одном хосте? Вставить ник Quote
martin74 Posted April 27, 2011 Posted April 27, 2011 а как вы передадите результат passive check в нагиос? Сами будете в его cmd файл писать? Вставить ник Quote
sirmax Posted April 27, 2011 Posted April 27, 2011 martin74 Я думал про активный чек который возвращает агрегированный результат. Дернуть скрипт который просканит сеть и вернет результат в виде "критикал, не хватает свитчей 1,5,12". Почему его нужно делать именно пассивным - вот в чем вопрос?. Хотя ваш вариант ничем не хуже. но не уверен что лучше. Вставить ник Quote
martin74 Posted April 27, 2011 Posted April 27, 2011 активный чек - привязан к хосту. Покажите, как вы из активного чека измените состояние сервиса соседнего хоста? ;) Конечно можно сделать один чек, который будет мониторить все 1400 свичей... Но сможете ли вы адекватно увидеть его изменение? Что то мне подсказывает, что в большой сети этот сервис будет всегда в состоянии critical. А чем лучше passive check... по мне - лучше именно тем, что можно отвязать все от бедного нагиоса ;) И не заставлять его запускать сразу 1400 проверок... Там же по моему нагиос на каждый чек свой тред запускает, потом из треда запускается сам чек... А так - крон и из него форкаются чеки... Последний вариант полегче будет, как мне кажется... Вставить ник Quote
sirmax Posted April 27, 2011 Posted April 27, 2011 martin74 признаю Вашу правоту. Главный аргумент на мой взгляд - "что в большой сети этот сервис будет всегда в состоянии critical" Сам наступал на грабли многократно, что нагиос на котором много красного уже никому не нужен. Вставить ник Quote
Negator Posted May 5, 2011 Posted May 5, 2011 Сейчас ради эксперимента запустил на одном сегменте мониторинг по нагиосу ОН чекает счетчик ошибок(SNMP) на каждом порту каждого свича Итого получилось 13382 сервиса И работает скотина, за минут 15 справляется -выдает мне счетчик ошибок на каждом порту каждого свича. Вставить ник Quote
Davion Posted May 6, 2011 Author Posted May 6, 2011 а на сервере какая ОС и железо? Вставить ник Quote
Negator Posted May 6, 2011 Posted May 6, 2011 Да ничего особенного. Обычный Xeon 2.8 памяти 2 Гб. Ось фря 7.2 На сервере кроме нагиоса еще есть немножко Cacti ну и Trouble Ticket система для внутреннних нужд. Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.