Jump to content

Recommended Posts

Posted

Установлен сервер NAGIOS+centreon

Настроен мониторинг порядка 1400 хостов... И никак со всеми ими не управится 1/3 постоянно колеблится в дауне с ответом в духе (Host Check Timed Out) хотя таймаут уже увеличил до 10 секунд, куда копать как поднять производительность? Или часть хостов выносить на другой сервер... что не хотелось бы ибо на сервере еще Nagvis куда эти 1400 хостов пытаемся запихнуть..

Posted

А что с нагрузкой на сервер? Процессор, диск?

Что именно с хостов снимаете?

Но подозреваю, что вы очень близко к его потолку. ~2к5 хостов тестировали еще до меня, говорят не осилил вообще никак.

Posted (edited)

У меня мониторится 1100 хостов

без проблем

 

в исходниках nagios-plugins поправлено -пинг пакетами 1400 байт - помогает при диагностике потерь

В районе 800 хостов появились проблемы с пингом - безбожно врет на freebsd. перешел на fping - доволен.

Загрузка проца 3-5%

 

Host Check Timed Out - это надо ковырять конфиг на тему кол-ва параллельных опросов и метода опроса

по видимому он просто за указанное время не успевает прочекать все хосты.

 

Что мониторите то?

И ось какая?

Edited by Negator
Posted

ось CentOS 5.5 (2.6.18-194.32.1.el5)

нагрузка на проц скачет до 90 процентов(проц целерон чето там)

на интерфейсе поднято порядка 120 вланов, проверяются коммутаторы compex ps2216 с помощью check_rrcp плагина(/usr/lib/nagios/plugins/check_rrcp -I eth1.154 -H 00:80:48:60:00:15 -t 10000

) .

Posted
compex ps2216 с помощью check_rrcp плагина

1400 компексов...не мало

никогда не работал с этим плагином, но 90% загрузка системы нагиосом это серьезно

Я бы для начала посмотрел что в сети творится, возможно флудит где то что то

 

check_rrcp судя по всему проверяет по мак-адресу, а следовательно посылает arp запрос который распространяется броадкастом, что не есть гуд

 

может max_concurrent_checks уменьшить...

сейчас стоит max_concurrent_checks=200

 

возможно поможет, попробуйте.

 

А за сколько минут нагиос должен прочекать все хосты? Там параметр есть в конфиге?

Нужно попробовать выставить минут на 10-15

Posted

да думаю наверно время надо увеличить, стоит 5 минут, чекает она четко по mac адресу не широковешательная рассылка.

Posted

компексы то все не в одном сегменте, а в разных вланах, соответственно опрашиваю нужный VLAN(например eth1.154)

Posted (edited)

1. покажите tcpdump -eni eth1.154 broadcast

2. есть ли ограничение по brodcast

3. 90% нагрузки это много.

Лично у меня железо Intel® Xeon® CPU E5405 @ 2.00GHz на нем nagios и cacti.

В nagios 3029 хостов 5607 сервисов, жалоб нет.

Edited by mcsim_ck
Posted

ну не зная конфигурации вашей сети - сказать не могу ;)

Но хотя бы и сам сервер с нагиосом, но запускать проверки будет не нагиос, а крон...

В случае запуска проверок нагиосом - получаем 1400 проверок и скриптов надо выполнить.

А если немного подумать - то можно ограничиться одним скриптом на влан... Сканировать список свичей и сравнивать с эталоном....

А вот уже нагиосу скармливать нужный результат....

Posted

моя самописная система мониторинга так и делает) можно в принципе попробовать както её результаты скармливать нагиосу) ммм погуглю в этом направлении

Posted

у вас чисто нагиос или + его расширения ? всякие там rrd графики не строятся ? вообще что ест проц ? там на каждый чих по новому процессу. 1400 одних курьеров процессов наплодить. не дешевая операция однака.

Posted

martin74

Я думал про активный чек который возвращает агрегированный результат. Дернуть скрипт который просканит сеть и вернет результат в виде "критикал, не хватает свитчей 1,5,12". Почему его нужно делать именно пассивным - вот в чем вопрос?.

 

Хотя ваш вариант ничем не хуже. но не уверен что лучше.

Posted

активный чек - привязан к хосту. Покажите, как вы из активного чека измените состояние сервиса соседнего хоста? ;)

Конечно можно сделать один чек, который будет мониторить все 1400 свичей... Но сможете ли вы адекватно увидеть его изменение? Что то мне подсказывает, что в большой сети этот сервис будет всегда в состоянии critical.

А чем лучше passive check... по мне - лучше именно тем, что можно отвязать все от бедного нагиоса ;) И не заставлять его запускать сразу 1400 проверок... Там же по моему нагиос на каждый чек свой тред запускает, потом из треда запускается сам чек... А так - крон и из него форкаются чеки... Последний вариант полегче будет, как мне кажется...

Posted

martin74

признаю Вашу правоту.

Главный аргумент на мой взгляд - "что в большой сети этот сервис будет всегда в состоянии critical"

Сам наступал на грабли многократно, что нагиос на котором много красного уже никому не нужен.

  • 2 weeks later...
Posted

Сейчас ради эксперимента запустил на одном сегменте мониторинг по нагиосу

ОН чекает счетчик ошибок(SNMP) на каждом порту каждого свича

Итого получилось 13382 сервиса

И работает скотина, за минут 15 справляется -выдает мне счетчик ошибок на каждом порту каждого свича.

Posted

Да ничего особенного.

Обычный Xeon 2.8 памяти 2 Гб.

Ось фря 7.2

На сервере кроме нагиоса еще есть немножко Cacti ну и Trouble Ticket система для внутреннних нужд.

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.