xcme Опубликовано 24 июля, 2015 · Жалоба О, а можно поподробнее? :) Коллега полез в сундук, достал бороду, свитер и потертые джинсы... В итоге написал модуль, который подгружается в ядро приставки. Параметром ему передается группа, которую надо мониторить. Модуль ловит пропуски CC и раз в минуту шлет сообщение от имени ядра. Потом эти сообщения забираются скриптом, запущенным на приставке, и при помощи ncat отправляются в Graphite. Мы выбрали 1 канал (который вещаем сами) и мониторим его на узлах агрегации. Потом можно смотреть как и где "подсыпало". Приставка при этом является "пробником". Абонентов не мониторим, т.к. Graphite нагружать сейчас больше нельзя. Балуемся такой штукой не так давно, но на практике уже нашли пару проблемных мест и приняли меры. :) Остаётся только придумать, чем поллить :) Тоже думаю уже свой поллер пиасать Только нужен многопоточный, а еще лучше многопроцессорный+многопоточный. Ну и bulk'ами или комбинированными get'ами не брезговать. Ну и да, на PHP не получится, если вдруг что... :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Wingman Опубликовано 24 июля, 2015 · Жалоба Только нужен многопоточный, а еще лучше многопроцессорный+многопоточный. Ну и bulk'ами или комбинированными get'ами не брезговать. Ну и да, на PHP не получится, если вдруг что... :) Да это всё понятно :) Недавно осилил многопоточную пинговалку на сях, тягающую свитчи из оракла, думаю, и с снмп справлюсь :) Мы выбрали 1 канал (который вещаем сами) и мониторим его на узлах агрегации. Потом можно смотреть как и где "подсыпало". Приставка при этом является "пробником". Абонентов не мониторим, т.к. Graphite нагружать сейчас больше нельзя. Балуемся такой штукой не так давно, но на практике уже нашли пару проблемных мест и приняли меры. :) Понял, спасибо! Примерно в этом же направлении думаем, только руки никак не доходят заняться =) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Wingman Опубликовано 29 июля, 2015 · Жалоба xcme, а сколько у вас метрик в графите мониторится? Я таки написал на сях поллер; всё хорошо; но чего-то графит, как будто, пропускает и не пишет часть данных А так - если всё будет ок, то с графаневской scripted dashboard получается просто великолепно - на каждом свитче в нашей црмке будет линк с красивыми графиками на любые данные :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
xcme Опубликовано 30 июля, 2015 · Жалоба xcme, а сколько у вас метрик в графите мониторится? Где-то 280 тысяч каждые 5 минут. А всего опрашивается около 460к метрик, многие проверяются на аномалии, но сами нигде не сохраняются. Я таки написал на сях поллер Круто! Быстро, однако. :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Wingman Опубликовано 30 июля, 2015 · Жалоба Мда, у нас в 2 раза больше, и карбон, похоже, немного не успевает писать :)) Думаю, попробую писать на ram-диск, постоянное хранение данных ведь не нужно Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
xcme Опубликовано 30 июля, 2015 · Жалоба У нас тоже не успевает. Копит в памяти и потом пишет пачкой. При этом отрисовывает нормально, т.к. умеет данные брать и с диска и с памяти. Я тоже хотел сначала все писать, но потом посмотрел как все печально и оставил только необходимый минимум: RX, TX, RX CRC, CPU, Temp. Всего опрашивается ~3300 железок. У вас сколько устройств и что собираете? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Wingman Опубликовано 30 июля, 2015 · Жалоба Около 4к; писать попробовал inOctets+outOctets+crc+broadcast со всех портов Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
xcme Опубликовано 30 июля, 2015 · Жалоба Ну а почему в 2 раза больше? 48 портовые чтоли?:) Что за метрика broadcast? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Wingman Опубликовано 30 июля, 2015 · Жалоба >> Ну а почему в 2 раза больше? 48 портовые чтоли?:) А хрен знает, я посчитал число файлов, и так вот вышло :) Ну и да - хоть и не очень много, но есть 52, 28 портовые >> Что за метрика broadcast? .1.3.6.1.2.1.31.1.1.1.9 (ifHCInBroadcastPkts) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Spisoch_nik Опубликовано 31 июля, 2015 (изменено) · Жалоба Есть еще вопрос, Подскажите пожалуйста, графики кактус рисует, запросы делает раз в минуту. НО, возник еще 1 вопрос при просмотре графика, когда интервал выбран в 1 минуту выбираем просмотр графика за последние пол часа видим, что график отрисовывается раз в 5 минут, он берет какое-то среднее значение. Если я правильно понимаю, скорость на порту не может быть в течении 5 минут одинаковая. ПЫ.СЫ. Чет картинка не вставляется :( и ссылка тоже норм тоже :( Изменено 31 июля, 2015 пользователем Spisoch_nik Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alibek Опубликовано 31 июля, 2015 · Жалоба Ну так патчить Data Templates нужно, заменять step с 300 на 60. rrd-файлы придется удалить и пересоздать. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Spisoch_nik Опубликовано 31 июля, 2015 (изменено) · Жалоба Ну так патчить Data Templates нужно, заменять step с 300 на 60. rrd-файлы придется удалить и пересоздать. Понятно - все нашел, изменил - работает. Спс. Изменено 31 июля, 2015 пользователем Spisoch_nik Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Mallorn Опубликовано 14 октября, 2015 · Жалоба У меня для большой части устройств опрос данных и сохранение в RRD осуществляет самодельный скрипт, а Cacti только рисует графики с RRD-файлов, в нем это делать удобно. Большую сеть в Cacti обслуживать (добавлять, изменять, контролировать) неудобно. У меня сеть не очень большая, но я тоже хотел бы Cacti заменить на что-нибудь другое. Вот только на что — не найду никак, Zabbix мне тоже не сильно понравился. Скорее всего будет самописная система, интегрированная с UserSide. ZABBIX совсем не то, что cacti. ZABBIX - полноценный мониторинг,в котором можно настроить пороги реагирования по тысячам параметров у тысяч хостов. И сделать это двумя кликами. И вывод по критическим параметрам давать хоть в чатик\смс, хоть на тревожную сирену в курилку монтажников. =) cacti - построитель графиков, в котором удобно быстренько глянуть, как обстоит ситуация на фронтах. Не более того. Тем не менее, я не могу привыкнуть к аскетичным графикам zabbix, и использую их только в случаях вида "а покажи-ка мне сколько было входящего трафика на порту 12 коммутатора в доме Х, подъезд Y три года назад, с 6 до 9 утра". cacti используется для графиков интересующих параметров в серверах \ железках ядра. ZABBIX - для мониторинга и реагирования по ситуациям железок транспортной сети. Ну и следит за cjcnzybtv серверов и сервисов на них с помощью zabbix_agent. Разные задачи - разные инструменты. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...