Перейти к содержимому
Калькуляторы
Ваша система мониторинга  

1 385 пользователей проголосовало

  1. 1. Ваша система мониторинга

    • Zabbix (zabbix.com)
      459
    • Nagios (nagios.org)
      321
    • MRTG (oss.oetiker.ch/mrtg/)
      180
    • Cacti (cacti.net)
      487
    • TclMon (tclmon.sourceforge.net)
      3
    • RRDtool (oss.oetiker.ch/rrdtool/)
      65
    • Zenoss (zenoss.com)
      21
    • OpenNMS (opennms.org)
      7
    • PRTG Network Monitor (www.paessler.com/prtg/)
      52
    • Munin (munin-monitoring.org)
      25
    • Argus (argus.tcp4me.com)
      3
    • Friendly Pinger (kilievich.com/rus/fpinger/)
      51
    • Ping, traceroute
      129
    • Нафиг нужно:)
      32
    • NetXMS netxms.org
      11
    • The Dude (mikrotik.com/dude/)
      202
    • Самописная система мониторинга
      120
    • Monit (mmonit.com/monit/)
      23
    • Ganglia (ganglia.info)
      1
    • Другая система
      83


Полный мониторинг сети. Кто как мониторит свою сеть.....

Пинги почти 20к железок вообще вопрос пяти секунд на опросить.

Насчет счетчиков - графики портов доступа же. А rrd вполне себе решение по хранению. Правда раз в минуту брать действительно излишне, но раз в пять допустимо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пинги почти 20к железок вообще вопрос пяти секунд на опросить.

Насчет счетчиков - графики портов доступа же. А rrd вполне себе решение по хранению. Правда раз в минуту брать действительно излишне, но раз в пять допустимо.

Простите, вы сами 50к параметров в секунду в RRD складывали на одной машине или предполагаете, что это будет сделать не сложно?

RRD прекрасная штука, сам с ней работал. Но думается мне, что даже 10К RRD файлов/сек будет запредельное количество для одной системы.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Пинги почти 20к железок вообще вопрос пяти секунд на опросить.

Насчет счетчиков - графики портов доступа же. А rrd вполне себе решение по хранению. Правда раз в минуту брать действительно излишне, но раз в пять допустимо.

Простите, вы сами 50к параметров в секунду в RRD складывали на одной машине или предполагаете, что это будет сделать не сложно?

RRD прекрасная штука, сам с ней работал. Но думается мне, что даже 10К RRD файлов/сек будет запредельное количество для одной системы.

240000 портов c линком прямо сейчас

На каждый опрашиваем

ifSpeed = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.5.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public', Timeout = 1000000)[0])

ifInErrors = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.14.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutErrors = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.20.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifInUcast = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.11.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutUcast = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.17.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifInMcast = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.2.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutMcast = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.4.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifInBcast = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.3.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutBcast = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.5.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifInOctets = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.6.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutOctets = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.10.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

итого ~2 600 000 параметров. Проходит все около 40 секунд что дает чуть больше 50кзаписей в секунду. Правда сервер на 2*5660, паре ssd и куче оперативки. Зато на нем еще несколько сервисов крутится в.т.ч дико загруженный Mysql.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

240000 портов c линком прямо сейчас

На каждый опрашиваем

ifSpeed = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.5.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public', Timeout = 1000000)[0])

ifInErrors = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.14.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutErrors = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.20.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifInUcast = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.11.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutUcast = int(snmpget(Varbind('.1.3.6.1.2.1.2.2.1.17.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifInMcast = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.2.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutMcast = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.4.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifInBcast = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.3.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutBcast = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.5.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifInOctets = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.6.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

ifOutOctets = int(snmpget(Varbind('.1.3.6.1.2.1.31.1.1.1.10.%i' % (cur_port)), Version = 2, DestHost = ip, Community = 'public')[0])

итого ~2 600 000 параметров. Проходит все около 40 секунд что дает чуть больше 50кзаписей в секунду. Правда сервер на 2*5660, паре ssd и куче оперативки. Зато на нем еще несколько сервисов крутится в.т.ч дико загруженный Mysql.

Нда, впечатляет. SSD диски, конечно решают много проблем, но все равно, сурово. И все эти значения потом в rrd? Или в БД?

 

Однако, справедливости ради должен заметить, что 50к время от времени - это не 50к в среднем за сутки. Много памяти под кэш сильно помогают в этом случае.

Но все равно очень приличные цифры, безсуловно.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

И все эти значения потом в rrd? Или в БД?

 

Однако, справедливости ради должен заметить, что 50к время от времени - это не 50к в среднем за сутки. Много памяти под кэш сильно помогают в этом случае.

Но все равно очень приличные цифры, безсуловно.

Все пишется в rrd + часть значений сразу в heap таблицу, часть значений (типа средней утилизации за некоторое время, набежавших ошибок итд) вытаскивается из rrd сразу после апдейта файла и тоже в базу. Табличка лежит в heap'е т.к. служит чисто для морды мониторинга всего этого, ну и проблемные места из мускуля легче искать, сотрутся данные и фиг с ним, через пять минут новые нарисуем.

Ну в среднем там не 50к, конечно, но достаточно много чего по крону друг за другом стартует постоянно, так что нагрузка приличная.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

что творится с этой темой? в нее никто не пишет, но она с завидной регулярностью появляется в списке "новые сообщения"

Изменено пользователем legioner0

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я думал это только у меня так (может закешировалось что), каждый день захожу и вижу сообщение от 21 декабря :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

что творится с этой темой? в нее никто не пишет, но она с завидной регулярностью появляется в списке "новые сообщения"

Голосует кто-то в опросе.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ищу систему для мониторинга коммутаторов. Требования:

1. Карта Yandex/Google/OpenStreetMap на подложке

2. Возможность более менее рисовать топологию (преломлять линии) и т.д.

3. "Пинговалка" и история событий

4. Производительность - ~5к устройств должна перевариваь без проблем.

 

Dude смотрел и пользовал - не совсем то.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Сам ищу такую.

+ распределение пользователей по доступу к картам/объектам

+ желательно модульность и возможность раскидать нагрузку на несколько серверов (опрос оборудования)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Сам ищу такую.

+ распределение пользователей по доступу к картам/объектам

+ желательно модульность и возможность раскидать нагрузку на несколько серверов (опрос оборудования)

eqm orange

Но думаю цена ...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Сам ищу такую.

+ распределение пользователей по доступу к картам/объектам

+ желательно модульность и возможность раскидать нагрузку на несколько серверов (опрос оборудования)

 

Вот по опыту борьбы за заббиксом (2.0, 2.2):

Можно получить 5К хостов и 1М параметров на достаточно скромной виртуалке (12G памяти 4 ядра). Вопрос в значениях в секунду, но 1К вытянет, если не городить кучу внешних скритов.

Так как история в БД, а не RRD - БД раздувается, надо тюнить и удалать старые данные не housekeeper-ом, а партициями. Как - описано в сети подробно.

Распределение умеет из каробки. Прокси ли Ноды - по вкусу.

Умеет и пинговалку и SNMP и telnet/ssh и внешние скрипты и траперы, как собственные, так и SNMP.

По цифровым значениям умеет строить графики.

На снимаемые значения параметров можно вешать тригеры, история смены значений триггеров (событий) ведется отдельно. На тригер можно повесить действие, в том числе и внешний скрипт.

Умеет искать и добавлять хосты (autodiscovery).

Умеет Low Level Discovery, то есть искать и добавлять параметры для отдельных "сущностей" хоста. Например, ищет все интерфейсы, можно по фильтру, и по каждому добавляет съем данных по байтам, пакетам, ошибкам, статусам и прочее, вешает нужные тригеры, графики. можно прикрутить довольно много всего подобного. Делал, для примера, для BGP соседей (автоматически находит и снимает статусы).

Разделение доступа по группам. Группы - многие ко многим, но только к хостам. Отдельные параметры задать нельзя.

Есть документированный API. То есть можно добавлять и удалять хоста и параметры, получать данные и прочее из других систем. Иногда это очень важно.

 

НО!

Карты и топология - в ручном режиме. Вообще - не видел ни одной системы, где бы карты рисовались терпимо, приходится много править руками. Однако, тут надо не править, а все рисовать самому. Можно попробовать делать это через API, самописными скриптами.

Линии преломлять не умеет, только прямые. На линии можно вешать тригеры, раскрашивать их по состоянию.

Есть модуль для интеграции с яндекс-картами, но написанный нашим умельцем, не в релизе и не без проблем. При значительном количестве проблем жрет ресурсы браузера и тормозит. Хосты развешиаются по карте по GPS координатам.

Сам веб-интерфейс довольно бедный, и, местами, тормозной, при большом количестве хостов и параметров.

 

В целом - система довольно развитая. Видимо, после того, как на них сел Яндекс, у них появились деньги и прогресс очень заметен.

Да, отдельно - очень развитая система тестирования веб-сервисов, но от меня далеко, мне не надо :).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Немного оффтопа - карту логической топологии можно практически полностью автоматизировать связкой postgres+postgis+mapserver+openlayers/leaflet+парочка самописных скриптов.

Правда, это совсем не "решение из коробки", придется повозиться с триггерами внутри базы, обновляющими связи при редактировании узлов, и заморочиться с подключением геокодера для получения координат по адресу, и наверняка еще куча всякого вылезет, но результат того стоит.

 

У нас пока точки-узлы добавляются и редактируются через qgis, а затем, на основе атрибутов этой точки, триггеры внутри БД строят связи, и следят за ними при редактировании узлов. + если ведется сбор статистики, например, о загруженности линков, доступности оборудования и пр. - это все тоже можно без проблем показывать на карте. Постепенно все больше и больше действий автоматизируется, и где-то далеко в конце тоннеля уже видно лучики света:)

Изменено пользователем lenny314

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Забыли много чего вписать) IBM Tivoli, HP OpenView например.

Речь была о разумных решениях. Предложенные вами неразумны для мелких и средних и даже относительно крупных.

С Тиволи не работал, но люди говорили, что там только обученных специалистов надо 3-4 человека, что система стартовала. Я уж не говорю про её стоимость.

HP OpenView - сейчас правда уже не так называется, навскидку не помню, как :) - штука чуть по проще, но совсем не дешевая и отнюдь не простая.

Cisco Prime - и та будет сильно проще, её, кстати, тоже не вписали, так же как EMC Smarts, и CA Spectrum и много чего еще за пределами разумного для рядового оператора.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Cisco Prime - и та будет сильно проще

Cisco Prime несколько для других задач, к тому же это целый зоопарк продуктов.

Я видел только несколько из них:

1) система организации ip-плана, связки ip-mac-dns и выгрузки этого добра в dhcp/dns

2) управление конфигурацией (настройка/обновление) + NetFlowV9 анализатор

3) система для настройки/поддержки/мониторинга сервисов для магистральных провайдеров

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Cisco Prime несколько для других задач, к тому же это целый зоопарк продуктов.

Я видел только несколько из них:

1) система организации ip-плана, связки ip-mac-dns и выгрузки этого добра в dhcp/dns

2) управление конфигурацией (настройка/обновление) + NetFlowV9 анализатор

3) система для настройки/поддержки/мониторинга сервисов для магистральных провайдеров

Не могу с вами не согласится, конечно я пропустил слово LMS.

И да, конечно он для других задач, прежде всего.

Про другие продукты читал, но в живую не видел.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

тоже написали под себя, но за ядро взяли nagios. Связали с mysql/rrd/карта сети(самописная ) вообщем много плюшек и корп системой(учет коммутаторов, добавление авто в nagios ). Вообщем пишите под себя)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

roysbike, та можно поподробнее?

Нагиос+ много плюшек у нас есть, интересно что вы прикрутили к нему, как выглядят графики, карта сети и т.д.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А что из этих систем живет и развивается? Используем какти, что то как была лет 5 назад, так она почти и осталась...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Забыли много чего вписать) IBM Tivoli, HP OpenView например.

Речь была о разумных решениях. Предложенные вами неразумны для мелких и средних и даже относительно крупных.

С Тиволи не работал, но люди говорили, что там только обученных специалистов надо 3-4 человека, что система стартовала. Я уж не говорю про её стоимость.

HP OpenView - сейчас правда уже не так называется, навскидку не помню, как :) - штука чуть по проще, но совсем не дешевая и отнюдь не простая.

Cisco Prime - и та будет сильно проще, её, кстати, тоже не вписали, так же как EMC Smarts, и CA Spectrum и много чего еще за пределами разумного для рядового оператора.

Сейчас софт от HP для мониторинга сетей называется HP IMC (Intellegent management center)

Мы используем у себя на предприятии (~200 устройств).

Плюсы:

- простота в установке, обновлении. Быстрое добавление устройств. Автоматическое построение карты сети и линков между устройствами. Интуитивно понятный интерфейс (на мой взгляд)

минусы:

- очень дорогая.

- не русифицирована.

Изменено пользователем shader

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ребят а кто нибудь мониторит ошибки на портах?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А что из этих систем живет и развивается? Используем какти, что то как была лет 5 назад, так она почти и осталась...

Zabbix. Новые релизы выходят регулярно. Баги фиксят, плюшки добавляют, Changelog вылизывают

 

Ребят а кто нибудь мониторит ошибки на портах?

 

В Zabbix'е можно по SNMP тягать счетчик ошибок, триггер на разницу значения по времени рисуется элементарно.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас