Перейти к содержимому
Калькуляторы
Ваша система мониторинга  

1405 пользователей проголосовало

  1. 1. Ваша система мониторинга

    • Zabbix (zabbix.com)
      473
    • Nagios (nagios.org)
      322
    • MRTG (oss.oetiker.ch/mrtg/)
      182
    • Cacti (cacti.net)
      490
    • TclMon (tclmon.sourceforge.net)
      3
    • RRDtool (oss.oetiker.ch/rrdtool/)
      65
    • Zenoss (zenoss.com)
      21
    • OpenNMS (opennms.org)
      7
    • PRTG Network Monitor (www.paessler.com/prtg/)
      54
    • Munin (munin-monitoring.org)
      25
    • Argus (argus.tcp4me.com)
      3
    • Friendly Pinger (kilievich.com/rus/fpinger/)
      51
    • Ping, traceroute
      129
    • Нафиг нужно:)
      32
    • NetXMS netxms.org
      12
    • The Dude (mikrotik.com/dude/)
      208
    • Самописная система мониторинга
      122
    • Monit (mmonit.com/monit/)
      23
    • Ganglia (ganglia.info)
      1
    • Другая система
      84


Полный мониторинг сети. Кто как мониторит свою сеть.....

Zabbix. Новые релизы выходят регулярно. Баги фиксят, плюшки добавляют, Changelog вылизывают

Согласен, что проект живет довольно активно. Как помниться, Яндекс на заббиксе живет, видимо дает денег и на развитие.

Однако, поддержку следует ждать, если платить за оную.

 

Мне вот, без денег, явную ошибку в 2.2.1, 2.2.2 не исправили, сам копал, патчил.

Убили lastvalues в 2.2.0, чем сильно усложнили многие задачи.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А что из этих систем живет и развивается? Используем какти, что то как была лет 5 назад, так она почти и осталась...

Zabbix. Новые релизы выходят регулярно. Баги фиксят, плюшки добавляют, Changelog вылизывают

 

Ребят а кто нибудь мониторит ошибки на портах?

В Zabbix'е можно по SNMP тягать счетчик ошибок, триггер на разницу значения по времени рисуется элементарно.

Именно так сейчас и мониторю, опрашиваю свичи раз в 10 минут.

Опрашиваю такие параметры:

dot3StatsCarrierSenseErrors

dot3StatsFCSErrors

dot3StatsCarrierSenseErrors

dot3StatsAlignmentErrors

ifInDiscards

Inbound errors

Тригер срабатывает если новое значение отличается от предыдущего на 600.

 

Хотелось бы узнать кто что опрашивает, с каким интервалом и на какое количество ошибок в N интервал времени стоит обращать внимание. На магистральных портах ошибки по уберали а вот что делать с абонентскими. В начале тригер настраивал на 100 ошибок в 10 минут, в среднем забикс присылал 600 писем в сутки. Увечилил интервал до 600 ошибок в 10 минут, заббикс стал слать меньше писем от абонентских портов.

Изменено пользователем FATHER_FBI

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Интересный вопрос.

Я так и не решил его окончательно.

Мониторю ошибки Нагиосом но не о том речь.

Так и не смог выловить какой то зависимости.

Иногда у некоторых абонентов может скакнуть единоразово счетчик ошибок на несколько тысяч.

На момент анализа ситуации - никаких проблем у юзера нет, и счетчик больше не растет.

Таких абонент большинство. Те у которых ошибки растут постояянно - единицы, и обычно на момент анализа уже позвонили в ТП и завели заявку.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

По ошибкам, по моему мнению, хорошо сделать так.

1. Магистральные линки на ошибки мерять обязательно. Ибо даже кратковременные ошибки на магистралях влияют на качество сервиса всех и признак проблем в сети. Но мерять проценты от трафика, а не абсолютные значения.

2. Абонентские линии мерять не столь важно, хотя может помочь ТП в диагностике проблемы. Но думаю, надо брать заметно усредненные значения, для сработки триггеров. Кратковременные потери не критичны пользователю.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Единовременные ошибки от клиента?.. да может оно стулом на провод встало ? Потом слезло.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Отдельно магистральные мониторить не получиться, потому что заводить 650 свичей ручками накладно, решил эту проблему автообнаружением. Создал шаблон на прототипах, создал правила автообнаружения и создал 160 действий для правила обнаружения. Заббикс раз в час проходиться по сети, находит, создает, добавляет в группы, если свич не доступен сутки, открепляет его от шаблона, удаляет с группы и из узлов сети.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

а что, здесь никто не слышал про ОАМ?

свичи сами мониторят свои порты и шлют сообщения только если проблема обнаружена, и не надо мониторить 100500 тысяч счетчиков

даже длинки его умеют

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

а что, здесь никто не слышал про ОАМ?

свичи сами мониторят свои порты и шлют сообщения только если проблема обнаружена, и не надо мониторить 100500 тысяч счетчиков

даже длинки его умеют

Поделитесь с народом опытом, выложите примеры конфигов и их применение на собственном опыте.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Поделитесь с народом опытом, выложите примеры конфигов и их применение на собственном опыте.

Поддерживаю. Было б интересно посмотреть на реальный пример использования этого функционала.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

казалось бы что там настраивать

ну ради интереса

template NNI
ethernet oam link-monitor frame window 600
ethernet oam link-monitor frame threshold high 2
ethernet oam link-monitor receive-crc window 1800
ethernet oam link-monitor receive-crc threshold low 1
ethernet oam link-monitor receive-crc threshold high 2

interface GigabitEthernet0/1
source template NNI
ethernet oam

на самом деле в бою еще не удалось проверить, в лабе только генерил ошибки, отлавливает, а на сети пока что не было таких портов чтобы система сработала, оптику хорошо кладут.

эту штуку на клиентов можно понавключать, но я так еще не делал, нет надобности, а кому-то может и пригодится

 

сообщения прилетают вида

на циске
*Mar  1 04:54:59: %ETHERNET_OAM-5-LINK_MONITOR: 121507 rx CRC errors detected over the last 180 seconds on interface Fa0/24.

на длинке
SYSLOG: Feb 1 12:00:08 10.200.24.3 WARN: Errored frame event received (Port 28)

 

и все, достаточно чтобы система, собирающая сислог, распознать эти сообщения и прислать уведомление

Изменено пользователем zi_rus

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

казалось бы что там настраивать

ну ради интереса

template NNI
ethernet oam link-monitor frame window 600
ethernet oam link-monitor frame threshold high 2
ethernet oam link-monitor receive-crc window 1800
ethernet oam link-monitor receive-crc threshold low 1
ethernet oam link-monitor receive-crc threshold high 2

interface GigabitEthernet0/1
source template NNI
ethernet oam

на самом деле в бою еще не удалось проверить, в лабе только генерил ошибки, отлавливает, а на сети пока что не было таких портов чтобы система сработала, оптику хорошо кладут.

эту штуку на клиентов можно понавключать, но я так еще не делал, нет надобности, а кому-то может и пригодится

 

сообщения прилетают вида

на циске
*Mar  1 04:54:59: %ETHERNET_OAM-5-LINK_MONITOR: 121507 rx CRC errors detected over the last 180 seconds on interface Fa0/24.

на длинке
SYSLOG: Feb 1 12:00:08 10.200.24.3 WARN: Errored frame event received (Port 28)

 

и все, достаточно чтобы система, собирающая сислог, распознать эти сообщения и прислать уведомление

 

То что вы описали, применяется скорей всего на маршрутизаторах, потому что мне не удалось создать предложенный вами пример на L2 и L3 свичах

 

L2

4mikro-7d-1p(config)#template nni
4mikro-7d-1p(config)#

 

L3

core1#conf
core1#configure
Configuring from terminal, memory, or network [terminal]?
Enter configuration commands, one per line.  End with CNTL/Z.
core1(config)#tem
core1(config)#template nni
core1(config-template)#eth
core1(config-template)#?
Template configuration commands:
 aaa            Authentication, Authorization and Accounting.
 default        Set a command to its defaults
 exit           Exit from template configuration mode
 no             Negate a command or set its defaults
 peer           Peer parameters for point to point interfaces
 radius-server  Modify RADIUS query parameters

core1(config-template)#
do s

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

нет, это свичевая штука

на цисках на ME3400 серии есть, а может еще на каких, это надо в доке смотреть

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

нет, это свичевая штука

на цисках на ME3400 серии есть, а может еще на каких, это надо в доке смотреть

Ну дык потому счетчики и используются...

MIB-II - он есть почти везде, где есть SNMP и управление.

Найти все интерфейсы через ifDescr/ifName и собрать счетчики для всего оборудования автоматически и единообразно.

У кого 3 девайса - тот может позволить себе играть в различные конфигурации. У кого 33 - тому сложнее, но почему нет, если есть время и настроение?

У кого 3333 - тот будет максимально унифицироваться и сокращать геморой, ибо зоопарка и так более чем достаточно.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

У кого 3333 - тот будет максимально унифицироваться и сокращать геморой, ибо зоопарка и так более чем достаточно.

у кого 3333 тот будет унифицировать железо, это дешевле при покупке большими партиями и при эксплуатации

единственное возможное это процесс апгрейда когда поколения железок сменяются

 

ОАМ это не фича, это функция, вполне стандартная функция. оборудование для операторов ее поддерживает, оборудование для ентерпрайза которое по недоразумению покупает провайдер, ее не умеет, по крайней мере сейчас. если мы говорим об операторах, то и соответствующее оборудование имеем ввиду

 

в поле моего зрения есть МЕ3400 всех разновидностей, asr901, asr9k, 7600, des-3200 - все умеют оам

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

У кого 3333 - тот будет максимально унифицироваться и сокращать геморой, ибо зоопарка и так более чем достаточно.

у кого 3333 тот будет унифицировать железо, это дешевле при покупке большими партиями и при эксплуатации

единственное возможное это процесс апгрейда когда поколения железок сменяются

 

ОАМ это не фича, это функция, вполне стандартная функция. оборудование для операторов ее поддерживает, оборудование для ентерпрайза которое по недоразумению покупает провайдер, ее не умеет, по крайней мере сейчас. если мы говорим об операторах, то и соответствующее оборудование имеем ввиду

 

в поле моего зрения есть МЕ3400 всех разновидностей, asr901, asr9k, 7600, des-3200 - все умеют оам

Покажите мне оператора, у которого нет зоопарка оборудования и я соглашусь, что для него это прекрасная фича.

 

Еще многие коммутаторы умеют tdm для эзернет портов.

Cisco, непример, прекрасно говорит, что шлейф 54 метра, на другом хвосте оборудование (или нет ничего), или пишет, что по второй паре обрыв на расстоянии 13 метров, что-то еще умеет, уж не помню точно. И даже по SNMP все это отдает.

Какой процент это использует?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

мы это используем, вернее саппорт, достаточно регулярно очень удобная штука, причем поддерживается даже ентерпрайзными свичами

любой, кто тянет медь и у кого эта медь рвется, использует эту фичу

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Хмм, спасибо, ушел курить маны по oam.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

всем привет. Подскажите. что то какти в последнее время начал рисовать прерывистые графики. Есть ли решение?

graph_image.png

 

П.С. что то какти живет в прошлом, не хватает карты сети :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Так была заморочь по крайней мере в забикс, таймауты настройки snmp.conf, в последних версиях чот крутнули и теперь через попу, но если память не изменяет.

В общем покурите snmp.conf на счет таймаутов.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Zabbix 2.4 вышел в паблик, кто-то уже обновился?

У мну руки дойдут через пару недель только, там сильно все завязано на рабочей машине.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Стоит 2.4.1, работает без нареканий. Рекомендую обновляться сразу на эту версию, минуя 2.4.0 (в 2.4.0 есть досадный баг с обновлением БД).

 

По прерывистому графику. У меня такое же было на гигабитных портах. Вылечилось переходом с использования 32-битных счетчиков на 64-битные.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В Zabbix 2.4 у вас нормально snmpbulk работает?

На наших коммутаторах с этим интеллектуальным алгоритмом poller через время уходит в полку. Приходится пока использовать 2.2 с патчем, который его отключает.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

С snmpbulk проблем не возникало. Ни на 2.2, и на 2.4. Кстати, на 2.4 его можно отключать для конкретных железок, если таковых вдруг начинает пучить.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В Zabbix обновился последовательно 2.0.12 - 2.2.6 - 2.2.7rc2 - 2.4.1. Регулярно ловлю проблемы с SNMP на прокси. Растет очередь иногда полностью встает сбор данных с прокси, причем судя по дебагу прокси, данные с прокси иногда все же идут, но с дичайшей задержкой в 2-3 часа. В ветке 2.4 и в 2.2 очень критична синхронизация времени мастер сервера с проксями, если есть небольшая разница то растет очередь элементов. SNMP bulk работает как то странно, у меня даже на том железе где он точно поддерживается от его включения становится только хуже прокси серверу, в итоге выключаю его везде. SNMP bulk выключается для каждого интерфейса отдельно, причем в веб морде для группы узлов сетей его выключить невозможно, приходится вырубать SQL запросом к БД у всех сразу.

Версию 2.4 не рекомендую, есть досадный баг с автообнаружением и добавлением узлов в группы.

На прокси нагрузка небольшая около 3000 железок с ICMP + немного SNMP, суммарно около 200 новых значений в секунду.

 

Так же из-за того что некоторое железо дико тупое и на SNMP запросы отвечает медленно или просто не отвечает применяю небольшой патч

в файле src/zabbix_server/poller/checks_snmp.c

Количество попыток меняю с 0 на 1 или 2, по вкусу.

session.retries = 1;

 

Так же в 2.4.1 пока не смог до конца победить weathermap. Карты рисует, линки раскрашивает, но всплывающие графики пока не сделал. Кто либо прикручивал weathermap к Zabbix?

Изменено пользователем sersad

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

всем привет. Подскажите. что то какти в последнее время начал рисовать прерывистые графики. Есть ли решение?

смотри логи в них ответ на твой вопрос.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.