Negator Posted May 31, 2011 Posted May 31, 2011 В продолжении доклада Кривенко Вадима. Общая идея того что я хочу тут сказать - диагностика проблем НЕ дожидаясь звонка абонента по проблеме. Интересует вот что. Мы получили кучу данных от системы мониторинга и что с ними дальше делать? Поясню на примере. Сейчас научился собирать статистику ошибок на каждом порту каждого свича в сети. Обнаружил ~70 растущих счетчиков ошибок. Вопрос -что дальше делать с этими данными? Звонить абоненту со словами -вы знаете мы подозреваем что у Вас могут быть проблемы с сетью -давайте вызовем мастера? Рискую быть послан далеко и надолго, особенно если ошибок не сильно много и у абонента в принципе работает, медленно с потерями, но его это устраивает. Идти менять порт свича? Тыкаться ноутбуком и смотреть ошибки? Есть ли в этом смысл? Проблема скорее всего с кабелем или с абонентским оборудованием. Да и как показывает практика -пока трафика с порта нет -ошибки не растут. Собственно я пока рассмотрел конкретный случай на примере с ошибками на портах. А вопрос то общий. Что делать если мы нашли что то подозрительное на порту? М.б. СМС рассылка -что мы обнаружили проблемы с вашим подключением -если надо -позвоните. Речь идет не о конкретно ошибках на порту, а о общих случаях оповещения абонентов. Есть ли что то подобное у Вас. Как поступать в таких случаях. Вставить ник Quote
Sonne Posted May 31, 2011 Posted May 31, 2011 Могу поделиться своим опытом, правда задача решалась на порядок более сложная чем в эзернет сети. Шаг 1. Собираем разные нужные "голые" параметры на всех интересующих девайсах. Параметры можно выводить в формате rrd. У меня было порядка 50 тысяч потоков. Шаг 2. Определяем трешхолды для важных параметров, т.е. устанавливаем уровни параметров отлично/терпимо/аварийно. Это задача ислледователсько-аналитическая-эмпирическая. Отчасти уровни параметров определены в технической политике компании. Шаг 3. Пишем обработчики сырой статистики, который допустим в понедельник обрабатывает все данные и делает таблицы худших по актуальным наблюдаемым параметрам Шаг 4. Отставляем подъемную выборку, скажем TOP-20 худших узлов. Шаг 5. На регулярном совещании в понедельник проиводственное подразделение анализирует TOP-20 и пишет наряды с категорией "плановые работы". Шаг 6. Если производственная бригада выезжает в какой то район, всегда проверяется наличие плановых работ и по пути дается доп работа. За два года работы данной схемы с минимально возможными затратами компании (часто доп работы давались в спаде основных работ чтобы загружать бездельников) качество сети совершило существенный рывок. Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.