el_misho Posted June 14, 2011 Posted June 14, 2011 Здравствуйте, Скажите, пожалуйста, можно ли как нибудь используя связку fprobe + flow-tools получить не destination IP, а URL в статистике? Нужно для построение отчетов для пользователей. Сейчас использую фильтр flow-nfilter при сборе статистики посещения сайтов 10.10.10.2 ipшником. filter-primitive host type ip-address permit 10.10.10.2 default deny filter-definition inet match ip-source-address host После применения фильтра flow-cat /var/flows/2011/2011-06/* |flow-nfilter -Finet |flow-print можно ли в статистике соединений вместо destIP получить URL? srcIP dstIP prot srcPort dstPort octets packets 10.10.10.2 220.181.27.59 17 42228 53 62 1 10.10.10.2 213.137.246.1 17 53 42228 233 1 10.10.10.2 213.137.247.1 17 123 123 76 1 10.10.10.2 213.137.246.4 17 123 123 76 1 Т.е. так: srcIP dstIP prot srcPort dstPort octets packets 10.10.10.2 http://ya.ru 17 42228 53 62 1 10.10.10.2 http://mail.ru 17 53 42228 233 1 10.10.10.2 ftp://ftp.dlink.ru 17 123 123 76 1 Хочу извлечь эти данные и отображать на страничке пользователя, чтобы он видел какие сайты он посетил и сколько он там накачал Или нужно использовать другой фильтр? Коллектор? Вставить ник Quote
s.lobanov Posted June 14, 2011 Posted June 14, 2011 даже в сырых данных netflow нет урлов, поэтому нельзя если у вас трафика не очень много, то для http-трафика можно использовать прозрачное проксирование и например по логам прокси-сервера генерить статистику Вставить ник Quote
SiXeD Posted June 15, 2011 Posted June 15, 2011 Сделай логи днс с привязкой ко времени, будешь знать какие сайты посещает. Вставить ник Quote
el_misho Posted June 15, 2011 Author Posted June 15, 2011 Сделай логи днс с привязкой ко времени, будешь знать какие сайты посещает. В финальном отчете мне нужно не только посещенные хосты, но и объем скаченного с них. Наверно будет не правильно (да и жопно) в скрипте, который генерит отчет сопоставлять по параметру "время" данные из Netflow коллектора и данные из логов DNS. Попробую поднять squid с lightsquid и переписать пару скриптов из lightsquid под себя. Вставить ник Quote
s.lobanov Posted June 15, 2011 Posted June 15, 2011 Сделай логи днс с привязкой ко времени, будешь знать какие сайты посещает. это будет абсолютно бесполезная статистика, т.к. у пользователей есть локальный днс-кеш Вставить ник Quote
mlevel Posted June 15, 2011 Posted June 15, 2011 Написать скрипт, который для каждой записи будет делать: nslookup 8.8.8.8 | grep -i 'name =' А по номеру DST порта определять тип сервиса. Вставить ник Quote
SiXeD Posted June 15, 2011 Posted June 15, 2011 Мы нашли для тебя ответ, Забей результат либо плохо работает, либо много места занимает у меня через squid за сутки 20Gb логов набегает Вставить ник Quote
Ivan_83 Posted June 15, 2011 Posted June 15, 2011 Вместо сквида можно nginx настроить проксёй. Написать скрипт, который для каждой записи будет делать Фигня получится. Нужно значение HOST из заголовка запроса http. На одном ИП могут быть хоть миллионы разных сайтов, а свои AS есть у очень маленького процента контента держателей. Вставить ник Quote
zurz Posted June 15, 2011 Posted June 15, 2011 Вместо сквида можно nginx настроить проксёй. логов от этого меньше не станет =) Вставить ник Quote
zurz Posted June 15, 2011 Posted June 15, 2011 как нибудь используя связку fprobe + flow-tools получить не destination IP, а URL в статистике? как выше уже писали, в netflow данные об url не хранятся. Использовать reverse-dns-lookup тоже не выйдет, потому как на одном ип могут быть тысячи хостов для того, чего вы хотите есть urlsnarf и squid, но это решения совсем не того уровня, поэтому забейте =) Вставить ник Quote
Ivan_83 Posted June 15, 2011 Posted June 15, 2011 логов от этого меньше не станет =) Оно полегче, оптимизировано по лучше, и кеша по умолчанию нет вообще. Вставить ник Quote
s.lobanov Posted June 16, 2011 Posted June 16, 2011 Ну вообще можно логи парсить на лету, например с помощью syslog-ng v3 сливать их в базу и сделать функцию на PL/pgSQL, которая будет парсить строчку и сразу складировать в таблицу статистики. Мало того, я думаю, что скорее всего есть реализации прокси-серверов, которые ничего не кешируют, а просто считают статистику без всех тех костылей, которые я предлагаю Вставить ник Quote
Andrei Posted June 16, 2011 Posted June 16, 2011 у меня через squid за сутки 20Gb логов набегает "Органы" очень настоятельно "просят" хранить такие логи 2 года. Потому выход - 8 терабайтный рейд под это дело. Увы :( Вставить ник Quote
SiXeD Posted June 16, 2011 Posted June 16, 2011 "просят" А ещё "просят" весь проходящий трафик хранить, так на всякий Вставить ник Quote
Andrei Posted June 17, 2011 Posted June 17, 2011 Andrei Это в какой стране? Россия Вставить ник Quote
s.lobanov Posted June 17, 2011 Posted June 17, 2011 т.е. никто такой фигнёй не занимается, а именно вас почему-то пытаются заставить? Вставить ник Quote
Andrei Posted June 17, 2011 Posted June 17, 2011 т.е. никто такой фигнёй не занимается, а именно вас почему-то пытаются заставить? Отучаемся отвечать за всех. ОК? :) Вставить ник Quote
ixi Posted June 17, 2011 Posted June 17, 2011 Отучаемся отвечать за всех. ОК? :) Архив URL-ов? Нет технической возможности (собственно, у Вас и права нет выдирать их из трафика клиента, это не служебные заголовки). Все запросы идут только по IP и времени. Вставить ник Quote
Andrei Posted June 17, 2011 Posted June 17, 2011 Архив URL-ов? Нет технической возможности Нет, архив NetFlow. "Нет технической возможности" --> стук "органов" в надзор --> проверка --> предписание Вставить ник Quote
s.lobanov Posted June 17, 2011 Posted June 17, 2011 Архив URL-ов? Нет технической возможности Нет, архив NetFlow. "Нет технической возможности" --> стук "органов" в надзор --> проверка --> предписание Архив netflow у вас и так есть. Ну нет там урлов, это информация не 3его и не 4ого уровня. Предписание по какому поводу? Вставить ник Quote
Andrei Posted June 17, 2011 Posted June 17, 2011 Если перечитаете мои посты, то я про URL-ы никогда не писал. NetFlow обязаны хранить. Не храните - получите предписание за невыполнение требований по СОРМ. Вставить ник Quote
s.lobanov Posted June 17, 2011 Posted June 17, 2011 Если перечитаете мои посты, то я про URL-ы никогда не писал. NetFlow обязаны хранить. Не храните - получите предписание за невыполнение требований по СОРМ. у меня через squid за сутки 20Gb логов набегает "Органы" очень настоятельно "просят" хранить такие логи 2 года. Потому выход - 8 терабайтный рейд под это дело. Увы :( Логи сквида это фактически и есть урлы. Или я не правильно понял смысл слов "такие логи" ? Вставить ник Quote
Andrei Posted June 20, 2011 Posted June 20, 2011 Или я не правильно понял смысл слов "такие логи" ? Конечно неправильно. Перечитайте еще раз. :) Вставить ник Quote
SiXeD Posted June 20, 2011 Posted June 20, 2011 (edited) Разобьём все сомнения вопросом. Дайте ссылку на статью(Закон) где написано про хранение детальки(за предыдущие месяца), сбор непонятных данных(URL), и ещё какой лубуды. Edited June 20, 2011 by SiXeD Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.