Jump to content

Recommended Posts

Posted

Здравствуйте,

Скажите, пожалуйста, можно ли как нибудь используя связку fprobe + flow-tools получить не destination IP, а URL в статистике? Нужно для построение отчетов для пользователей. Сейчас использую фильтр flow-nfilter при сборе статистики посещения сайтов 10.10.10.2 ipшником.

 

filter-primitive host
   type ip-address
   permit 10.10.10.2
   default deny

filter-definition inet
   match ip-source-address host

 

После применения фильтра

flow-cat /var/flows/2011/2011-06/* |flow-nfilter -Finet |flow-print

 

можно ли в статистике соединений вместо destIP получить URL?

srcIP            dstIP            prot  srcPort  dstPort  octets      packets
10.10.10.2    220.181.27.59    17    42228    53       62          1         
10.10.10.2    213.137.246.1    17    53       42228    233         1         
10.10.10.2    213.137.247.1    17    123      123      76          1         
10.10.10.2    213.137.246.4    17    123      123      76          1 

 

Т.е. так:

srcIP            dstIP            prot  srcPort  dstPort  octets      packets
10.10.10.2    http://ya.ru          17    42228    53       62          1         
10.10.10.2    http://mail.ru        17    53       42228    233         1         
10.10.10.2    ftp://ftp.dlink.ru    17    123      123      76          1

 

Хочу извлечь эти данные и отображать на страничке пользователя, чтобы он видел какие сайты он посетил и сколько он там накачал

 

Или нужно использовать другой фильтр? Коллектор?

Posted

даже в сырых данных netflow нет урлов, поэтому нельзя

 

если у вас трафика не очень много, то для http-трафика можно использовать прозрачное проксирование и например по логам прокси-сервера генерить статистику

Posted

Сделай логи днс с привязкой ко времени, будешь знать какие сайты посещает.

 

В финальном отчете мне нужно не только посещенные хосты, но и объем скаченного с них. Наверно будет не правильно (да и жопно) в скрипте, который генерит отчет сопоставлять по параметру "время" данные из Netflow коллектора и данные из логов DNS. Попробую поднять squid с lightsquid и переписать пару скриптов из lightsquid под себя.

Posted

Сделай логи днс с привязкой ко времени, будешь знать какие сайты посещает.

 

это будет абсолютно бесполезная статистика, т.к. у пользователей есть локальный днс-кеш

Posted

Написать скрипт, который для каждой записи будет делать:

nslookup 8.8.8.8 | grep -i 'name ='

А по номеру DST порта определять тип сервиса.

Posted

Мы нашли для тебя ответ, Забей

 

результат либо плохо работает, либо много места занимает

у меня через squid за сутки 20Gb логов набегает

Posted

Вместо сквида можно nginx настроить проксёй.

 

Написать скрипт, который для каждой записи будет делать

 

Фигня получится. Нужно значение HOST из заголовка запроса http. На одном ИП могут быть хоть миллионы разных сайтов, а свои AS есть у очень маленького процента контента держателей.

 

 

Posted

как нибудь используя связку fprobe + flow-tools получить не destination IP, а URL в статистике?

как выше уже писали, в netflow данные об url не хранятся.

Использовать reverse-dns-lookup тоже не выйдет, потому как на одном ип могут быть тысячи хостов

 

для того, чего вы хотите есть urlsnarf и squid, но это решения совсем не того уровня, поэтому забейте =)

Posted

Ну вообще можно логи парсить на лету, например с помощью syslog-ng v3 сливать их в базу и сделать функцию на PL/pgSQL, которая будет парсить строчку и сразу складировать в таблицу статистики. Мало того, я думаю, что скорее всего есть реализации прокси-серверов, которые ничего не кешируют, а просто считают статистику без всех тех костылей, которые я предлагаю

Posted

у меня через squid за сутки 20Gb логов набегает

"Органы" очень настоятельно "просят" хранить такие логи 2 года. Потому выход - 8 терабайтный рейд под это дело. Увы :(

Posted
Отучаемся отвечать за всех. ОК? :)

Архив URL-ов? Нет технической возможности (собственно, у Вас и права нет выдирать их из трафика клиента, это не служебные заголовки). Все запросы идут только по IP и времени.

Posted

Архив URL-ов? Нет технической возможности

Нет, архив NetFlow.

"Нет технической возможности" --> стук "органов" в надзор --> проверка --> предписание

 

Архив netflow у вас и так есть. Ну нет там урлов, это информация не 3его и не 4ого уровня. Предписание по какому поводу?

Posted

Если перечитаете мои посты, то я про URL-ы никогда не писал. NetFlow обязаны хранить. Не храните - получите предписание за невыполнение требований по СОРМ.

Posted

Если перечитаете мои посты, то я про URL-ы никогда не писал. NetFlow обязаны хранить. Не храните - получите предписание за невыполнение требований по СОРМ.

 

у меня через squid за сутки 20Gb логов набегает

"Органы" очень настоятельно "просят" хранить такие логи 2 года. Потому выход - 8 терабайтный рейд под это дело. Увы :(

 

Логи сквида это фактически и есть урлы. Или я не правильно понял смысл слов "такие логи" ?

Posted (edited)

Разобьём все сомнения вопросом.

 

Дайте ссылку на статью(Закон) где написано про хранение детальки(за предыдущие месяца), сбор непонятных данных(URL), и ещё какой лубуды.

Edited by SiXeD

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.