Опубликована Процедура блокировки некошерной инфо

tawer

Опубликовано 12 ноября, 2012 (изменено) · Жалоба

что есть certs.pem, а что key.pem?

делал так:

/usr/local/bin/openssl pkcs12 -in p12.pfx -out certs.pem -nokeys

/usr/local/bin/openssl pkcs12 -in p12.pfx -out key.pem -nodes

Изменено 12 ноября, 2012 пользователем tawer

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Ansy

Опубликовано 12 ноября, 2012 · Жалоба

В crontab 15 9,21 * * *

#!/bin/sh
cd /где/оно/у/вас/там/лежит

# этот скриптик для выдергивания реестра пробегал выше, огромное СПАСИБО!
./zapret_checker.py

# Вот есть же специализированные средства для разбора XML в файлики по вкусу, хоть сразу конфиг формируй
xmlstarlet sel -T -t -m "reg:register/content" -v "concat(ip,';',url)" -n dump.xml > dump.csv

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

tawer

Опубликовано 12 ноября, 2012 · Жалоба

В crontab 15 9,21 * * *

#!/bin/sh
cd /где/оно/у/вас/там/лежит

# этот скриптик для выдергивания реестра пробегал выше, огромное СПАСИБО!
./zapret_checker.py

# Вот есть же специализированные средства для разбора XML в файлики по вкусу, хоть сразу конфиг формируй
xmlstarlet sel -T -t -m "reg:register/content" -v "concat(ip,';',url)" -n dump.xml > dump.csv

как оно отработает если в разделе <content> будет несколько полей с одинаковым именем <ip></ip>?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

apog

Опубликовано 12 ноября, 2012 · Жалоба

Вообще для порядка надо бы подпись РКН проверять перед применением фильтрации

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Ansy

Опубликовано 12 ноября, 2012 (изменено) · Жалоба

# Вот есть же специализированные средства для разбора XML в файлики по вкусу, хоть сразу конфиг формируй
xmlstarlet sel -T -t -m "reg:register/content" -v "concat(ip,';',url)" -n dump.xml > dump.csv
как оно отработает если в разделе <content> будет несколько полей с одинаковым именем <ip></ip>?

Задумывался. Но если честно -- пока не проверял.

Благо, в реестре таких вариантов пока и нет, и по IP еще не блокируем -- только по URL.

Подозреваю, если оно соответствует XML-стандарту, то и способ обработки должен быть.

Опять же предполагаю выкраивать в отдельную цепочку 80-й порт + IP из списка (можно и другими утилитами), а потом заворачивать ТОЛЬКО ЭТОТ поток на прокси или Layer7-анализатор уже по URL, не найдено -- отпускаем с миром.

P.S. Добавил lurkmore соседний IP вторым и вывел ТОЛЬКО IP-шники (-v "ip") -- выдало оба адреса, но слепило их в одну строчку без разделителей. Это навскидку. Хотя вариант

xmlstarlet pyx dump.xml | grep ^-

меня тоже устроит в данном раскладе -- просто корректный список IP.

Изменено 12 ноября, 2012 пользователем Ansy

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

apog

Опубликовано 12 ноября, 2012 · Жалоба

Ребят, подскажите, пожалуйста, как избавиться от сообщений при выполнении скрипта:

Wide character in print at ./xml-parser.pl line 52.

Это сообщение в том месте, когда в urllist выводится http://............/Способы_употребления

Еще подобное сообщение видел, когда сразу после отправки запроса попытался получить выгрузку:

./zapret-info.pl 1
Wide character in syswrite at /usr/lib/perl/5.10/Sys/Syslog.pm line 482.

На сколько я понял это в этом месте:

if ($getresult[0] eq 'false') { 
           mylog ("$getresult[1]");

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

AdmSasha

Опубликовано 12 ноября, 2012 · Жалоба

apog, типа так

binmode (STDOUT, ":utf8");

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

drdaeman

Опубликовано 12 ноября, 2012 · Жалоба

Я вас тут попаникую немного, хорошо?

2. В реестр включаются:

1) доменные имена и (или) указатели страниц сайтов в сети "Интернет",

содержащих информацию, распространение которой в Российской Федерации

запрещено;

2) сетевые адреса, позволяющие идентифицировать сайты в сети "Интернет",

содержащие информацию, распространение которой в Российской Федерации

запрещено.

Там еще много всякого, но я о самом насущном:

В течение суток с момента включения в реестр сетевого адреса,
позволяющего идентифицировать сайт в сети "Интернет", содержащий

информацию, распространение которой в Российской Федерации запрещено,

оператор связи, оказывающий услуги по предоставлению доступа к

информационно-телекоммуникационной сети "Интернет", обязан ограничить доступ

к такому сайту в сети "Интернет".

Короче, если почитать закон, то в нем ясно читается, что операторы обязаны блокировать (по сетевому адресу) сайты, содержащие информацию, а не какие-то там страницы.

А страницы в реестре только указывают на сайты, которые информацию содержат. Пресс-конференция Роскомнадзора, где они говорили обратное, как я понимаю, не имеет какой-либо юридической силы.

Вот такие вот принтеры взбесившиеся. DPI можно заворачивать назад, оно не нужно.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Andrei

Опубликовано 12 ноября, 2012 · Жалоба

вою залипуху:

p# ./parser.pl
Can't locate XML/Twig.pm in @INC (@INC contains: /etc/perl /usr/local/lib/perl/5.8.4 /usr/local/share/perl/5.8.4 /usr/lib/perl5 /usr/share/perl5 /usr/lib/perl/5.8 /usr/share/perl/5.8 /usr/local/lib/site_perl .) at ./parser.pl line 5.
BEGIN failed--compilation aborted at ./parser.pl line 5.

с использованием класса "XML::Simple": (складывает только ip адреса в файл, без сортировки и т.п.)

# ./parser_ip_only.pl
Can't locate XML/Simple.pm in @INC (@INC contains: /etc/perl /usr/local/lib/perl/5.8.4 /usr/local/share/perl/5.8.4 /usr/lib/perl5 /usr/share/perl5 /usr/lib/perl/5.8 /usr/share/perl/5.8 /usr/local/lib/site_perl .) at ./parser_ip_only.pl line 4.
BEGIN failed--compilation aborted at ./parser_ip_only.pl line 4.

# xmlstarlet
sh: xmlstarlet: command not found

Чего не хватает? В этих перлах/php понимаю слабо. :(

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Иванов Денис

Опубликовано 12 ноября, 2012 · Жалоба

Как и обещал:

PHP сценарий выгрузки РЗС (реестра запрещённых сайтов) в базу данных

rzs-get.tar.gz

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Wingman

Опубликовано 12 ноября, 2012 · Жалоба

Кстати, это у меня скрипт бесится, или реально постоянно обновляется lastDumpDate, но сам дамп не меняется?)

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

drdaeman

Опубликовано 12 ноября, 2012 · Жалоба

Кстати, это у меня скрипт бесится, или реально постоянно обновляется lastDumpDate, но сам дамп не меняется?)

На 2-с-небольшим часа ночи было 2012-11-10 22:09:00+00:00.

В 17:50 было 2012-11-12 13:09:00+00:00.

На текущий момент, 2012-11-12T15:09:00+00:00.

Так что, да, раз в час, в 9 минут каждого часа, независимо от наличия изменений.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

apog

Опубликовано 12 ноября, 2012 · Жалоба

Как и обещал:

PHP сценарий выгрузки РЗС (реестра запрещённых сайтов) в базу данных

rzs-get.tar.gz

Спасибо, посмотрим.

Чего не хватает? В этих перлах/php понимаю слабо. :(

Во всех трех случаях в системе не хватает необходимых компонентов

1. libxml-twig-perl

2. libxml-simple-perl

3. xmlstarlet

Менеджер пакетов поможет

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Wingman

Опубликовано 12 ноября, 2012 (изменено) · Жалоба

Как и обещал:

PHP сценарий выгрузки РЗС (реестра запрещённых сайтов) в базу данных

rzs-get.tar.gz

Тоже набросал нечто подобное, но в моём логики наворочано - чёрт ногу сломит, поэтому предоставляется as is и для внедрения желательно знать php ;)

Запускать по крону раз в 10-30-60 минут

Проверяет и запоминает lastDumpDate от РКН; если она увеличилась - подписывает файлик и отправляет запрос; сохраняет код; при след. вызове скачивает дамп либо умирает до след. вызова, если сайт отвечает "запрос в обработке"

Из дампа выдергивает урлы, ипы (их в том числе резолвит), домены; новые сохраняет в бд; затем пробегается по своей БД и проверяет все ипы и урлы -- если каких-то нет в дампе, удаляет их из бд. Изменения шлёт на мыло.

Дальше собсно с данными в базе можно делать что угодно - составлять ацли и т.д. Мы пока выводим в своей срм, обрабатываем руками, и ставим пометку "обработано"

http://ip-home.net/files/zapret.zip

Изменено 12 ноября, 2012 пользователем Wingman

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

apog

Опубликовано 12 ноября, 2012 · Жалоба

apog, типа так
binmode (STDOUT, ":utf8");

Спасибо, для STDOUT помогло. Добавил просто в начало скрипта. А как чтобы помогло с syslog и print в файл?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

yegorov-p

Опубликовано 12 ноября, 2012 · Жалоба

Рутрекер пошел: http://habrahabr.ru/post/158345/

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

korvatsky

Опубликовано 12 ноября, 2012 · Жалоба

Как и обещал:

PHP сценарий выгрузки РЗС (реестра запрещённых сайтов) в базу данных

rzs-get.tar.gz

Тоже набросал нечто подобное, но в моём логики наворочано - чёрт ногу сломит, поэтому предоставляется as is и для внедрения желательно знать php ;)

Запускать по крону раз в 10-30-60 минут

Проверяет и запоминает lastDumpDate от РКН; если она увеличилась - подписывает файлик и отправляет запрос; сохраняет код; при след. вызове скачивает дамп либо умирает до след. вызова, если сайт отвечает "запрос в обработке"

Из дампа выдергивает урлы, ипы (их в том числе резолвит), домены; новые сохраняет в бд; затем пробегается по своей БД и проверяет все ипы и урлы -- если каких-то нет в дампе, удаляет их из бд. Изменения шлёт на мыло.

Дальше собсно с данными в базе можно делать что угодно - составлять ацли и т.д. Мы пока выводим в своей срм, обрабатываем руками, и ставим пометку "обработано"

http://ip-home.net/files/zapret.zip

Мне, как руководителю, но не программеру особенно понравилась jопция/функция:

12 ноября 2012 г., 19:55:52 (Mon, 12 Nov 2012 19:55:52 +0400)

.........

Total URLs in registry: 41

Total IPs: 48

Total domains: 0

Я регулярно получаю сводку на e-mail

Наш 'Wingman' = молодец!

P.S.

Хотя в выгрузке и были домены второго уровня

в доменах первого уровня

.name/

.narkop.biz/

.xapka.com/

.tv/

.ru/

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Andrei

Опубликовано 12 ноября, 2012 · Жалоба

Рутрекер пошел: http://habrahabr.ru/post/158345/

http://rutracker.org/forum/viewtopic.php?t=620726

Тема находится в мусорке

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

atomlab

Опубликовано 12 ноября, 2012 (изменено) · Жалоба

Конституция РФ, Ст.15, п.3.
Законы подлежат официальному опубликованию. Неопубликованные законы не применяются. 
Любые нормативные правовые акты, затрагивающие права, свободы и обязанности человека и гражданина, 
не могут применяться, если они не опубликованы официально для всеобщего сведения.

Интересно, сам черный список относится ли к нормативному акту и должен ли в соответствии с конституцией быть опубликован для всеобщего сведения? А не только для узкого круга лиц (провайдеров) по ключам.

Изменено 12 ноября, 2012 пользователем atomlab

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Soltik

Опубликовано 12 ноября, 2012 (изменено) · Жалоба

Что-то не очень охота на PHP заморачиваться с XML-файлом, особенно когда он станет размером как слон, так что может кому пригодится преобразование вот к такому виду:

id="47" includeTime="2012-11-05T00:19:48" date="2012-11-01" number="1-РИ" org="Роскомнадзор" url="http://www.gayzona.com/oral/4/2.html" ip="212.7.193.13"
id="51" includeTime="2012-11-08T15:12:40" date="2012-11-01" number="5-РИ" org="Роскомнадзор" url="http://archivetube.ru/index.php" ip="95.58.254.20"
...

Делается это вот такой страшной командой:

cat dump.xml | tr -d "\n\r" | sed -e 's/<content /\n/g' | sed -e 's/<\/content>//' -e 's/><decision//' -e 's/\/><url><\!\[CDATA\[/ url="/' -e 's/]]><\/url><ip>/" ip="/' -e's/<\/ip>/"/' >dump.txt

В последнем скачанном файле пропали переносы, так что первый tr - чтоб быть уверенным, что их и впредь не будет, потом разбиваем на строки по '<content' ну и убираем все лишнее.

Опционально можно вместо пробелов навтыкать '&' и тогда строку на пхп можно прогонять через функцию parse_str() и она будет превращаться в набор переменных.

P/S/ Забыл отрезать заголовок файла и хвост, можно еще через один sed прогнать, или есть решение красивее?

UPD

окончательная команда:

cat dump.xml_orig | tr -d "\n\r" | sed -e 's/<content /\n/g' -e 's/<\/reg:register>/\n/' | sed -e 's/<\/content>//' -e 's/><decision//' -e 's/\/><url><\!\[CDATA\[/ url="/' -e 's/]]><\/url><ip>/" ip="/' -e 's/<\/ip>/"/' -e '/<?xml.*/d'

Изменено 12 ноября, 2012 пользователем Soltik

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

drdaeman

Опубликовано 12 ноября, 2012 · Жалоба

Парсить XML регэкспами...

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

Чуть-чуть поменяют формат (причем не специально, а случайно) и развалится.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Soltik

Опубликовано 13 ноября, 2012 · Жалоба

Парсить XML регэкспами...

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

Чуть-чуть поменяют формат (причем не специально, а случайно) и развалится.

Где же тут регэкспы? Тупой прогон шаблонов через текстовый процессор. Просто не хотелось огромный XML файл загружать в пхпшный объект. А так - спокойненько, без затрат ресурсов, построчно можно обрабатывать. Да и код упрощается. Ну и к тому же может народу просто пригодится для каких-нибудь целей.

А ежели формат поменяют - так и объекты другие станут, тут уж что угодно развалится.

ЗЫ. Кстати уже и в SCE запихнуть на автомате получилось :)

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Soltik

Опубликовано 13 ноября, 2012 · Жалоба

Вот бы еще у записей TTL был, или же чтоб устаревшие приезжали с пометкой на удаление, а то каждый раз перелопачивать весь список чтоб удалить исчезнувшие - как-то не айс.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

taf_321

Опубликовано 13 ноября, 2012 · Жалоба

Рутрекер пошел: http://habrahabr.ru/post/158345/

Выгрузка на 5:00 МСК, рутрекера в списках нет. Вчера, 12 ноября, их там не наблюдалось.

А так вот ведь какая маляка настала - заставляют нести ответственность за свои площадки, принуждают содержать их в чистоте и опрятности.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

psitay

Опубликовано 13 ноября, 2012 (изменено) · Жалоба

На сайте РКН пишут что 10.11 было уже 179 записей о_О когда сегодня выгружаем реестр там 42 штуки.. Чему верить, кто знает?

Изменено 13 ноября, 2012 пользователем psitay

Войти

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Join the conversation