Перейти к содержимому
Калькуляторы

Опубликована Процедура блокировки некошерной инфо

что есть certs.pem, а что key.pem?

делал так:

/usr/local/bin/openssl pkcs12 -in p12.pfx -out certs.pem -nokeys

/usr/local/bin/openssl pkcs12 -in p12.pfx -out key.pem -nodes

Изменено пользователем tawer

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В crontab 15 9,21 * * *

#!/bin/sh
cd /где/оно/у/вас/там/лежит

# этот скриптик для выдергивания реестра пробегал выше, огромное СПАСИБО!
./zapret_checker.py

# Вот есть же специализированные средства для разбора XML в файлики по вкусу, хоть сразу конфиг формируй
xmlstarlet sel -T -t -m "reg:register/content" -v "concat(ip,';',url)" -n dump.xml > dump.csv

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В crontab 15 9,21 * * *

#!/bin/sh
cd /где/оно/у/вас/там/лежит

# этот скриптик для выдергивания реестра пробегал выше, огромное СПАСИБО!
./zapret_checker.py

# Вот есть же специализированные средства для разбора XML в файлики по вкусу, хоть сразу конфиг формируй
xmlstarlet sel -T -t -m "reg:register/content" -v "concat(ip,';',url)" -n dump.xml > dump.csv

как оно отработает если в разделе <content> будет несколько полей с одинаковым именем <ip></ip>?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вообще для порядка надо бы подпись РКН проверять перед применением фильтрации

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

# Вот есть же специализированные средства для разбора XML в файлики по вкусу, хоть сразу конфиг формируй
xmlstarlet sel -T -t -m "reg:register/content" -v "concat(ip,';',url)" -n dump.xml > dump.csv

как оно отработает если в разделе <content> будет несколько полей с одинаковым именем <ip></ip>?

Задумывался. Но если честно -- пока не проверял.

Благо, в реестре таких вариантов пока и нет, и по IP еще не блокируем -- только по URL.

Подозреваю, если оно соответствует XML-стандарту, то и способ обработки должен быть.

Опять же предполагаю выкраивать в отдельную цепочку 80-й порт + IP из списка (можно и другими утилитами), а потом заворачивать ТОЛЬКО ЭТОТ поток на прокси или Layer7-анализатор уже по URL, не найдено -- отпускаем с миром.

 

P.S. Добавил lurkmore соседний IP вторым и вывел ТОЛЬКО IP-шники (-v "ip") -- выдало оба адреса, но слепило их в одну строчку без разделителей. Это навскидку. Хотя вариант

xmlstarlet pyx dump.xml | grep ^-

меня тоже устроит в данном раскладе -- просто корректный список IP.

Изменено пользователем Ansy

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ребят, подскажите, пожалуйста, как избавиться от сообщений при выполнении скрипта:

Wide character in print at ./xml-parser.pl line 52.

Это сообщение в том месте, когда в urllist выводится http://............/Способы_употребления

Еще подобное сообщение видел, когда сразу после отправки запроса попытался получить выгрузку:

./zapret-info.pl 1
Wide character in syswrite at /usr/lib/perl/5.10/Sys/Syslog.pm line 482.

На сколько я понял это в этом месте:

if ($getresult[0] eq 'false') { 
           mylog ("$getresult[1]");

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я вас тут попаникую немного, хорошо?

 

2. В реестр включаются:

1) доменные имена и (или) указатели страниц сайтов в сети "Интернет",

содержащих информацию, распространение которой в Российской Федерации

запрещено;

2) сетевые адреса, позволяющие идентифицировать сайты в сети "Интернет",

содержащие информацию, распространение которой в Российской Федерации

запрещено.

 

Там еще много всякого, но я о самом насущном:

 

В течение суток с момента включения в реестр сетевого адреса,

позволяющего идентифицировать сайт в сети "Интернет", содержащий

информацию, распространение которой в Российской Федерации запрещено,

оператор связи, оказывающий услуги по предоставлению доступа к

информационно-телекоммуникационной сети "Интернет", обязан ограничить доступ

к такому сайту в сети "Интернет".

 

Короче, если почитать закон, то в нем ясно читается, что операторы обязаны блокировать (по сетевому адресу) сайты, содержащие информацию, а не какие-то там страницы.

А страницы в реестре только указывают на сайты, которые информацию содержат. Пресс-конференция Роскомнадзора, где они говорили обратное, как я понимаю, не имеет какой-либо юридической силы.

 

Вот такие вот принтеры взбесившиеся. DPI можно заворачивать назад, оно не нужно.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

вою залипуху:

 

p# ./parser.pl
Can't locate XML/Twig.pm in @INC (@INC contains: /etc/perl /usr/local/lib/perl/5.8.4 /usr/local/share/perl/5.8.4 /usr/lib/perl5 /usr/share/perl5 /usr/lib/perl/5.8 /usr/share/perl/5.8 /usr/local/lib/site_perl .) at ./parser.pl line 5.
BEGIN failed--compilation aborted at ./parser.pl line 5.

 

 

с использованием класса "XML::Simple": (складывает только ip адреса в файл, без сортировки и т.п.)

 

# ./parser_ip_only.pl
Can't locate XML/Simple.pm in @INC (@INC contains: /etc/perl /usr/local/lib/perl/5.8.4 /usr/local/share/perl/5.8.4 /usr/lib/perl5 /usr/share/perl5 /usr/lib/perl/5.8 /usr/share/perl/5.8 /usr/local/lib/site_perl .) at ./parser_ip_only.pl line 4.
BEGIN failed--compilation aborted at ./parser_ip_only.pl line 4.

 

# xmlstarlet
sh: xmlstarlet: command not found

Чего не хватает? В этих перлах/php понимаю слабо. :(

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Как и обещал:

PHP сценарий выгрузки РЗС (реестра запрещённых сайтов) в базу данных

rzs-get.tar.gz

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Кстати, это у меня скрипт бесится, или реально постоянно обновляется lastDumpDate, но сам дамп не меняется?)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Кстати, это у меня скрипт бесится, или реально постоянно обновляется lastDumpDate, но сам дамп не меняется?)

На 2-с-небольшим часа ночи было 2012-11-10 22:09:00+00:00.

В 17:50 было 2012-11-12 13:09:00+00:00.

На текущий момент, 2012-11-12T15:09:00+00:00.

 

Так что, да, раз в час, в 9 минут каждого часа, независимо от наличия изменений.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Как и обещал:

PHP сценарий выгрузки РЗС (реестра запрещённых сайтов) в базу данных

rzs-get.tar.gz

Спасибо, посмотрим.

Чего не хватает? В этих перлах/php понимаю слабо. :(

Во всех трех случаях в системе не хватает необходимых компонентов

1. libxml-twig-perl

2. libxml-simple-perl

3. xmlstarlet

Менеджер пакетов поможет

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Как и обещал:

PHP сценарий выгрузки РЗС (реестра запрещённых сайтов) в базу данных

rzs-get.tar.gz

 

Тоже набросал нечто подобное, но в моём логики наворочано - чёрт ногу сломит, поэтому предоставляется as is и для внедрения желательно знать php ;)

 

Запускать по крону раз в 10-30-60 минут

Проверяет и запоминает lastDumpDate от РКН; если она увеличилась - подписывает файлик и отправляет запрос; сохраняет код; при след. вызове скачивает дамп либо умирает до след. вызова, если сайт отвечает "запрос в обработке"

 

Из дампа выдергивает урлы, ипы (их в том числе резолвит), домены; новые сохраняет в бд; затем пробегается по своей БД и проверяет все ипы и урлы -- если каких-то нет в дампе, удаляет их из бд. Изменения шлёт на мыло.

 

Дальше собсно с данными в базе можно делать что угодно - составлять ацли и т.д. Мы пока выводим в своей срм, обрабатываем руками, и ставим пометку "обработано"

 

http://ip-home.net/files/zapret.zip

Изменено пользователем Wingman

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

apog, типа так

binmode (STDOUT, ":utf8");

Спасибо, для STDOUT помогло. Добавил просто в начало скрипта. А как чтобы помогло с syslog и print в файл?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Рутрекер пошел: http://habrahabr.ru/post/158345/

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Как и обещал:

PHP сценарий выгрузки РЗС (реестра запрещённых сайтов) в базу данных

rzs-get.tar.gz

 

Тоже набросал нечто подобное, но в моём логики наворочано - чёрт ногу сломит, поэтому предоставляется as is и для внедрения желательно знать php ;)

 

Запускать по крону раз в 10-30-60 минут

Проверяет и запоминает lastDumpDate от РКН; если она увеличилась - подписывает файлик и отправляет запрос; сохраняет код; при след. вызове скачивает дамп либо умирает до след. вызова, если сайт отвечает "запрос в обработке"

 

Из дампа выдергивает урлы, ипы (их в том числе резолвит), домены; новые сохраняет в бд; затем пробегается по своей БД и проверяет все ипы и урлы -- если каких-то нет в дампе, удаляет их из бд. Изменения шлёт на мыло.

 

Дальше собсно с данными в базе можно делать что угодно - составлять ацли и т.д. Мы пока выводим в своей срм, обрабатываем руками, и ставим пометку "обработано"

 

http://ip-home.net/files/zapret.zip

 

Мне, как руководителю, но не программеру особенно понравилась jопция/функция:

 

12 ноября 2012 г., 19:55:52 (Mon, 12 Nov 2012 19:55:52 +0400)

 

 

.........

 

Total URLs in registry: 41

Total IPs: 48

Total domains: 0

 

Я регулярно получаю сводку на e-mail

 

Наш 'Wingman' = молодец!

 

P.S.

 

Хотя в выгрузке и были домены второго уровня

 

в доменах первого уровня

 

.name/

 

.narkop.biz/

 

.xapka.com/

 

.tv/

 

.ru/

 

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Рутрекер пошел: http://habrahabr.ru/post/158345/

http://rutracker.org/forum/viewtopic.php?t=620726

 

 

Тема находится в мусорке

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Конституция РФ, Ст.15, п.3.
Законы подлежат официальному опубликованию. Неопубликованные законы не применяются. 
Любые нормативные правовые акты, затрагивающие права, свободы и обязанности человека и гражданина, 
не могут применяться, если они не опубликованы официально для всеобщего сведения.

 

Интересно, сам черный список относится ли к нормативному акту и должен ли в соответствии с конституцией быть опубликован для всеобщего сведения? А не только для узкого круга лиц (провайдеров) по ключам.

Изменено пользователем atomlab

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Что-то не очень охота на PHP заморачиваться с XML-файлом, особенно когда он станет размером как слон, так что может кому пригодится преобразование вот к такому виду:

 

id="47" includeTime="2012-11-05T00:19:48" date="2012-11-01" number="1-РИ" org="Роскомнадзор" url="http://www.gayzona.com/oral/4/2.html" ip="212.7.193.13"
id="51" includeTime="2012-11-08T15:12:40" date="2012-11-01" number="5-РИ" org="Роскомнадзор" url="http://archivetube.ru/index.php" ip="95.58.254.20"
...

 

Делается это вот такой страшной командой:

cat dump.xml | tr -d "\n\r" | sed -e 's/<content /\n/g' | sed -e 's/<\/content>//' -e 's/><decision//' -e 's/\/><url><\!\[CDATA\[/ url="/' -e 's/]]><\/url><ip>/" ip="/' -e's/<\/ip>/"/' >dump.txt

 

В последнем скачанном файле пропали переносы, так что первый tr - чтоб быть уверенным, что их и впредь не будет, потом разбиваем на строки по '<content' ну и убираем все лишнее.

Опционально можно вместо пробелов навтыкать '&' и тогда строку на пхп можно прогонять через функцию parse_str() и она будет превращаться в набор переменных.

 

P/S/ Забыл отрезать заголовок файла и хвост, можно еще через один sed прогнать, или есть решение красивее?

 

UPD

окончательная команда:

cat dump.xml_orig | tr -d "\n\r" | sed -e 's/<content /\n/g' -e 's/<\/reg:register>/\n/' | sed -e 's/<\/content>//' -e 's/><decision//' -e 's/\/><url><\!\[CDATA\[/ url="/' -e 's/]]><\/url><ip>/" ip="/' -e 's/<\/ip>/"/' -e '/<?xml.*/d'

Изменено пользователем Soltik

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Парсить XML регэкспами...

 

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

 

Чуть-чуть поменяют формат (причем не специально, а случайно) и развалится.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Парсить XML регэкспами...

 

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

 

Чуть-чуть поменяют формат (причем не специально, а случайно) и развалится.

 

Где же тут регэкспы? Тупой прогон шаблонов через текстовый процессор. Просто не хотелось огромный XML файл загружать в пхпшный объект. А так - спокойненько, без затрат ресурсов, построчно можно обрабатывать. Да и код упрощается. Ну и к тому же может народу просто пригодится для каких-нибудь целей.

 

А ежели формат поменяют - так и объекты другие станут, тут уж что угодно развалится.

 

ЗЫ. Кстати уже и в SCE запихнуть на автомате получилось :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вот бы еще у записей TTL был, или же чтоб устаревшие приезжали с пометкой на удаление, а то каждый раз перелопачивать весь список чтоб удалить исчезнувшие - как-то не айс.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Рутрекер пошел: http://habrahabr.ru/post/158345/

 

Выгрузка на 5:00 МСК, рутрекера в списках нет. Вчера, 12 ноября, их там не наблюдалось.

 

А так вот ведь какая маляка настала - заставляют нести ответственность за свои площадки, принуждают содержать их в чистоте и опрятности.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

На сайте РКН пишут что 10.11 было уже 179 записей о_О когда сегодня выгружаем реестр там 42 штуки.. Чему верить, кто знает?

Изменено пользователем psitay

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.