Перейти к содержимому
Калькуляторы

Опубликована Процедура блокировки некошерной инфо

Проверяю фильтрацию SCE. Вообще, фильтрация работает, но есть некоторые не понятные url...

 

1. Есть запись 229745. http://muzogig.com/****

В SCE она добавилась. Но фильтрация не работает. Что может быть ? Из-за очень длинной строки ?

 

2. Есть записи с двоеточием. Можно ли заменять его на %3A ?

1. Да. Я обрезаю строки длиной более 244 символов.

 

2. Я добавляю бэкслеш перед двоеточием.

 

Вы ещё много граблей соберёте. Подскажу некоторые: анкоры, пуникод, идентификаторы сессии, utm_*, и т.д.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Фильтрация по списку ресурсов РКН уже аффектит сервисы, которые существенным образом влияют на работоспособность и безопасность в интернете не лучшим образом.

Статейка на хабре по поводу верификации сертификатов Windows и влияния фильтрации на ее работу.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Задача фильтрации технически легко исполнима когда записей немного. Но я уже начинаю представлять что скоро этих записей будут миллионы и что тогда делать?

 

В т.ч. сколько времени надо будет тратить на вот такую постоянную отладку граблей? Криворукие составители реестра иногда даже символы теряют - это особенно заметно на UTF-8 ссылках когда явно съеден %D0...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

а ск стоит в рублях свой парсер списка написать, чтобы восстановил потерянные символы, причём с учётом мозга того кто запрещал, те думал бы за гос-во и сам бы ещё и прогнозы бы строил...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

MATPOC, можно узнать как боретесь со всем этим ?

C анкорами, пуникодом всё понятно. Я использую библиотеку URI::Split, для разделения всего этого и сборки уже без анкора. Punycode там же.

 

А вот с остальным ?

Как режете строку ? После substr просто добавляете в конец * или как то по особенному ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

а ск стоит в рублях свой парсер списка написать, чтобы восстановил потерянные символы, причём с учётом мозга того кто запрещал, те думал бы за гос-во и сам бы ещё и прогнозы бы строил...

Де-юре никто не имеет права трактовать по-своему содержимое Реестра. Вот что там буквально написано - то и обязаны буквально фильтровать. Буква Закона - нашевсё.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Для русских символов приходится составлять 2 записи в windows-1251 кодировке и в UTF-8 кодировке

Для того чтобы ревизор не показывал доступность дополнительные варианты с заенкоженными латинскими символами '"' '{' '}'. Мы запросили полный перечень латинских символов которые ревизор енкодит - но они его не дали. Вот ждем когда еще что-нибудь всплывет...

 

 

а ск стоит в рублях свой парсер списка написать, чтобы восстановил потерянные символы, причём с учётом мозга того кто запрещал, те думал бы за гос-во и сам бы ещё и прогнозы бы строил...

Парсер можно написать для существующего реестра, но каждый день туда могут добавлять записи которые так извращены что парсер этого не умеет, плюс для каждого оборудования свои правила формирования правил и оборудование результатом парсинга может отравится. Результаты бывают забавные и трудно диагносцируемые.

 

Т.е. проблема не в написании, а в постоянной отладке и вечно что-нибудь да пролезет. Спать спокойно мешает осознание того, что проблема полностью не решаемая. И нужно постоянно следить и отлаживать.

 

 

В реестре технически не хватает задания информации о кодировке строк либо для всего файла в целом или для записей. И еще лучше бы чтобы весь файл был в одной кодировке, лучше UTF-8. А сейчас там фарш. А еще лучше чтобы там вообще были исключительно только латинские символы. Апдейт - оно там есть - тут я не прав.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Для русских символов приходится составлять 2 записи в windows-1251 кодировке и в UTF-8 кодировке

Для того чтобы ревизор не показывал доступность дополнительные варианты с заенкоженными латинскими символами '"' '{' '}'. Мы запросили полный перечень латинских символов которые ревизор енкодит - но они его не дали. Вот ждем когда еще что-нибудь всплывет...

вы не офигели ли тексты закона по своему править, запятые там добавлять и т.д.? что написано то и блочьте, хоть весь youtube!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Для русских символов приходится составлять 2 записи в windows-1251 кодировке и в UTF-8 кодировке

Для того чтобы ревизор не показывал доступность дополнительные варианты с заенкоженными латинскими символами '"' '{' '}'. Мы запросили полный перечень латинских символов которые ревизор енкодит - но они его не дали. Вот ждем когда еще что-нибудь всплывет...

вы не офигели ли тексты закона по своему править, запятые там добавлять и т.д.? что написано то и блочьте, хоть весь youtube!

Троллоло детектед.

Серхио, вы бы в других темах так развлекались, а тут не надо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

вы не офигели ли тексты закона по своему править, запятые там добавлять и т.д.? что написано то и блочьте, хоть весь youtube!

Там присутствует запись вида (в windows-1251 кодировке) 9144-<F1><F6><E5><ED><E0><F0><E8><E8> где в <> hex коды символов.

 

Но это вбивается в строку броузера как "9144-сценарии" а броузер это пошлет или как "9144-%F1%F6%E5%ED%E0%F0%E8%E8" или как "9144-%D1%81%D1%86%D0%B5%D0%BD%D0%B0%D1%80%D0%B8%D0%B8"

 

Технически это совсем разные строки. И фильтровать приходится обе.

А еще есть IE который может отправить и так: "9144-\xF1\xF6\xE5\xED\xE0\xF0\xE8\xE8"

 

А проверяют в РКН просто. Вбивают в броузер строку из реестра "9144-сценарии" а оно открылось. И объясняй им что, типа, не хотел размножать варианты и вбил только один вариант "9144-%F1%F6%E5%ED%E0%F0%E8%E8"... Открылось - значит не зафильтровал - получай штраф.

 

Менять и изменять нельзя, но вот варианты одних и тех же данных в разных кодировках я считаю допустимыми.

 

А некоторые "шифры" из этого реестра вообще не распознавались как вменяемые строки и соответственно не фильтровались если их вбить как оно есть в реестре. Был там какой-то финский сайт... Так там строка наверное в их какой-то кодировке...

 

Или же вот этот перл "...br/67214/Padeiro+%E9+suspeito+de+estuprar+enteada..." Казалось бы все латинские символы - а не фильтровался в лоб. Вокруг нее много костылей накручено и я даже не скажу какой в итоге "сработал". Но это у нас баги самой системы блокировок, у прочих проблем с этой строкой может быть и нет.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Там присутствует запись вида (в windows-1251 кодировке) 9144-<F1><F6><E5><ED><E0><F0><E8><E8> где в <> hex коды символов.

Если в реестре присутствует запись "9144-<F1><F6><E5><ED><E0><F0><E8><E8>", то пусть проверяющий именно в таком виде ее и вбивает в браузер. Если ему захотелось вбить ее как-то по-другому, то это его личные половые трудности, не имеющие касания к деятельности оператора связи.

 

НЕТУ У ВАС ЮРИДИЧЕСКИХ ОСНОВАНИЙ БЛОЧИТЬ КАКОЙ-ЛИБО ИНОЙ ВАРИАНТ ЗАПИСИ, ОТЛИЧНЫЙ ОТ ПРЯМО УКАЗАННОГО В РЕЕСТРЕ. Это прямое нарушение ФЗ "О связи" - и это карается таким же самым штрафом!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вы не понимаете. В броузер это будет вбито как по реестру. А вот далее на уровне пакетов уже начинаются нюансы. Ну не может быть отправлен символ с кодом 0xF1 на сервер HTTP. Будет отправлено или 3 символа 0x25 0x46 0x31 или 6 символов 0x25 0x44 0x31 0x25 0x38 0x31 или 4 символа 0x5C 0x78 0x46 0x31 и это если ничего не меняли в настройках броузера. А то еще есть UTF-16 (2 варианта), ISO-8859-5 и еще сотня кодировок других стран. Мы ведь фильтруем контент серверов всего мира.

 

Если конфиг Вашей системы фильтрации юникодный и сама система фильтра работает в юникоде - Вам проще. Система фильтрации сама переводит все строки в юникод. Но тут другие грабли есть. В некоторых строках есть явно "выпавшие" символы '%D0' и такой строкой система может подавится.

 

Вот я упоминал url с символом '%E9' - это какая буква? Это явно не русская, и я подозреваю что это 'é' а вот как это втолковать системе фильтрации - вопрос. А то у меня стойкое подозрение что система фильрации поняла ее как 'й' поначалу.

Вот надо как-то пояснять, что этот url на испанском (вроде бы, но могу ошибиться) языке.

А для этого надо откуда то узнать что это испанский язык. На великобританском домене. И догадывайся как хочешь. Если бы это был UTF символ - вопросов бы не было. А это явно символ какой-то сокращенной 1-байтовой кодировки. И попробуй его перевести правильно в юникод не зная какая это кодировка. И честно сказать я еще не полностью понимаю почему на этой строке не работала фильтрация. Этот url не закрывался так же и у ряда других провайдеров. Проверили не всех, но у кого проверили - открывалось. Отключили эту страницу особо.

 

 

То есть если Ваша система ничего не знает про кодировки и не пытается понять что это за строки - Вам придется давать ей самому лишние варианты строк в разных кодировках.

А если Ваша система умная и сама пытается разбираться в кодировках и скорее всего все и перечень фильтров и запросы переводит в юникод то с одной стороны Вам проще, но с другой стороны ждут другие засады.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

ппц, тут совсем плохо с инженерами...

Между тем, что видно в строке браузера и в том, что бежит в сети в случае использования спецсимволов и альтерниативных кодировок лежит пропасть, примерно, как до китая.

Требуют заблокировать то, что невозможно заблокировать в сети таком виде, оно в сети в таком виде не существует, но менять нельзя...

Люьбые вменяемые люди, которые пытаются исполнить требование вынуждены этот РКН-кал просеивать и предварительно обрабатывать, приводить в соответствие с логикой

работы фильтрующих устройств иначе добрая половина РКН листа не будет блокироваться.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Еще одна запись неблокируемая, номер 256848

в SCE2020

2897. lamro.org:/showthread.php:*:7524-%D0%9F%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%B8-%D0%B7%D0%B0%D0%B1%D0%BB%D1%83%D0%B4%D1%88%D0%B8%D1%85-%D0%B3%D1%80%D1%83%D0%BF%D0%BF-%D0%B2-%D0%98%D1%81%D0%BB%D0* 290

Не блокируется. Что может быть ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Опытным путем выяснил, что если сократить строку в браузере до ~286 символов, то блокировка работает. Это где-то в SCE длина строки указана ?

Изменено пользователем AdmSasha

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

MATPOC, можно узнать как боретесь со всем этим ?

C анкорами, пуникодом всё понятно. Я использую библиотеку URI::Split, для разделения всего этого и сборки уже без анкора. Punycode там же.

А вот с остальным ?

Как режете строку ? После substr просто добавляете в конец * или как то по особенному ?

Ой, я без всяких библиотек. по простому:

 

	$tmpstr =~ s!^http://!!;
# Use non-greedy (.+?\..+?) search to split domain & url
if ( $tmpstr =~ '^(.+?\..+?)(/.*)   ) {
	$tmpdomain = $1; $tmpurl = $2;

 

И дальше куча эвристик по обрезанию ненужных кусков. Да, в большинстве случаев ставлю просто "*". В конце пара проверок и печать пуникода:

 

    	$tmpurl = '' if ($tmpurl eq '/\*'); 	# '/*' => ''
   	$tmpurl = '' if ($tmpurl eq '/');   	# '/'  => ''
   	print puny_encode_domain($tmpdomain), $tmpurl, "\n"; }

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

MATPOC,

Да только остаются анкоры, которые надо вырезать отдельно...

 

Вот таким можно всё отделить. Потом собрать, но без fragment

my($scheme, $authority, $path, $query, $fragment) = $uri =~ m|(?:([^:/?#]+):)?(?://([^/?#]*))?([^?#]*)(?:\?([^#]*))?(?:#(.*))?|;

 

кстати, а почему не просто ?

if ( $tmpstr =~ '^(.+?)(/.*)'   ) {

 

 

Какие еще есть символы которые не любит sce и требует замены на что либо ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

ппц, тут совсем плохо с инженерами...

Между тем, что видно в строке браузера и в том, что бежит в сети в случае использования спецсимволов и альтерниативных кодировок лежит пропасть, примерно, как до китая.

Требуют заблокировать то, что невозможно заблокировать в сети таком виде, оно в сети в таком виде не существует, но менять нельзя...

Люьбые вменяемые люди, которые пытаются исполнить требование вынуждены этот РКН-кал просеивать и предварительно обрабатывать, приводить в соответствие с логикой

работы фильтрующих устройств иначе добрая половина РКН листа не будет блокироваться.

 

Ваши предложения? конкретные и без нытья?

Нас вот буквально опять натянули, наркота никого уже не интересует акцентируются на экстремизме, прокурорским в очередной смазали жопу и они побежали дрючить нас

и все прекрасно понимают что это борьба с ветряными мельницами, но есть один ньюанс - крайним и козлом отпущения будет всегда оператор, остальные лишь надзорные органы, им галочку поставить и отчитаться наверх, что мол вот мы улиличили что оператор нарушает закон.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

ппц, тут совсем плохо с инженерами...

Между тем, что видно в строке браузера и в том, что бежит в сети в случае использования спецсимволов и альтерниативных кодировок лежит пропасть, примерно, как до китая.

Требуют заблокировать то, что невозможно заблокировать в сети таком виде, оно в сети в таком виде не существует, но менять нельзя...

Люьбые вменяемые люди, которые пытаются исполнить требование вынуждены этот РКН-кал просеивать и предварительно обрабатывать, приводить в соответствие с логикой

работы фильтрующих устройств иначе добрая половина РКН листа не будет блокироваться.

 

Ваши предложения? конкретные и без нытья?

Нас вот буквально опять натянули, наркота никого уже не интересует акцентируются на экстремизме, прокурорским в очередной смазали жопу и они побежали дрючить нас

и все прекрасно понимают что это борьба с ветряными мельницами, но есть один ньюанс - крайним и козлом отпущения будет всегда оператор, остальные лишь надзорные органы, им галочку поставить и отчитаться наверх, что мол вот мы улиличили что оператор нарушает закон.

Алкс, никто не ноет.

Все относительно просто.

Есть идиотская юридическая норма, называть эти высеры законами язык не поворачивается, оператор вынужден ее исполнять под угорозой санкций.

При этом та часть исполнения, которая лежит на госоргане в лице РКН делается керово, то есть, выгружаемая база-дрянь.

В этой ситуации оператор вынужден исправлять за РКН его огрехи, то есть вынужден обрабатывать базу, потому, что использовать ее буквально нет никакого смысла.

Но блин, Алкс, когда инженеры оператора демонстрируют непонимание разницы между HTTP и HTML, мне просто грустно становится.

Какие накер anchors в HTTP???

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

%D0%9F%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%B8-%D0%B7%D0%B0%D0%B1%D0%BB%D1%83%D0%B4%D1%88%D0%B8%D1%85-%D0%B3%D1%80%D1%83%D0%BF%D0%BF-%D0%B2-%D0%98%D1%81%D0%BB%D0

Мое предположение - из-за последнего '%D0' - это начало двухбайтного символа UTF-8 но второго байта нет, в результате чего эта строка неверная.

Но так же возможно проблема в ее длине.

Проверяйте :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Есть идиотская юридическая норма, называть эти высеры законами язык не поворачивается, оператор вынужден ее исполнять под угорозой санкций.

Ну законы не идиотские. Цензура это вполне традиционный и устоявшийся веками метод.

В любой стране есть запреты на то что может быть публично напечатано.

Ну то есть напечатать то можно все, но некоторое только один раз :)

Например, в США Вы испытаете массу проблем при попытке что-то плохое сообщить о гм... людях другого цвета...

 

Но с другой стороны правильно воспитанные люди устойчивы к, например, призывам джихада.

Мое мнение - надо лучше воспитывать и тогда можно обойтись без особой цензуры.

 

Я вот не могу определиться я за цензуру или против... :(

 

Скорее всего надо не блокировкой заморачиваться а наказанием организаторов распространения. Очень многое что нельзя у нас нельзя и в странах где расположены "хостинги". Грамотное обращение к полиции того государства решит все проблемы.

 

И таки да - оператор совсем не всесилен и на уровне пакетов все закрыть не может. Этого законодатель не понимает. И люди этого не понимают. Тут плохо работает Роскомнадзор. Это он должен объяснить депутатам и Президенту что технически исполнимо а что нет.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вот таким можно всё отделить. Потом собрать, но без fragment

my($scheme, $authority, $path, $query, $fragment) = $uri =~ m|(?:([^:/?#]+):)?(?://([^/?#]*))?([^?#]*)(?:\?([^#]*))?(?:#(.*))?|;

кстати, а почему не просто ?

if ( $tmpstr =~ '^(.+?)(/.*)'   ) {

Это Вам просто. И мне просто. Но очень непросто другим. Вот для того и сделано несколько более-менее понятных регекспов, чтобы и другие коллеги, более-менее разбирающиеся в перле, могли, в случае чего, поправить или добавить новый шаблон. (Быть незаменимым очень тяжело, надо дать поработать и коллеге :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Это он должен объяснить депутатам и Президенту что технически исполнимо а что нет.
ты ещё скажи что ГАИ за безопасность движения :) по какому закону что кто должен то ? нету санкций и штрафов ДЛЯ Роскомнадзора, чтобы его штрафануть за такую лажу в реестре!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Подскажите еще такой момент. В отчете по реестру есть записи, что с такого url произошел редирект на такой то.

Например с graniru перенаправления (Поди надоело с ними считать до миллиона и решили сделать блокировку по маске)

 

Как в SCE запретить эти редиректы ? Кто как это блокирует ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Например с graniru перенаправления (Поди надоело с ними считать до миллиона и решили сделать блокировку по маске)

Как в SCE запретить эти редиректы ? Кто как это блокирует ?

Так и делайте для типа блокировки domain блокировку по маске - *.grani.ru

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.