MATPOC Опубликовано 17 августа, 2016 · Жалоба Проверяю фильтрацию SCE. Вообще, фильтрация работает, но есть некоторые не понятные url... 1. Есть запись 229745. http://muzogig.com/**** В SCE она добавилась. Но фильтрация не работает. Что может быть ? Из-за очень длинной строки ? 2. Есть записи с двоеточием. Можно ли заменять его на %3A ? 1. Да. Я обрезаю строки длиной более 244 символов. 2. Я добавляю бэкслеш перед двоеточием. Вы ещё много граблей соберёте. Подскажу некоторые: анкоры, пуникод, идентификаторы сессии, utm_*, и т.д. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
pers123 Опубликовано 17 августа, 2016 · Жалоба Фильтрация по списку ресурсов РКН уже аффектит сервисы, которые существенным образом влияют на работоспособность и безопасность в интернете не лучшим образом. Статейка на хабре по поводу верификации сертификатов Windows и влияния фильтрации на ее работу. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tosha Опубликовано 17 августа, 2016 · Жалоба Задача фильтрации технически легко исполнима когда записей немного. Но я уже начинаю представлять что скоро этих записей будут миллионы и что тогда делать? В т.ч. сколько времени надо будет тратить на вот такую постоянную отладку граблей? Криворукие составители реестра иногда даже символы теряют - это особенно заметно на UTF-8 ссылках когда явно съеден %D0... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
SergoINFOLAN Опубликовано 17 августа, 2016 · Жалоба а ск стоит в рублях свой парсер списка написать, чтобы восстановил потерянные символы, причём с учётом мозга того кто запрещал, те думал бы за гос-во и сам бы ещё и прогнозы бы строил... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
AdmSasha Опубликовано 17 августа, 2016 · Жалоба MATPOC, можно узнать как боретесь со всем этим ? C анкорами, пуникодом всё понятно. Я использую библиотеку URI::Split, для разделения всего этого и сборки уже без анкора. Punycode там же. А вот с остальным ? Как режете строку ? После substr просто добавляете в конец * или как то по особенному ? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nemo_lynx Опубликовано 17 августа, 2016 · Жалоба а ск стоит в рублях свой парсер списка написать, чтобы восстановил потерянные символы, причём с учётом мозга того кто запрещал, те думал бы за гос-во и сам бы ещё и прогнозы бы строил... Де-юре никто не имеет права трактовать по-своему содержимое Реестра. Вот что там буквально написано - то и обязаны буквально фильтровать. Буква Закона - нашевсё. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tosha Опубликовано 17 августа, 2016 · Жалоба Для русских символов приходится составлять 2 записи в windows-1251 кодировке и в UTF-8 кодировке Для того чтобы ревизор не показывал доступность дополнительные варианты с заенкоженными латинскими символами '"' '{' '}'. Мы запросили полный перечень латинских символов которые ревизор енкодит - но они его не дали. Вот ждем когда еще что-нибудь всплывет... а ск стоит в рублях свой парсер списка написать, чтобы восстановил потерянные символы, причём с учётом мозга того кто запрещал, те думал бы за гос-во и сам бы ещё и прогнозы бы строил... Парсер можно написать для существующего реестра, но каждый день туда могут добавлять записи которые так извращены что парсер этого не умеет, плюс для каждого оборудования свои правила формирования правил и оборудование результатом парсинга может отравится. Результаты бывают забавные и трудно диагносцируемые. Т.е. проблема не в написании, а в постоянной отладке и вечно что-нибудь да пролезет. Спать спокойно мешает осознание того, что проблема полностью не решаемая. И нужно постоянно следить и отлаживать. В реестре технически не хватает задания информации о кодировке строк либо для всего файла в целом или для записей. И еще лучше бы чтобы весь файл был в одной кодировке, лучше UTF-8. А сейчас там фарш. А еще лучше чтобы там вообще были исключительно только латинские символы. Апдейт - оно там есть - тут я не прав. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
SergoINFOLAN Опубликовано 17 августа, 2016 · Жалоба Для русских символов приходится составлять 2 записи в windows-1251 кодировке и в UTF-8 кодировкеДля того чтобы ревизор не показывал доступность дополнительные варианты с заенкоженными латинскими символами '"' '{' '}'. Мы запросили полный перечень латинских символов которые ревизор енкодит - но они его не дали. Вот ждем когда еще что-нибудь всплывет... вы не офигели ли тексты закона по своему править, запятые там добавлять и т.д.? что написано то и блочьте, хоть весь youtube! Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
pers123 Опубликовано 17 августа, 2016 · Жалоба Для русских символов приходится составлять 2 записи в windows-1251 кодировке и в UTF-8 кодировкеДля того чтобы ревизор не показывал доступность дополнительные варианты с заенкоженными латинскими символами '"' '{' '}'. Мы запросили полный перечень латинских символов которые ревизор енкодит - но они его не дали. Вот ждем когда еще что-нибудь всплывет... вы не офигели ли тексты закона по своему править, запятые там добавлять и т.д.? что написано то и блочьте, хоть весь youtube! Троллоло детектед. Серхио, вы бы в других темах так развлекались, а тут не надо. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tosha Опубликовано 17 августа, 2016 · Жалоба вы не офигели ли тексты закона по своему править, запятые там добавлять и т.д.? что написано то и блочьте, хоть весь youtube! Там присутствует запись вида (в windows-1251 кодировке) 9144-<F1><F6><E5><ED><E0><F0><E8><E8> где в <> hex коды символов. Но это вбивается в строку броузера как "9144-сценарии" а броузер это пошлет или как "9144-%F1%F6%E5%ED%E0%F0%E8%E8" или как "9144-%D1%81%D1%86%D0%B5%D0%BD%D0%B0%D1%80%D0%B8%D0%B8" Технически это совсем разные строки. И фильтровать приходится обе. А еще есть IE который может отправить и так: "9144-\xF1\xF6\xE5\xED\xE0\xF0\xE8\xE8" А проверяют в РКН просто. Вбивают в броузер строку из реестра "9144-сценарии" а оно открылось. И объясняй им что, типа, не хотел размножать варианты и вбил только один вариант "9144-%F1%F6%E5%ED%E0%F0%E8%E8"... Открылось - значит не зафильтровал - получай штраф. Менять и изменять нельзя, но вот варианты одних и тех же данных в разных кодировках я считаю допустимыми. А некоторые "шифры" из этого реестра вообще не распознавались как вменяемые строки и соответственно не фильтровались если их вбить как оно есть в реестре. Был там какой-то финский сайт... Так там строка наверное в их какой-то кодировке... Или же вот этот перл "...br/67214/Padeiro+%E9+suspeito+de+estuprar+enteada..." Казалось бы все латинские символы - а не фильтровался в лоб. Вокруг нее много костылей накручено и я даже не скажу какой в итоге "сработал". Но это у нас баги самой системы блокировок, у прочих проблем с этой строкой может быть и нет. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nemo_lynx Опубликовано 17 августа, 2016 · Жалоба Там присутствует запись вида (в windows-1251 кодировке) 9144-<F1><F6><E5><ED><E0><F0><E8><E8> где в <> hex коды символов. Если в реестре присутствует запись "9144-<F1><F6><E5><ED><E0><F0><E8><E8>", то пусть проверяющий именно в таком виде ее и вбивает в браузер. Если ему захотелось вбить ее как-то по-другому, то это его личные половые трудности, не имеющие касания к деятельности оператора связи. НЕТУ У ВАС ЮРИДИЧЕСКИХ ОСНОВАНИЙ БЛОЧИТЬ КАКОЙ-ЛИБО ИНОЙ ВАРИАНТ ЗАПИСИ, ОТЛИЧНЫЙ ОТ ПРЯМО УКАЗАННОГО В РЕЕСТРЕ. Это прямое нарушение ФЗ "О связи" - и это карается таким же самым штрафом! Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tosha Опубликовано 17 августа, 2016 · Жалоба Вы не понимаете. В броузер это будет вбито как по реестру. А вот далее на уровне пакетов уже начинаются нюансы. Ну не может быть отправлен символ с кодом 0xF1 на сервер HTTP. Будет отправлено или 3 символа 0x25 0x46 0x31 или 6 символов 0x25 0x44 0x31 0x25 0x38 0x31 или 4 символа 0x5C 0x78 0x46 0x31 и это если ничего не меняли в настройках броузера. А то еще есть UTF-16 (2 варианта), ISO-8859-5 и еще сотня кодировок других стран. Мы ведь фильтруем контент серверов всего мира. Если конфиг Вашей системы фильтрации юникодный и сама система фильтра работает в юникоде - Вам проще. Система фильтрации сама переводит все строки в юникод. Но тут другие грабли есть. В некоторых строках есть явно "выпавшие" символы '%D0' и такой строкой система может подавится. Вот я упоминал url с символом '%E9' - это какая буква? Это явно не русская, и я подозреваю что это 'é' а вот как это втолковать системе фильтрации - вопрос. А то у меня стойкое подозрение что система фильрации поняла ее как 'й' поначалу. Вот надо как-то пояснять, что этот url на испанском (вроде бы, но могу ошибиться) языке. А для этого надо откуда то узнать что это испанский язык. На великобританском домене. И догадывайся как хочешь. Если бы это был UTF символ - вопросов бы не было. А это явно символ какой-то сокращенной 1-байтовой кодировки. И попробуй его перевести правильно в юникод не зная какая это кодировка. И честно сказать я еще не полностью понимаю почему на этой строке не работала фильтрация. Этот url не закрывался так же и у ряда других провайдеров. Проверили не всех, но у кого проверили - открывалось. Отключили эту страницу особо. То есть если Ваша система ничего не знает про кодировки и не пытается понять что это за строки - Вам придется давать ей самому лишние варианты строк в разных кодировках. А если Ваша система умная и сама пытается разбираться в кодировках и скорее всего все и перечень фильтров и запросы переводит в юникод то с одной стороны Вам проще, но с другой стороны ждут другие засады. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
pers123 Опубликовано 17 августа, 2016 · Жалоба ппц, тут совсем плохо с инженерами... Между тем, что видно в строке браузера и в том, что бежит в сети в случае использования спецсимволов и альтерниативных кодировок лежит пропасть, примерно, как до китая. Требуют заблокировать то, что невозможно заблокировать в сети таком виде, оно в сети в таком виде не существует, но менять нельзя... Люьбые вменяемые люди, которые пытаются исполнить требование вынуждены этот РКН-кал просеивать и предварительно обрабатывать, приводить в соответствие с логикой работы фильтрующих устройств иначе добрая половина РКН листа не будет блокироваться. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
AdmSasha Опубликовано 18 августа, 2016 · Жалоба Еще одна запись неблокируемая, номер 256848 в SCE2020 2897. lamro.org:/showthread.php:*:7524-%D0%9F%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%B8-%D0%B7%D0%B0%D0%B1%D0%BB%D1%83%D0%B4%D1%88%D0%B8%D1%85-%D0%B3%D1%80%D1%83%D0%BF%D0%BF-%D0%B2-%D0%98%D1%81%D0%BB%D0* 290 Не блокируется. Что может быть ? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
AdmSasha Опубликовано 18 августа, 2016 (изменено) · Жалоба Опытным путем выяснил, что если сократить строку в браузере до ~286 символов, то блокировка работает. Это где-то в SCE длина строки указана ? Изменено 18 августа, 2016 пользователем AdmSasha Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
MATPOC Опубликовано 18 августа, 2016 · Жалоба MATPOC, можно узнать как боретесь со всем этим ? C анкорами, пуникодом всё понятно. Я использую библиотеку URI::Split, для разделения всего этого и сборки уже без анкора. Punycode там же. А вот с остальным ? Как режете строку ? После substr просто добавляете в конец * или как то по особенному ? Ой, я без всяких библиотек. по простому: $tmpstr =~ s!^http://!!; # Use non-greedy (.+?\..+?) search to split domain & url if ( $tmpstr =~ '^(.+?\..+?)(/.*) ) { $tmpdomain = $1; $tmpurl = $2; И дальше куча эвристик по обрезанию ненужных кусков. Да, в большинстве случаев ставлю просто "*". В конце пара проверок и печать пуникода: $tmpurl = '' if ($tmpurl eq '/\*'); # '/*' => '' $tmpurl = '' if ($tmpurl eq '/'); # '/' => '' print puny_encode_domain($tmpdomain), $tmpurl, "\n"; } Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
AdmSasha Опубликовано 18 августа, 2016 · Жалоба MATPOC, Да только остаются анкоры, которые надо вырезать отдельно... Вот таким можно всё отделить. Потом собрать, но без fragment my($scheme, $authority, $path, $query, $fragment) = $uri =~ m|(?:([^:/?#]+):)?(?://([^/?#]*))?([^?#]*)(?:\?([^#]*))?(?:#(.*))?|; кстати, а почему не просто ? if ( $tmpstr =~ '^(.+?)(/.*)' ) { Какие еще есть символы которые не любит sce и требует замены на что либо ? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alks Опубликовано 18 августа, 2016 · Жалоба ппц, тут совсем плохо с инженерами... Между тем, что видно в строке браузера и в том, что бежит в сети в случае использования спецсимволов и альтерниативных кодировок лежит пропасть, примерно, как до китая. Требуют заблокировать то, что невозможно заблокировать в сети таком виде, оно в сети в таком виде не существует, но менять нельзя... Люьбые вменяемые люди, которые пытаются исполнить требование вынуждены этот РКН-кал просеивать и предварительно обрабатывать, приводить в соответствие с логикой работы фильтрующих устройств иначе добрая половина РКН листа не будет блокироваться. Ваши предложения? конкретные и без нытья? Нас вот буквально опять натянули, наркота никого уже не интересует акцентируются на экстремизме, прокурорским в очередной смазали жопу и они побежали дрючить нас и все прекрасно понимают что это борьба с ветряными мельницами, но есть один ньюанс - крайним и козлом отпущения будет всегда оператор, остальные лишь надзорные органы, им галочку поставить и отчитаться наверх, что мол вот мы улиличили что оператор нарушает закон. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
pers123 Опубликовано 18 августа, 2016 · Жалоба ппц, тут совсем плохо с инженерами... Между тем, что видно в строке браузера и в том, что бежит в сети в случае использования спецсимволов и альтерниативных кодировок лежит пропасть, примерно, как до китая. Требуют заблокировать то, что невозможно заблокировать в сети таком виде, оно в сети в таком виде не существует, но менять нельзя... Люьбые вменяемые люди, которые пытаются исполнить требование вынуждены этот РКН-кал просеивать и предварительно обрабатывать, приводить в соответствие с логикой работы фильтрующих устройств иначе добрая половина РКН листа не будет блокироваться. Ваши предложения? конкретные и без нытья? Нас вот буквально опять натянули, наркота никого уже не интересует акцентируются на экстремизме, прокурорским в очередной смазали жопу и они побежали дрючить нас и все прекрасно понимают что это борьба с ветряными мельницами, но есть один ньюанс - крайним и козлом отпущения будет всегда оператор, остальные лишь надзорные органы, им галочку поставить и отчитаться наверх, что мол вот мы улиличили что оператор нарушает закон. Алкс, никто не ноет. Все относительно просто. Есть идиотская юридическая норма, называть эти высеры законами язык не поворачивается, оператор вынужден ее исполнять под угорозой санкций. При этом та часть исполнения, которая лежит на госоргане в лице РКН делается керово, то есть, выгружаемая база-дрянь. В этой ситуации оператор вынужден исправлять за РКН его огрехи, то есть вынужден обрабатывать базу, потому, что использовать ее буквально нет никакого смысла. Но блин, Алкс, когда инженеры оператора демонстрируют непонимание разницы между HTTP и HTML, мне просто грустно становится. Какие накер anchors в HTTP??? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tosha Опубликовано 18 августа, 2016 · Жалоба %D0%9F%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%B8-%D0%B7%D0%B0%D0%B1%D0%BB%D1%83%D0%B4%D1%88%D0%B8%D1%85-%D0%B3%D1%80%D1%83%D0%BF%D0%BF-%D0%B2-%D0%98%D1%81%D0%BB%D0 Мое предположение - из-за последнего '%D0' - это начало двухбайтного символа UTF-8 но второго байта нет, в результате чего эта строка неверная. Но так же возможно проблема в ее длине. Проверяйте :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Tosha Опубликовано 18 августа, 2016 · Жалоба Есть идиотская юридическая норма, называть эти высеры законами язык не поворачивается, оператор вынужден ее исполнять под угорозой санкций. Ну законы не идиотские. Цензура это вполне традиционный и устоявшийся веками метод. В любой стране есть запреты на то что может быть публично напечатано. Ну то есть напечатать то можно все, но некоторое только один раз :) Например, в США Вы испытаете массу проблем при попытке что-то плохое сообщить о гм... людях другого цвета... Но с другой стороны правильно воспитанные люди устойчивы к, например, призывам джихада. Мое мнение - надо лучше воспитывать и тогда можно обойтись без особой цензуры. Я вот не могу определиться я за цензуру или против... :( Скорее всего надо не блокировкой заморачиваться а наказанием организаторов распространения. Очень многое что нельзя у нас нельзя и в странах где расположены "хостинги". Грамотное обращение к полиции того государства решит все проблемы. И таки да - оператор совсем не всесилен и на уровне пакетов все закрыть не может. Этого законодатель не понимает. И люди этого не понимают. Тут плохо работает Роскомнадзор. Это он должен объяснить депутатам и Президенту что технически исполнимо а что нет. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
MATPOC Опубликовано 18 августа, 2016 · Жалоба Вот таким можно всё отделить. Потом собрать, но без fragment my($scheme, $authority, $path, $query, $fragment) = $uri =~ m|(?:([^:/?#]+):)?(?://([^/?#]*))?([^?#]*)(?:\?([^#]*))?(?:#(.*))?|; кстати, а почему не просто ? if ( $tmpstr =~ '^(.+?)(/.*)' ) { Это Вам просто. И мне просто. Но очень непросто другим. Вот для того и сделано несколько более-менее понятных регекспов, чтобы и другие коллеги, более-менее разбирающиеся в перле, могли, в случае чего, поправить или добавить новый шаблон. (Быть незаменимым очень тяжело, надо дать поработать и коллеге :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
SergoINFOLAN Опубликовано 18 августа, 2016 · Жалоба Это он должен объяснить депутатам и Президенту что технически исполнимо а что нет.ты ещё скажи что ГАИ за безопасность движения :) по какому закону что кто должен то ? нету санкций и штрафов ДЛЯ Роскомнадзора, чтобы его штрафануть за такую лажу в реестре! Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
AdmSasha Опубликовано 19 августа, 2016 · Жалоба Подскажите еще такой момент. В отчете по реестру есть записи, что с такого url произошел редирект на такой то. Например с graniru перенаправления (Поди надоело с ними считать до миллиона и решили сделать блокировку по маске) Как в SCE запретить эти редиректы ? Кто как это блокирует ? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
MATPOC Опубликовано 19 августа, 2016 · Жалоба Например с graniru перенаправления (Поди надоело с ними считать до миллиона и решили сделать блокировку по маске) Как в SCE запретить эти редиректы ? Кто как это блокирует ? Так и делайте для типа блокировки domain блокировку по маске - *.grani.ru Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...