hsvt Опубликовано 12 июля, 2017 (изменено) · Жалоба Какими пропусками? Делайте всё через Максовский софт и файлы и фильтрацию, все регулярки и обрезание и пр. в перле там уже есть. Не надо других за идиотов держать! Я вообще не использую Максовский софт, в том числе и по предубеждениям. И прежде чем написать, я все 10 раз проверил. После прогона через фильтр пропуски устранились cat urls.orig | sed -r "s/\,.*$//gi" | sed -e "s/'.*$//gi" > urls У кого работает нормально extfilter, поделитесь конфигурацией железа. У меня упорно сыпет пропуски, причем сейчас ради эксперимента оставил одну очередь пропусков стало гораздо меньше, но тем не менее они есть. В таком случае, то, чем вы фильтруете - не понятно. Вы сбиваете людей с толку своими "вбросами" с пропусками и тем самым, скорее всего, самого Макса. И ваше сообщение http://forum.nag.ru/forum/index.php?showtopic=79886&view=findpost&p=1418654 было про extfilter и nfqfilter (даже если частично патченный вами), наверное дальше по логике понятно? Я вообще к тому, что использование скриптов генерации от Макса совместно с его фильтром - очень важно, тут повторялось уже такое не раз, берут отдельно фильтр, а списки готовят сами. P.S. Какая версия extfilter? Изменено 12 июля, 2017 пользователем hsvt Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ixi Опубликовано 12 июля, 2017 · Жалоба Перезалил актуальный архив с пропусками https://yadi.sk/d/hhP1hT-g3KyG88 Анализ показал что пропускает ссылки с "," "'" (с запятой или апострофом) Можно конечно в самом перле обрезать до указанных символов. Причем как я понял безразницы символ ли это %2C или , Какими пропусками? Делайте всё через Максовский софт и файлы и фильтрацию, все регулярки и обрезание и пр. в перле там уже есть. Я через тот самый софт делал, пролетали некоторые ссылки из этого списка через extfilter. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 12 июля, 2017 (изменено) · Жалоба P.S. Какая версия extfilter? Последняя с git-а. Было 94 коммита, как и сейчас. Проверяйте ynet.co.il/articles/0,7340,L-4715257,00.html если в urls обрезать ynet.co.il/articles/0 то все нормально лочится. Изменено 12 июля, 2017 пользователем big-town Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
hsvt Опубликовано 12 июля, 2017 (изменено) · Жалоба P.S. Какая версия extfilter? Последняя с git-а. Было 94 коммита, как и сейчас. Проверяйте ynet.co.il/articles/0,7340,L-4715257,00.html если в urls обрезать ynet.co.il/articles/0 то все нормально лочится. У меня моя заглушка с тестового ноутбука, id=5536 в адресной строке в конце. Вводил в Google Chrome в точности как тут: ynet.co.il/articles/0,7340,L-4715257,00.html Коммит 12976da95facc9fd08d0dc5c2187d0ed976ca613 + 84e5614ceab59ae0ef5833a4ee964a5328e24797 в /home/extfilter/urls на 5536 строке находится: ynet.co.il/articles/0,7340,L-4715257,00.html Изменено 12 июля, 2017 пользователем hsvt Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 12 июля, 2017 (изменено) · Жалоба У меня моя заглушка с тестового ноутбука, id=5536 в адресной строке в конце. Вводил в Google Chrome в адресной строке в точности как тут: ynet.co.il/articles/0,7340,L-4715257,00.html У меня все тоже самое, и коммит тот же, но на страницу заходит. строка правда 3058. Изменено 12 июля, 2017 пользователем big-town Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 12 июля, 2017 (изменено) · Жалоба Я через тот самый софт делал, пролетали некоторые ссылки из этого списка через extfilter. А что за софт? Есть что то кроме этого? https://github.com/max197616/extfilter/tree/master/scripts/extfilter-maker Кстати не только у меня этот url "http://www.ynet.co.il/articles/0,7340,L-4715257,00.html" пролетает http://forum.nag.ru/forum/index.php?showtopic=79886&view=findpost&p=1388963 В дополнении к своему посту http://forum.nag.ru/forum/index.php?showtopic=79886&view=findpost&p=1418977, выяснил что проблема была в сетевой карте. Несмотря на то что тест dpdk проходит на ура. В общем интеловская интегрированная сетевая карта 82575EB для extFliter не годится, бдут сыпаться пропуски, причем по всем параметрам будет все нормально. Нормально заработало только на 82576 Изменено 12 июля, 2017 пользователем big-town Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
myth Опубликовано 12 июля, 2017 · Жалоба curl -v ynet.co.il/articles/0,7340,L-4715257,00.html * Hostname was NOT found in DNS cache * Trying 23.211.10.111... * Connected to ynet.co.il (23.211.10.111) port 80 (#0) > GET /articles/0,7340,L-4715257,00.html HTTP/1.1 > User-Agent: curl/7.35.0 > Host: ynet.co.il > Accept: */* > < HTTP/1.1 302 Found < Location: http://172.16.35.1?id=11686 < Connection: close * Closing connection 0 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 12 июля, 2017 · Жалоба Поставил url_normalization = false, стал фильтровать. myth свой конфиг можете показать? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Antares Опубликовано 12 июля, 2017 · Жалоба блин, обновился до 0.80, прилетели пропуски по ревизору. Броузером всё блочится. На 0.70 было чисто http://bobfilm-ru.ru/drama/314-ekipazh-2016.html http://baskino-ru.ru/2350-la-la-lend-2016.html http://baskino-ru.ru/2370-gulyay-vasya-2016.html http://bobfilm-ru.ru/serialy/399-voroniny-.html Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 12 июля, 2017 · Жалоба блин, обновился до 0.80, прилетели пропуски по ревизору. Броузером всё блочится. На 0.70 было чисто http://bobfilm-ru.ru/drama/314-ekipazh-2016.html http://baskino-ru.ru/2350-la-la-lend-2016.html http://baskino-ru.ru/2370-gulyay-vasya-2016.html http://bobfilm-ru.ru/serialy/399-voroniny-.html У меня не одна ссылка не открылась из того что вы предоставили. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Antares Опубликовано 12 июля, 2017 (изменено) · Жалоба блин, обновился до 0.80, прилетели пропуски по ревизору. Броузером всё блочится. На 0.70 было чисто http://bobfilm-ru.ru/drama/314-ekipazh-2016.html http://baskino-ru.ru/2350-la-la-lend-2016.html http://baskino-ru.ru/2370-gulyay-vasya-2016.html http://bobfilm-ru.ru/serialy/399-voroniny-.html У меня не одна ссылка не открылась из того что вы предоставили. У меня тоже не открылись, а вот ревизор умудрился на 0.80 версии extfilter`a ЗАвтра посмотрим, будут пропуски, то откачусь на 0.70 Изменено 12 июля, 2017 пользователем Antares Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
max1976 Опубликовано 13 июля, 2017 · Жалоба У меня тоже не открылись, а вот ревизор умудрился на 0.80 версии extfilter`a Возможная причина данного поведения исправлена в peafowl. Необходимо удалить каталог peafowl, запустить заново configure с нужными параметрами и собрать extfilter. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Antares Опубликовано 13 июля, 2017 (изменено) · Жалоба У меня тоже не открылись, а вот ревизор умудрился на 0.80 версии extfilter`a Возможная причина данного поведения исправлена в peafowl. Необходимо удалить каталог peafowl, запустить заново configure с нужными параметрами и собрать extfilter. Попробую Изменено 13 июля, 2017 пользователем Antares Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 13 июля, 2017 (изменено) · Жалоба С выключенной нормализацией всего 10 ссылок проскачило. http://img.pbooru.com//images/306/abdf65808521d9f525c3022e48afbf9d.png https://www.mbetgoodforyou.com/en/?pref=0_system_system_1 http://simg4.gelbooru.com//samples/4b/90/sample_4b90b49bcc67a940947e48c36544ada3.jpg?2704445 http://directorredirector1.com/?/ru/?partner=p13587p68159p5810%25l7520 http://simg4.gelbooru.com//samples/4b/90/sample_4b90b49bcc67a940947e48c36544ada3.jpg http://img.booru.org/furry//images/958/c0d099b2b623bbae81d7369ebf4500e3c28a5eba.jpg https://gelbooru.com//images/c8/79/c87972e18009b09fc677e624f2bb8490.png http://www.sportbet.com//index.html http://www.libros.am./book/read/id/357319/slug/russkijj-mirovjj-poryadok1 http://img.booru.org/ii//images/2/e0e22f8e36393fe5008bddf8a62bf418da277d0e.jpg https://gelbooru.com//samples/60/7b/sample_607bb85cb21a2e5d8c3985901e36c847.jpg http://img.booru.org/allgirl//images/41/13302d8ede5038c627483c2aacae9cb3e22e349a.jpg http://img.booru.org/ii//images/7/2a36253ef67849913e2d7b1f846a8fff0180c6a8.png http://img.rule34.xxx//images/1162/f126a9626479de091acabc1707e15e65.png Практически все имеют // - двойной слэш. В urls запись с одинарным слэшем. Если поставить двойной, то все блокируется. Изменено 13 июля, 2017 пользователем big-town Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 13 июля, 2017 (изменено) · Жалоба При компиляции вылезает предупреждение memset(&_lcore_conf[i],sizeof(lcore_conf),0); разве не так должно быть memset(&_lcore_conf[i],0,sizeof(lcore_conf)); ? Полный вывод: g++ -DHAVE_CONFIG_H -I. -I../include -I/usr/local/src/dpdk-stable-17.05.1/build/include -I.././peafowl/src -std=c++11 -O3 -Wall -fno-stack-protector -pthread -msse -msse2 -msse3 -mssse3 -MT main.o -MD -MP -MF .deps/main.Tpo -c -o main.o main.cpp main.cpp: In constructor ‘extFilter::extFilter()’: main.cpp:75:46: warning: ‘memset’ used with constant zero length parameter; this could be due to transposed parameters [-Wmemset-transposed-args] memset(&_lcore_conf[i],sizeof(lcore_conf),0); Изменено 13 июля, 2017 пользователем big-town Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alibek Опубликовано 13 июля, 2017 · Жалоба А https-ссылки откуда? В реестре их нет: <content id="355702" includeTime="2016-10-04T16:02:09" entryType="1" hash="DA68F2EAB416010A8A776C4AC368C83E"> <decision date="2016-09-28" number="154867-URL-on" org="Роскомнадзор"/> <url><![CDATA[http://gelbooru.com//images/c8/79/c87972e18009b09fc677e624f2bb8490.png]]></url> <domain><![CDATA[gelbooru.com]]></domain> <ip>5.178.68.100</ip> <ip>104.31.4.186</ip> <ip>104.31.5.186</ip> </content> Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 13 июля, 2017 · Жалоба А https-ссылки откуда? В реестре их нет: Это тестовая машина, я использую не актуальный реестр. Но urls и файл со ссылками сделан из одного dump.xml Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 13 июля, 2017 · Жалоба классная ссылка :) http://kinogo.by/4192-smotret-onlayn-serial-otel-eleon-1-sezon.html,http://kinogo.by/4192-otel-eleon-1-sezon-smotret-onlayn-02-12.html Они вслепую набирают что ли? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
max1976 Опубликовано 13 июля, 2017 · Жалоба При компиляции вылезает предупреждение memset(&_lcore_conf[i],sizeof(lcore_conf),0); разве не так должно быть memset(&_lcore_conf[i],0,sizeof(lcore_conf)); ? Да, ошибка. Исправлено. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ixi Опубликовано 13 июля, 2017 · Жалоба Я через тот самый софт делал, пролетали некоторые ссылки из этого списка через extfilter. Также решилось использованием другой сетевой. 82583V -- работало некорректно. 82576 -- блокирует нормально. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ne-vlezay80 Опубликовано 13 июля, 2017 · Жалоба Я через тот самый софт делал, пролетали некоторые ссылки из этого списка через extfilter. Также решилось использованием другой сетевой. 82583V -- работало некорректно. 82576 -- блокирует нормально. А как работает с virtio или с e1000e? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
ixi Опубликовано 13 июля, 2017 · Жалоба А как работает с virtio или с e1000e? Обе карты e1000e и из списка поддерживаемых, так что только тест скажет. virtio не пробовал, но кто-то тут отписывался, что на виртуалке всё нормально. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 13 июля, 2017 · Жалоба Привел extfilter_maker.pl к таком виду, что бы // двойной слэш преобразовался в одинарный только в конце --- extfilter_maker.pl.orig 2017-07-13 20:17:59.167720883 +0300 +++ extfilter_maker.pl 2017-07-13 14:27:36.456395905 +0300 @@ -261,8 +261,8 @@ $url2 .= "/" if($url2 !~ /\//); - $url11 =~ s/\/+/\//g; - $url2 =~ s/\/+/\//g; + $url11 =~ s/\/+$/\//g; + $url2 =~ s/\/+$/\//g; $url11 =~ s/http\:\//http\:\/\//g; $url2 =~ s/http\:\//http\:\/\//g; Получил пропуск всего в 4 ссылки с доменами с точкой опция remove_dot=true, в urls домен с точкой. Нормализация выключена иначе пропускает и с запятыми и с апострофами и скобками. http://www.ispovednik.com./prilozhenie-no-1 http://www.ispovednik.com./prilozhenie-no-2 http://www.libros.am./book/read/id/357319/slug/russkijj-mirovjj-poryadok1 http://directorredirector1.com/?/ru/?partner=p13587p68159p5810%25l7520 Мне кажется лучшим выходом будет при формировании urls, если есть домен с точкой, то просто дублировать ссылку и делать сразу и с точкой и без точки. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Antares Опубликовано 13 июля, 2017 · Жалоба я поставил remove_dot=false данные ссылки не пропускает Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
big-town Опубликовано 13 июля, 2017 (изменено) · Жалоба я поставил remove_dot=false данные ссылки не пропускает Это понятно, но тогда будет пропускать без точки. Хотя... это уже не наша проблема :) Я все таки подправлю perl и посмотрю что из этого получится. Изменено 13 июля, 2017 пользователем big-town Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...