Jump to content
Калькуляторы

Работа с реестром запрещенных сайтов каталог решений

Что вы обычно делаете с такими доменами в плане блокировки?

Да ничего, у меня блокировку делает СКАТ.

Проверяю эти списки в случае запросов или претензий прокуратуры - там искать проще, чем в дампе.

Список доменов использовал при кастомной блокировке через dnsmasq у одного клиента.

Share this post


Link to post
Share on other sites

Добавил дополнительный скрипт, который формирует сводку по реестру.

Его вызов можно добавить в тело основного скрипта erdi-request в функции erdi_finish (после строки gzip "$OLD").

Тогда при каждом обновлении реестра сразу будет обновляться и сводка.

 

#!/bin/bash

### Работа с дампом - статистика

source ./lib-config.inc
source ./lib-websvc.inc

DUMP="${ERDI_DUMP}/dump_last.xml"
N=5
TS=$("${ERDI_XML}" select --template -v "/reg:register/@updateTime" $DUMP)

echo "Дамп: $DUMP ($TS, байт `stat --format='%s' $DUMP`, строк `wc --lines $DUMP | cut -d' ' -f1`)"

# Обновить данные из дампа
function export_dump() {

# | sed -e 's/\(.*\)/\U\1/' | xargs idn --quiet -u --no-tld

echo "Формируются списки из дампа..."

echo "- список адресов (list-url.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[not(@blockType) and url]" \
 -v "url" -n "$DUMP" \
 | sort -u | awk '{ print length, $0 }' | sort -nr | cut -d" " -f2- \
 > list-url.txt

echo "- список доменов (list-domain.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='domain']" \
 -v "domain" -n "$DUMP" \
 | idn --quiet | sed 's/\(.*\)/\L\1/' \
 | sed 's/\.$//' \
 | sort -u | awk '{ print length, $0 }' | sort -nr | cut -d" " -f2- \
 > list-domain.txt

echo "- список доменов с маской (list-mask.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='domain-mask']" \
 -v "domain" -n "$DUMP" \
 | idn --quiet | sed 's/\(.*\)/\L\1/' \
 | sed 's/\.$//' \
 | sort -u | awk '{ print length, $0 }' | sort -nr | cut -d" " -f2- \
 > list-mask.txt

echo "- список IP-адресов (list-ip.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='ip' and ip]" \
 -v "ip" -n "$DUMP" \
 | sort -V -u \
 > list-ip.txt

echo "- список IP-подсетей (list-net.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='ip' and ipSubnet]" \
 -v "ipSubnet" -n "$DUMP" \
 | sort -V -u \
 > list-net.txt

}

export_dump

echo "Статистика по дампу"
echo "  Сводка по URL: "
echo "  - всего записей: `wc --lines list-url.txt | cut -d' ' -f1`"
echo "  - наиболее длинный URL: `head -n 1 list-url.txt | wc --chars`"
echo "  - протокол HTTP: всего `grep -c -E '^http://' list-url.txt`; порты `grep -E '^http://[^/]+:[0-9]+' list-url.txt | grep -E -o '^http://[^/]+:[0-9]+' | cut -d':' -f3 | sort -u -n | tr '\n' ' '`"
echo "  - протокол HTTPS: всего `grep -c -E '^https://' list-url.txt`; порты `grep -E '^https://[^/]+:[0-9]+' list-url.txt | grep -E -o '^https://[^/]+:[0-9]+' | cut -d':' -f3 | sort -u -n | tr '\n' ' '`"
echo "  - другие протоколы: всего `grep -c -E -v '^https?://' list-url.txt`; `grep -E -v '^https?://' list-url.txt | grep -E -o '^.+://' | cut -d':' -f1 | sort -u | tr '\n' ' '`"
echo "  - top-$N доменов: "
grep -E -o '^https?://[^/]+' list-url.txt | cut -d':' -f2 | cut -c3- | cut -d'.' -f2- | grep -F '.' | sort | uniq -c | sort -nr | head -n $N | awk '{print "      " $2 " (x " $1 ")"}'
echo "  Сводка по доменам: "
echo "  - всего доменов: `wc --lines list-domain.txt list-mask.txt | tail -n 1 | grep -E -o '[0-9]+'`"
echo "  - из них с маской: `wc --lines list-mask.txt | cut -d' ' -f1`"
echo "  - top-$N доменов без маски: "
rev list-domain.txt | cut -d'.' -f1-2 | rev | sort | uniq -c | sort -nr | head -n $N | awk '{print "      " $2 " (x " $1 ")"}'
echo "  - top-$N доменов с маской: "
rev list-mask.txt | cut -d'.' -f1-2 | rev | sort | uniq -c | sort -nr | head -n $N | awk '{print "      " $2 " (x " $1 ")"}'
echo "  Сводка по IP-адресам: "
echo "  - всего адресов: `wc --lines list-ip.txt | cut -d' ' -f1`"
echo "  - top-$N для адресов: "
cut -d'.' -f1-3 list-ip.txt | sort -V | uniq -c | sort -nr | head -n $N | awk '{print "      " $2 ".xxx" " (x " $1 ")"}'
echo "  - всего подсетей: `wc --lines list-net.txt | cut -d' ' -f1`"
cut -d'/' -f2 list-net.txt | sort -n | uniq -c | awk '{print "      блок /" $2 ": " $1 " x " 2^(32-$2) " = " $1*2^(32-$2)}'
echo "      итого: `cut -d'/' -f2 list-net.txt | awk '{s+=2^(32-$1)}END{print s}'`"
echo "  - top-$N для подсетей: "
sort -n -t'/' -k2 list-net.txt | head -n $N | sed  's/^/      /'

echo "Информация по подсетям"
# Req: Bash version >= 4.1
declare -A ASNAME
declare -A ASNET
declare -A ASCNT
readarray NET < list-net.txt

while read REC ; do
  IFS=\| read ASN ADR CIDR CC ORG <<< "$REC"
  ASN=$(echo $ASN | xargs echo -n)
  ADR=$(echo $ADR | xargs echo -n)
  CIDR=$(echo $CIDR | xargs echo -n)
  CC=$(echo $CC | xargs echo -n)
  ORG=$(echo $ORG | xargs echo -n)
  ASNAME[$ASN]=$ORG
  for SN in ${NET[@]}; do
    IFS=/ read SI SM <<< "$SN"
    if [ "$SI" == "$ADR" ]; then
      ASNET[$ASN]+=$SN$'\n'
      let ASCNT[$ASN]+=$((2**(32-$SM)))
    fi
  done
done <<< "$((echo begin && echo noheader && echo countrycode && echo prefix && echo notruncate && cat list-net.txt && echo end) | ncat whois.cymru.com 43)"

while read REC; do
  IFS=\| read CNT ASN <<< "$REC"
  if [ "0$CNT" -eq 0 ]; then continue; fi
  echo "  AS $ASN: ${ASNAME[$ASN]}"
  echo "${ASNET[$ASN]}" | egrep -v '^$' | sed 's/^/    подсеть /'
  echo "    итого: ${ASCNT[$ASN]}"
done <<< "$(for ASN in "${!ASNAME[@]}"; do echo "${ASCNT[$ASN]}\|$ASN"; done | grep -v '|NA' | sort -nr && echo "${ASCNT[NA]}\|NA")"

Последняя часть (со сводкой по автономным системам) использует ассоциативные массивы, для этого требуется bash не ниже четвертой версии.

Кроме того для работы скрипта нужна утилита netcat (или ncat), в дистрибутивах CentOS она входит в состав пакета nmap.

Пример вывода под спойлером.

Скрытый текст

Дамп: /srv/erdi/dump/dump_last.xml (2018-04-23T10:52:00+03:00, байт 45769822, строк 820689)
Формируются списки из дампа...
- список адресов (list-url.txt)
- список доменов (list-domain.txt)
- список доменов с маской (list-mask.txt)
- список IP-адресов (list-ip.txt)
- список IP-подсетей (list-net.txt)
Статистика по дампу
  Сводка по URL: 
  - всего записей: 58939
  - наиболее длинный URL: 1133
  - протокол HTTP: всего 50982; порты 80 81 888 8001 8080 8081 
  - протокол HTTPS: всего 7945; порты 443 16869 
  - другие протоколы: всего 12; newcamd525 
  - top-5 доменов: 
      vidoevo.com (x 1081)
      myvido1.com (x 839)
      exyi.com (x 782)
      agaclip.com (x 725)
      viduba.com (x 605)
  Сводка по доменам: 
  - всего доменов: 68901
  - из них с маской: 3683
  - top-5 доменов без маски: 
      sl.pt (x 654)
      googleusercontent.com (x 304)
      amazonaws.com (x 183)
      bcdl.rocks (x 157)
      bkfind.space (x 155)
  - top-5 доменов с маской: 
      bkfind.space (x 137)
      ru.com (x 32)
      olimp9b55.gdn (x 26)
      olimp6301.site (x 25)
      olimpa88c.site (x 23)
  Сводка по IP-адресам: 
  - всего адресов: 5918
  - top-5 для адресов: 
      149.154.163.xxx (x 136)
      188.42.196.xxx (x 118)
      149.154.164.xxx (x 118)
      149.154.165.xxx (x 109)
      91.108.56.xxx (x 102)
  - всего подсетей: 76
      блок /10: 1 x 4194304 = 4194304
      блок /11: 1 x 2097152 = 2097152
      блок /12: 6 x 1048576 = 6291456
      блок /13: 5 x 524288 = 2621440
      блок /14: 3 x 262144 = 786432
      блок /15: 12 x 131072 = 1572864
      блок /16: 19 x 65536 = 1245184
      блок /17: 4 x 32768 = 131072
      блок /18: 1 x 16384 = 16384
      блок /19: 3 x 8192 = 24576
      блок /20: 2 x 4096 = 8192
      блок /21: 3 x 2048 = 6144
      блок /22: 11 x 1024 = 11264
      блок /23: 2 x 512 = 1024
      блок /24: 3 x 256 = 768
      итого: 19008256
  - top-5 для подсетей: 
      34.192.0.0/10
      52.192.0.0/11
      35.192.0.0/12
      35.208.0.0/12
      35.224.0.0/12
Информация по подсетям
  AS 16509: AMAZON-02 - Amazon.com, Inc., US
    подсеть 13.56.0.0/14
    подсеть 13.125.0.0/16
    подсеть 13.230.0.0/15
    подсеть 18.130.0.0/16
    подсеть 18.144.0.0/16
    подсеть 18.184.0.0/15
    подсеть 18.194.0.0/15
    подсеть 18.196.0.0/15
    подсеть 18.218.0.0/16
    подсеть 18.236.0.0/15
    подсеть 34.240.0.0/13
    подсеть 34.248.0.0/13
    подсеть 35.156.0.0/14
    подсеть 35.160.0.0/13
    подсеть 35.176.0.0/15
    подсеть 35.178.0.0/15
    подсеть 35.180.0.0/16
    подсеть 52.32.0.0/16
    подсеть 52.56.0.0/16
    подсеть 52.57.0.0/16
    подсеть 52.58.0.0/15
    подсеть 52.64.0.0/12
    подсеть 52.192.0.0/11
    подсеть 54.64.0.0/13
    подсеть 54.212.0.0/15
    подсеть 54.228.0.0/15
    итого: 7602176
  AS 14618: AMAZON-AES - Amazon.com, Inc., US
    подсеть 18.204.0.0/14
    подсеть 34.192.0.0/10
    подсеть 54.144.0.0/12
    подсеть 54.160.0.0/12
    итого: 6553600
  AS 15169: GOOGLE - Google LLC, US
    подсеть 23.251.128.0/19
    подсеть 35.184.0.0/13
    подсеть 35.192.0.0/12
    подсеть 35.224.0.0/12
    итого: 2629632
  AS 19527: GOOGLE-2 - Google LLC, US
    подсеть 35.208.0.0/12
    итого: 1048576
  AS 14061: DIGITALOCEAN-ASN - DigitalOcean, LLC, US
    подсеть 46.101.128.0/17
    подсеть 139.59.0.0/16
    подсеть 159.65.0.0/16
    подсеть 159.89.0.0/16
    подсеть 159.203.0.0/16
    подсеть 165.227.0.0/16
    подсеть 167.99.0.0/16
    подсеть 174.138.0.0/17
    подсеть 188.166.0.0/17
    подсеть 206.189.0.0/16
    итого: 557056
  AS 8075: MICROSOFT-CORP-MSN-AS-BLOCK - Microsoft Corporation, US
    подсеть 51.136.0.0/15
    итого: 131072
  AS 10796: SCRR-10796 - Time Warner Cable Internet LLC, US
    подсеть 174.104.0.0/15
    итого: 131072
  AS 201229: DIGITALOCEAN-GERMANY, DE
    подсеть 46.101.128.0/17
    подсеть 159.89.0.0/16
    итого: 98304
  AS 12876: AS12876, FR
    подсеть 51.15.0.0/16
    подсеть 195.154.0.0/17
    итого: 98304
  AS 46652: SERVERSTACK-ASN - ServerStack, Inc., US
    подсеть 167.99.0.0/16
    итого: 65536
  AS 24940: HETZNER-AS, DE
    подсеть 178.63.0.0/16
    итого: 65536
  AS 16276: OVH, FR
    подсеть 91.121.0.0/16
    итого: 65536
  AS 18705: RIMBLACKBERRY - BlackBerry Limited, CA
    подсеть 68.171.224.0/19
    подсеть 74.82.64.0/19
    подсеть 103.246.200.0/22
    подсеть 178.239.88.0/21
    итого: 19456
  AS 36351: SOFTLAYER - SoftLayer Technologies Inc., US
    подсеть 159.122.128.0/18
    итого: 16384
  AS 38631: LINE LINE Corporation, JP
    подсеть 203.104.128.0/20
    подсеть 203.104.144.0/21
    подсеть 203.104.152.0/22
    итого: 7168
  AS 62041: TELEGRAM, GB
    подсеть 91.108.4.0/22
    подсеть 91.108.8.0/22
    подсеть 149.154.160.0/22
    подсеть 149.154.164.0/22
    итого: 4096
  AS 32780: HOSTINGSERVICES-INC - Hosting Services, Inc., US
    подсеть 98.158.176.0/20
    итого: 4096
  AS 62014: TELEGRAM, NL
    подсеть 91.108.16.0/22
    подсеть 91.108.56.0/22
    подсеть 149.154.168.0/22
    итого: 3072
  AS 59930: TELEGRAM_MESSENGER, GB
    подсеть 91.108.12.0/22
    подсеть 149.154.172.0/22
    итого: 2048
  AS 200185: XANDMAIL-ASN, DE
    подсеть 94.177.224.0/21
    итого: 2048
  AS 49635: SILICON, ES
    подсеть 185.166.212.0/23
    итого: 512
  AS 20473: AS-CHOOPA - Choopa, LLC, US
    подсеть 45.76.82.0/23
    итого: 512
  AS 41436: CLOUDWEBMANAGE-EU, GB
    подсеть 185.229.227.0/24
    итого: 256
  AS 31500: GLOBALNET-AS, RU
    подсеть 109.239.140.0/24
    итого: 256
  AS 13213: UK2NET-AS, GB
    подсеть 176.67.169.0/24
    итого: 256
  AS NA: NA
    подсеть 128.199.0.0/16
    итого: 65536

 

Сервис whois.cymru.com банит за злоупотребления.

Если кто-то знает более подходящий сервер, общественность будет признательна.

Share this post


Link to post
Share on other sites

1 час назад, alibek сказал:

Сервис whois.cymru.com банит за злоупотребления.

Если кто-то знает более подходящий сервер, общественность будет признательна.

Так, а этот

https://www.shadowserver.org/wiki/pmwiki.php/Services/IP-BGP

тоже не подошёл?

Share this post


Link to post
Share on other sites

Его пока не проверял.

В принципе, whois.cymru.com тоже работает нормально, если запросы делать в пакетном режиме и не слишком часто (не чаще раза в час).

Базы у них примерно одинаковые, оба одинаково не знают про 128.199.0.0, поэтому особого смысла менять пока не вижу.

Share this post


Link to post
Share on other sites

У меня что то массив не хочет печатать...

 

Информация по подсетям
./erdi-statistics.sh: line 99: ASNAME[$ASN]: bad array subscrip

bash 4.2.46(1)-release (x86_64-redhat-linux-gnu)

 

 ncat --version
Ncat: Version 6.40 ( http://nmap.org/ncat )

Share this post


Link to post
Share on other sites

4 минуты назад, hsvt сказал:

bad array subscrip

Почему-то ассоциативные массивы не работают.

Скрипт точно через bash запускается?

Что написано по man declare?

Может быть ключ нужно в нижнем регистре указывать (не declare -A, а declare -a)?

 

У меня версия GNU bash, version 4.1.2(1)-release (x86_64-redhat-linux-gnu).

Возможно в GNU некоторые ключи по другому указываются.

Share this post


Link to post
Share on other sites

28 минут назад, alibek сказал:

Почему-то ассоциативные массивы не работают.

Скрипт точно через bash запускается?

Что написано по man declare?

Может быть ключ нужно в нижнем регистре указывать (не declare -A, а declare -a)?

 

У меня версия GNU bash, version 4.1.2(1)-release (x86_64-redhat-linux-gnu).

Возможно в GNU некоторые ключи по другому указываются.

Во всех erdi скриптах пути запуска, а сам баш по факту в CentOS7 в /usr/bin/bash

#!/bin/bash

Попробовал поменять сейчас на #!/usr/bin/bash -i в интерактив или #!/usr/bin/env bash но тоже самое.

 

              -a     Each name is an indexed array variable (see Arrays above).
              -A     Each name is an associative array variable (see Arrays above).

 

Edited by hsvt

Share this post


Link to post
Share on other sites

Понятно.

Наверное буду переделывать скрипт под обычные массивы или вообще под конвейерную обработку.

Share this post


Link to post
Share on other sites

2 минуты назад, alibek сказал:

Понятно.

Наверное буду переделывать скрипт под обычные массивы или вообще под конвейерную обработку.

awk в помощь! Там с времен замшелых ничего почти не меняется. В том числе и ассоциативные массивы.

Share this post


Link to post
Share on other sites

Я попробую обойтись чистым шеллом.

Так то было бы логичнее всю статистику считать на Perl, получилось бы во много раз быстрее и проще.

 

1 час назад, hsvt сказал:

У меня что то массив не хочет печатать...

Кстати, а может быть что-то не так с обработкой списка данных?

Если перед строкой 99 написать echo "ASN=[$ASN]", то в консоли что будет?

Может быть там пустое значение.

Share this post


Link to post
Share on other sites

6 минут назад, alibek сказал:

Я попробую обойтись чистым шеллом.

Так то было бы логичнее всю статистику считать на Perl, получилось бы во много раз быстрее и проще.

 

Кстати, а может быть что-то не так с обработкой списка данных?

Если перед строкой 99 написать echo "ASN=[$ASN]", то в консоли что будет?

Может быть там пустое значение.

while read REC ; do
  IFS=\| read ASN ADR CIDR CC ORG <<< "$REC"
  ASN=$(echo $ASN | xargs echo -n)
  ADR=$(echo $ADR | xargs echo -n)
  CIDR=$(echo $CIDR | xargs echo -n)
  echo "ASN=[$ASN]"
  CC=$(echo $CC | xargs echo -n)
  ORG=$(echo $ORG | xargs echo -n)
  ASNAME[$ASN]=$ORG
  for SN in ${NET[@]}; do
    IFS=/ read SI SM <<< "$SN"
    if [ "$SI" == "$ADR" ]; then
      ASNET[$ASN]+=$SN$'\n'
      let ASCNT[$ASN]+=$((2**(32-$SM)))
    fi
  done
done <<< "$((echo begin && echo noheader && echo countrycode && echo prefix && echo notruncate && cat list-net.txt && echo end) | ncat whois.cymru.com 43)"
++ echo begin
++ echo noheader
++ echo countrycode
++ echo prefix
++ echo notruncate
++ cat list-net.txt
++ ncat whois.cymru.com 43
++ echo end
+ read REC
+ IFS='|'
+ read ASN ADR CIDR CC ORG
++ xargs echo -n
++ echo
+ ASN=
++ xargs echo -n
++ echo
+ ADR=
++ xargs echo -n
++ echo
+ CIDR=
+ echo 'ASN=[]'
ASN=[]
++ xargs echo -n
++ echo
+ CC=
++ xargs echo -n
++ echo
+ ORG=
+ ASNAME[$ASN]=
./erdi-statistics.sh: line 102: ASNAME[$ASN]: bad array subscript

while read REC; do
  IFS=\| read CNT ASN <<< "$REC"
  if [ "0$CNT" -eq 0 ]; then continue; fi
  echo "  AS $ASN: ${ASNAME[$ASN]}"
  echo "${ASNET[$ASN]}" | egrep -v '^$' | sed 's/^/    подсеть /'
  echo "    итого: ${ASCNT[$ASN]}"
done <<< "$(for ASN in "${!ASNAME[@]}"; do echo "${ASCNT[$ASN]}\|$ASN"; done | grep -v '|NA' | sort -nr && echo "${ASCNT[NA]}\|NA")"
++ grep -v '|NA'
++ sort -nr
++ echo '\|NA'
+ read REC
+ IFS='|'
+ read CNT ASN
+ '[' 0 -eq 0 ']'
+ continue
+ read REC

 

Edited by hsvt

Share this post


Link to post
Share on other sites

Заменил последнюю часть (где делается сводка по автономным системам).

Заодно и чуть ускорил за счет того, что концевые пробелы убираю встроенными способами, а не через xargs.

Нужно заменить последнюю часть скрипта, которая начинается с такого же echo:

echo "Информация по подсетям"
declare -a NET
declare -a ASORG
declare -a ASCNT
declare -a ASNET
readarray NET < list-net.txt

shopt -s extglob
while read REC ; do
  IFS=\| read ASN ADR BGP CC ORG <<< "$REC"
  let ASN=$ASN
  ADR=${ADR##+([[:space:]])}
  ADR=${ADR%%+([[:space:]])}
  BGP=${BGP##+([[:space:]])}
  BGP=${BGP%%+([[:space:]])}
  ORG=${ORG##+([[:space:]])}
  ORG=${ORG%%+([[:space:]])}
  CC=${CC##+([[:space:]])}
  CC=${CC%%+([[:space:]])}
  ASORG[$ASN]="$ORG"
  for SN in ${NET[@]}; do
    IFS=/ read SI SM <<< "$SN"
    if [ "$SI" == "$ADR" ]; then
      ASNET[$ASN]+=$SN$'\n'
      let ASCNT[$ASN]+=$((2**(32-$SM)))
    fi
  done
done <<< "$((echo begin && echo noheader && echo countrycode && echo prefix && echo notruncate && cat list-net.txt && echo end) | ncat whois.cymru.com 43 | grep '|')"

while read ASN; do
  if [ "0$ASN" -eq 0 ]; then continue; fi
  echo "  AS $ASN: ${ASORG[$ASN]}"
  echo "${ASNET[$ASN]}" | egrep -v '^$' | sed 's/^/    подсеть /'
  echo "    итого: ${ASCNT[$ASN]}"
done <<< "$(for ASN in "${!ASORG[@]}"; do echo "${ASCNT[$ASN]} $ASN"; done | sort -nr | cut -d' ' -f2)"
if [ "0${ASCNT[0]}" -gt 0 ]; then
  echo "  Неидентифицированные AS"
  echo "${ASNET[0]}" | egrep -v '^$' | sed 's/^/    подсеть /'
  echo "    итого: ${ASCNT[0]}"
fi

Если все нормально, то причешу и выложу в основной дистрибутив.

Share this post


Link to post
Share on other sites

Мда.

Похоже к скрипту нужно еще и обработку отдельных IP прикручивать.

80% одиночных IP — это тоже Гугл/Амазон/МС.

Share this post


Link to post
Share on other sites

Добавляю новую версию.

В основном скрипте мелкие косметические правки + вызов dump_stat.sh.

Скрипт dump_stat.sh выгружает из реестра записи разных типов в соответствующие текстовые файлы list-*.txt и делает сводка по блокировкам. Также этот скрипт ресолвит автономные системы (по заблокированным подсетям и IP) и выводятся в порядке убывания количества заблокированных адресов.

Пример вывода скрипта dump_stat.sh под спойлером:

Скрытый текст

Дамп: /srv/erdi/dump/dump_last.xml (2018-04-23T20:51:00+03:00, байт 45904182, строк 822391)
Формируются списки из дампа...
- список адресов (list-url.txt)
- список доменов (list-domain.txt)
- список доменов с маской (list-mask.txt)
- список IP-адресов (list-ip.txt)
- список IP-подсетей (list-net.txt)
Статистика по дампу
  Сводка по URL: 
  - всего записей: 58871
  - наиболее длинный URL: 1133
  - протокол HTTP: всего 50905; порты 80 81 888 8001 8080 8081 
  - протокол HTTPS: всего 7954; порты 443 16869 
  - другие протоколы: всего 12; newcamd525 
  - top-5 доменов: 
      vidoevo.com (x 1081)
      myvido1.com (x 839)
      exyi.com (x 782)
      agaclip.com (x 725)
      viduba.com (x 605)
  Сводка по доменам: 
  - всего доменов: 69001
  - из них с маской: 3690
  - top-5 доменов без маски: 
      sl.pt (x 654)
      googleusercontent.com (x 304)
      amazonaws.com (x 183)
      bcdl.rocks (x 157)
      bkfind.space (x 155)
  - top-5 доменов с маской: 
      bkfind.space (x 137)
      ru.com (x 32)
      olimp9b55.gdn (x 26)
      olimp6301.site (x 26)
      olimpa88c.site (x 23)
  Сводка по IP-адресам: 
  - всего адресов: 7488
  - top-5 для адресов: 
      149.154.163.xxx (x 136)
      47.254.149.xxx (x 132)
      188.42.196.xxx (x 118)
      149.154.164.xxx (x 118)
      47.254.151.xxx (x 116)
  - всего подсетей: 76
      блок /10: 1 x 4194304 = 4194304
      блок /11: 1 x 2097152 = 2097152
      блок /12: 6 x 1048576 = 6291456
      блок /13: 5 x 524288 = 2621440
      блок /14: 3 x 262144 = 786432
      блок /15: 12 x 131072 = 1572864
      блок /16: 19 x 65536 = 1245184
      блок /17: 4 x 32768 = 131072
      блок /18: 1 x 16384 = 16384
      блок /19: 3 x 8192 = 24576
      блок /20: 2 x 4096 = 8192
      блок /21: 3 x 2048 = 6144
      блок /22: 11 x 1024 = 11264
      блок /23: 2 x 512 = 1024
      блок /24: 3 x 256 = 768
      итого: 19008256
  - top-5 для подсетей: 
      34.192.0.0/10
      52.192.0.0/11
      35.192.0.0/12
      35.208.0.0/12
      35.224.0.0/12
Информация по подсетям
  - загрузка сводки в list-whois.txt...
  - подсчет совпадений...
  - расчеты выполнены
  AS 16509: AMAZON-02 - Amazon.com, Inc., US
    подсеть 13.56.0.0/14
    подсеть 13.125.0.0/16
    подсеть 13.230.0.0/15
    подсеть 18.130.0.0/16
    подсеть 18.144.0.0/16
    подсеть 18.184.0.0/15
    подсеть 18.194.0.0/15
    подсеть 18.196.0.0/15
    подсеть 18.218.0.0/16
    подсеть 18.236.0.0/15
    подсеть 34.240.0.0/13
    подсеть 34.248.0.0/13
    подсеть 35.156.0.0/14
    подсеть 35.160.0.0/13
    подсеть 35.176.0.0/15
    подсеть 35.178.0.0/15
    подсеть 35.180.0.0/16
    подсеть 52.32.0.0/16
    подсеть 52.56.0.0/16
    подсеть 52.57.0.0/16
    подсеть 52.58.0.0/15
    подсеть 52.64.0.0/12
    подсеть 52.192.0.0/11
    подсеть 54.64.0.0/13
    подсеть 54.212.0.0/15
    подсеть 54.228.0.0/15
    хосты: 735
    итого: 7,602,911
  AS 14618: AMAZON-AES - Amazon.com, Inc., US
    подсеть 18.204.0.0/14
    подсеть 34.192.0.0/10
    подсеть 54.144.0.0/12
    подсеть 54.160.0.0/12
    хосты: 45
    итого: 6,553,645
  AS 15169: GOOGLE - Google LLC, US
    подсеть 23.251.128.0/19
    подсеть 35.184.0.0/13
    подсеть 35.192.0.0/12
    подсеть 35.224.0.0/12
    хосты: 488
    итого: 2,630,120
  AS 19527: GOOGLE-2 - Google LLC, US
    подсеть 35.208.0.0/12
    итого: 1,048,576
  AS 14061: DIGITALOCEAN-ASN - DigitalOcean, LLC, US
    подсеть 46.101.128.0/17
    подсеть 139.59.0.0/16
    подсеть 159.65.0.0/16
    подсеть 159.89.0.0/16
    подсеть 159.203.0.0/16
    подсеть 165.227.0.0/16
    подсеть 167.99.0.0/16
    подсеть 174.138.0.0/17
    подсеть 188.166.0.0/17
    подсеть 206.189.0.0/16
    хосты: 145
    итого: 557,201
  AS 8075: MICROSOFT-CORP-MSN-AS-BLOCK - Microsoft Corporation, US
    подсеть 51.136.0.0/15
    хосты: 980
    итого: 132,052
  AS 10796: SCRR-10796 - Time Warner Cable Internet LLC, US
    подсеть 174.104.0.0/15
    итого: 131,072
  AS 201229: DIGITALOCEAN-GERMANY, DE
    подсеть 46.101.128.0/17
    подсеть 159.89.0.0/16
    хосты: 53
    итого: 98,357
  AS 12876: AS12876, FR
    подсеть 51.15.0.0/16
    подсеть 195.154.0.0/17
    хосты: 39
    итого: 98,343
  AS 24940: HETZNER-AS, DE
    подсеть 178.63.0.0/16
    хосты: 129
    итого: 65,665
  AS 16276: OVH, FR
    подсеть 91.121.0.0/16
    хосты: 33
    итого: 65,569
  AS 46652: SERVERSTACK-ASN - ServerStack, Inc., US
    подсеть 167.99.0.0/16
    хосты: 15
    итого: 65,551
  AS 18705: RIMBLACKBERRY - BlackBerry Limited, CA
    подсеть 68.171.224.0/19
    подсеть 74.82.64.0/19
    подсеть 103.246.200.0/22
    подсеть 178.239.88.0/21
    хосты: 12
    итого: 19,468
  AS 36351: SOFTLAYER - SoftLayer Technologies Inc., US
    подсеть 159.122.128.0/18
    хосты: 286
    итого: 16,670
  AS 38631: LINE LINE Corporation, JP
    подсеть 203.104.128.0/20
    подсеть 203.104.144.0/21
    подсеть 203.104.152.0/22
    хосты: 4
    итого: 7,172
  AS 62041: TELEGRAM, GB
    подсеть 91.108.4.0/22
    подсеть 91.108.8.0/22
    подсеть 149.154.160.0/22
    подсеть 149.154.164.0/22
    хосты: 611
    итого: 4,707
  AS 32780: HOSTINGSERVICES-INC - Hosting Services, Inc., US
    подсеть 98.158.176.0/20
    хосты: 47
    итого: 4,143
  AS 62014: TELEGRAM, NL
    подсеть 91.108.16.0/22
    подсеть 91.108.56.0/22
    подсеть 149.154.168.0/22
    хосты: 145
    итого: 3,217
  AS 59930: TELEGRAM_MESSENGER, GB
    подсеть 91.108.12.0/22
    подсеть 149.154.172.0/22
    хосты: 62
    итого: 2,110
  AS 200185: XANDMAIL-ASN, DE
    подсеть 94.177.224.0/21
    хосты: 5
    итого: 2,053
  AS 45102: CNNIC-ALIBABA-CN-NET-AP Alibaba (China) Technology Co., Ltd., CN
    хосты: 1041
  AS 20473: AS-CHOOPA - Choopa, LLC, US
    подсеть 45.76.82.0/23
    хосты: 148
    итого: 660
  AS 13335: CLOUDFLARENET - Cloudflare, Inc., US
    хосты: 555
  AS 49635: SILICON, ES
    подсеть 185.166.212.0/23
    хосты: 1
    итого: 513
  AS 7979: SERVERS - Servers.com, Inc., US
    хосты: 499
  AS 13213: UK2NET-AS, GB
    подсеть 176.67.169.0/24
    хосты: 175
    итого: 431
  AS 31500: GLOBALNET-AS, RU
    подсеть 109.239.140.0/24
    хосты: 17
    итого: 273
  AS 41436: CLOUDWEBMANAGE-EU, GB
    подсеть 185.229.227.0/24
    хосты: 3
    итого: 259
  AS 6762: SEABONE-NET TELECOM ITALIA SPARKLE S.p.A., IT
    хосты: 128
  AS 38895: AMAZON-AS-AP Amazon.com Tech Telecom, JP
    хосты: 118
  AS 28753: LEASEWEB-DE-FRA-10, DE
    хосты: 107
  AS 63949: LINODE-AP Linode, LLC, US
    хосты: 103
  AS 35415: WEBZILLA, NL
    хосты: 99
  AS 20860: IOMART-AS, GB
    хосты: 93
  AS 29066: VELIANET-AS velia.net Internetdienste GmbH, DE
    хосты: 87
  AS 44907: TELEGRAM_MESSENGER_CDN, US
    хосты: 81
  AS 56630: MELBICOM-EU-AS Melbikomas UAB, NL
    хосты: 43
  AS 23576: NHN-AS-KR NBP, KR
    хосты: 38
  AS 197988: SOLARCOM, CH
    хосты: 33
  AS 207154: PROMINKOM, RU
    хосты: 32
  AS 5577: ROOT, LU
    хосты: 29
  AS 43338: RATIONAL-AS, GB
    хосты: 29
  AS 39572: ADVANCEDHOSTERS-AS, NL
    хосты: 28
  AS 24961: MYLOC-AS, DE
    хосты: 28
  AS 202109: DIGITALOCEAN-ASN-2, GB
    хосты: 28
  AS 19905: NEUSTAR-AS6 - NeuStar, Inc., US
    хосты: 22
  AS 15626: ITLAS, UA
    хосты: 17
  AS 56851: VPS-UA-AS, UA
    хосты: 16
  AS 196752: TILAA, NL
    хосты: 16
  AS 59729: ITL-, BG
    хосты: 15
  AS 60781: LEASEWEB-NL-AMS-01 Netherlands, NL
    хосты: 14
  AS 201057: MULTIM, FI
    хосты: 14
  AS 51852: PLI-AS, CH
    хосты: 13
  AS 48536: FILCO-AS, IM
    хосты: 12
  AS 202053: UPCLOUD, FI
    хосты: 12
  AS 198849: CASSAVA-UK Used in Telecity, GB
    хосты: 11
  Неидентифицированные AS
    подсеть 128.199.0.0/16
    хосты: 2
    итого: 65,538

 

erdi.tar.gz

Share this post


Link to post
Share on other sites

всего подсетей: 76
      блок /10: 1 x 4194304 = 4194304
     ...
      итого: 19008256

 

Скорее всего тут не сходится...

как минимум

34.192.0.0/10

Включает в себя

34.240.0.0/13
34.248.0.0/13

Возможно чтото еще. у меня полный блок лист для ACLей, после агрегации всего-всего что блокировка по IP гдето 18м.. (в общем когда такой разбег увидел, пошел смотреть че так не сходится.)

 

:)

Share this post


Link to post
Share on other sites

Да, перекрытие масок я не учитывал, думал, что оператор реестра будет такое сам проверять.

Пока подожду исправлять, буду смотреть формальные показатели.

Если начнутся большие расхождение, тогда добавлю фильтр для list-net.txt, чтобы делал агрегацию сетей.

Share this post


Link to post
Share on other sites

Кстати, скрипт нормализует записи и убирает дубли.

Решил посмотреть, есть ли на самом деле дубли.

Оказывается, что есть и много.

Скрытый текст

Поиск дублей в реестре
- список адресов (list-url.txt)
      2 http://torrentcd2017.pro/8cc7dd210266bbf8d929d1df3f7e6d56d9ae63d3/%D0%81%D0%BB%D0%BA%D0%B8+5+2016+WEB+DLRip+%D0%BE%D1%82+Generalfilm+%D0%9A%D0%9F%D0%9A+iTunes.torrent
      4 http://torrentcd2017.pro/219466efbe7365031eec1eb5f68b7dc5370240b8/%D0%81%D0%BB%D0%BA%D0%B8+5+2016+WEB+DLRip+AVC+%D0%BE%D1%82+ExKinoRay+iTunes.torrent
      2 http://torrentcd2017.pro/c339a17270841b6c4bc5573b7d3d00ebf6317727/%D0%81%D0%BB%D0%BA%D0%B8+5+2016+WEB+DLRip+%D0%BE%D1%82+GeneralFilm+iTunes.torrent
      2 http://torrentcd2017.pro/41d00b2d80cde4fcc6ff86b0e1f96c4604141dba/%D0%81%D0%BB%D0%BA%D0%B8+5+2016+WEB+DLRip+%D0%BE%D1%82+Scarabey+iTunes.torrent
      2 http://rutor0.org/seriali/russ-serials/53301-ivanovy-ivanovy-1-sezon-1-5-serii-iz-20-2017-web-dl-1080p.html
      2 http://rutor0.org/seriali/russ-serials/53346-ivanovy-ivanovy-1-sezon-1-serii-iz-20-2017-web-dl-720p.html
      2 http://media7.dugtor-datalogger.xyz/forum/viewtopic.php?t=1189340
      2 http://viwall.biz/load/filmy_2017/konvert_2017/32-1-0-65669
      2 http://onlinehq.ru/rossiyskoe-kino/14752-konvert-2017.html
      2 http://tvoe-kino.com/filimi-2017/1938-konvert-2017.html
      2 http://kinomax.com.ua/films/8532-konvert-2017.html
      2 http://gold-torrent.ru/films/939-elki-5-2016.html
      2 http://www.mediapapa.org/147236-elki-5-2016.html
      2 http://kinovau.com/7118-gogol-nachalo-2017-.html
      2 http://sevtracker.org/viewtopic.php?t=90744
      2 http://kino-v-online.info/3431-konvert.html
      2 http://kin4ek.com/trillery/528-konvert.html
      2 http://yuzmile.com/vod/watch.php?id=3265
      2 http://protak.org/viewtopic.php?t=14625
      2 http://protak.org/viewtopic.php?t=13792
      2 http://telego24.net/nash-futbol.html
      3 http://ivbox.me/t122422
      2 http://ivbox.me/p711094
      2 http://51.143.152.116/
      2 http://magnitdom2.com
      2 http://47.91.28.85/
- список доменов (list-domain.txt)
      2 new.xn--1---7cdbcb4aca7cbbcxxqb5ahnnpk8b2t.xn--p1acf
      2 xn--4-7sbagbdpv5bpes5ad1ki.xn--80asehdb
      2 xn----ftbccb4bifbeabsfgnf3c.xn--p1ai
      2 xn-----8kcledd0aci4aj1cb3o.xn--p1ai
      2 xn-----6kccaic9br6bfmidx8f.xn--p1ai
      2 bk3.xn--1--blcqqatr5b1a2j.xn--p1acf
      2 xn----ctbefcsec1bmmd2a4j.xn--p1acf
      2 xn----7sbabjkslpccgs2a9b.xn--p1ai
      2 xn----8sbaaj6aa6ahpukjh.xn--p1ai
      2 xn--80adbcjhqihzdmwt.xn--p1acf
      2 xn----7sbafnpknch3cxa.xn--p1ai
      2 xn--80aafge7ajugkj1f.xn--p1ai
      2 xn--e1ahichcbqghf5a.xn--p1ai
      2 xn--90ahankqr9d.xn--80asehdb
      2 xn--80aaebcns1bneq3ad2ji.com
      2 vulkan-deluxe-stavochka.live
      2 xn--80aeshrfifdjb.xn--p1ai
      2 www4.xn--80aadq5aigoxp.com
      2 www2.xn--80aadq5aigoxp.com
      2 xn--d1accr3byb8a.xn--p1ai
      2 xn--b1adrbukt2h.xn--p1acf
      2 xn--80aeikpumrm.xn--p1acf
      2 www.sportingbullru990.com
      2 www2.xn--90ahbfg3a0bc.com
      2 xn--d1acacv1c4b.xn--p1ai
      2 xn--90aoaunr1a.xn--p1acf
      2 xn---888-93d8c.xn--p1acf
      2 xn--80aebjmudj.xn--p1acf
      2 xn--80abmaxbbm3bkp7m.xyz
      2 www.xn--c1acj.xn--80aswg
      2 mobile.winlinebet156.com
      2 individualki-rostova.com
      2 xn--80aqfnh0c.xn--p1acf
      2 xn--80abmaxbbm3bkp7m.tk
      2 vulcanplatinumslots.com
      2 xn--80atohfg.xn--p1acf
      2 www.winlinebet156.com
      2 sportingbullru325.com
      2 new.winlinebet156.com
      2 xn--c1acj.xn--80aswg
      2 www.spravka-help.org
      2 www.fonbet-d4acf.com
      2 ru.leonbets0731.com
      2 parimatchigra10.com
      2 xn--90ahbvlfyh.com
      2 xn--90aamspf5al.su
      2 www.baltplay28.com
      2 www.baltplay27.com
      2 betcity-eowk.space
      2 winlinebet156.com
      2 baltbet2018.today
      2 xn--c1avfbif.org
      2 xn--c1avfbif.net
      3 new-diplomas.com
      2 m.baltplay27.com
      2 fonbet-6ed69.com
      2 eldo-winners.com
      2 394joycasino.com
      2 zenitbet179.win
      2 zenitbet173.win
      2 xn--90aiwdxh.su
      2 vulcan-c1ub.com
      2 ru.leonlogt.com
      2 kupi-diplom.net
      2 casino-x361.com
      2 casino-x357.com
      2 bbsports2018.co
      2 bbsport2018.xyz
      2 777-10.xn--p1ai
      2 123joycasino.ru
      2 vulkan-bet.xyz
      2 melbmobnky.top
      2 bk-info184.top
      2 1xredirmpg.top
      2 melbetpfg.top
      2 melbetgbi.top
      2 melbetblm.top
      2 bkinfo177.xyz
      2 kinokrad.top
      2 1xredhmg.top
      2 1xmobgoj.top
      2 www.777.com
      2 vlc-clb.xyz
      2 telego9.net
      2 pm-110.info
      2 pm-092.info
      2 mostzlx.com
      2 mostmpt.com
      2 mostclm.com
      2 infohide.ru
      2 vlkn24.fun
      2 gofaka.com
      2 psngg.com
      2 1xpzc.top
      2 1xngc.top
      2 1xnbe.top
- список доменов с маской (list-mask.txt)
      2 *.fine.adv.bkfind.space
      2 *.www67.betcity.ru.com
      2 *.www28.betcity.ru.com
      2 *.www2.betcity.ru.com
      2 *.www1.betcity.ru.com
      2 *.vulkanplatinum1.net
      2 *.mirrorolimp3.online
      2 *.accessbetcity.space
      2 *.olimpmirror.online
      2 *.mirrorolimp.online
      2 *.access-betcity.top
      2 *.olimpbook.website
      2 *.fonbetzerkalo.com
      2 *.entermarathon.com
      2 *.olimpmirror.site
      2 *.olimpmirror.life
      2 *.mirrorolimp.site
      2 *.mirrorolimp1.xyz
      2 *.link1.betsbc.top
      2 *.bbplay2017.space
      2 *.accbetcity.space
      2 *.web1.betsbc.top
      2 *.olimpbook.click
      2 *.mirrorolimp.xyz
      2 *.wap1.betsbc.pw
      2 *.olimpbook.site
      2 *.mbetbkgoto.win
      2 *.leonbet182.xyz
      2 *.bookolimp.club
      2 *.bkolimp.online
      2 *.betcityrus.com
      2 *.betcity.ru.com
      3 *.betcity-bk.com
      2 *.bcaccess.space
      2 *.olimpbook.lol
      2 *.olimpbook.bid
      2 *.olimp24x7.win
      2 *.olimp24x7.top
      2 *.olimp24x7.bid
      2 *.bookolimp.xyz
      2 *.bkbetcity.com
      2 *.betcityru.com
      2 *.betcitybk.com
      3 *.betsbc24.com
      2 *.tennisi.com
      2 *.bkolimp.xyz
      2 *.tennisi.kz
      2 *.bkr08.club
      2 *.betsbc.com
      2 *.betcity.rs
      2 *.betcity.mk
      2 *.1xbet.com
- список IP-адресов (list-ip.txt)
      2 13.33.99.76
      2 13.57.204.87
      2 13.59.98.203
      2 13.66.49.241
      2 13.70.84.127
      2 13.71.19.50
      2 13.71.26.94
      2 13.71.29.144
      2 13.77.74.125
      2 13.78.83.27
      2 13.78.88.79
      2 13.78.89.4
      2 13.78.117.192
      2 13.88.11.234
      2 13.90.227.132
      2 13.91.124.14
      2 13.92.141.137
      2 13.114.104.207
      2 13.114.140.43
      2 13.125.217.123
      2 13.126.155.164
      2 13.127.4.148
      2 13.127.63.145
      2 13.127.116.184
      2 13.127.121.193
      2 13.127.237.64
      2 13.127.242.92
      2 13.209.40.39
      2 13.209.40.71
      2 13.209.40.72
      2 13.209.40.135
      2 13.209.40.209
      2 13.209.40.254
      2 13.229.103.150
      2 13.229.125.22
      2 13.229.197.87
      2 13.230.197.97
      2 13.231.129.93
      2 13.232.26.125
      2 13.250.41.93
      2 13.250.64.165
      2 18.130.11.213
      2 18.130.28.82
      2 18.188.90.24
      2 18.194.31.106
      2 18.195.181.76
      2 18.197.196.87
      2 18.217.80.107
      2 18.217.84.81
      2 18.217.224.96
      2 18.220.140.211
      2 18.220.174.225
      2 18.236.118.53
      2 23.96.253.241
      2 23.251.129.198
      2 34.203.212.15
      2 34.224.215.69
      2 34.241.92.42
      2 34.242.224.162
      2 34.243.253.53
      2 34.244.232.20
      2 34.245.173.140
      2 34.245.189.197
      2 34.253.195.32
      2 34.253.240.159
      2 35.157.1.178
      2 35.177.3.90
      2 35.177.17.109
      2 35.177.151.39
      2 35.177.162.97
      3 35.178.112.46
      2 35.178.162.31
      2 35.180.12.21
      2 35.180.24.178
      2 35.180.44.0
      2 35.180.48.158
      2 35.180.58.93
      2 35.180.71.18
      2 35.182.135.45
      2 35.182.135.198
      2 35.182.145.56
      2 35.182.250.235
      2 35.183.25.148
      2 35.187.122.207
      2 35.187.146.51
      2 35.187.150.48
      2 35.189.200.245
      2 35.189.212.101
      2 35.190.207.143
      2 35.195.63.68
      2 35.195.118.121
      2 35.195.119.187
      2 35.195.165.114
      2 35.195.166.40
      2 35.195.187.59
      2 35.229.129.14
      2 35.229.131.136
      2 35.229.135.217
      2 37.48.84.9
      2 37.48.115.239
      2 37.48.122.219
      2 37.123.118.99
      2 45.43.186.51
      2 46.19.33.56
      2 46.148.18.254
      2 47.74.7.235
      2 47.74.11.24
      2 47.74.12.227
      2 47.74.14.59
      2 47.91.28.85
      2 47.91.77.48
      2 47.91.104.19
      2 47.91.106.119
      2 47.91.109.211
      2 47.254.24.214
      2 47.254.68.241
      2 47.254.133.34
      2 47.254.133.195
      2 47.254.135.234
      2 47.254.144.167
      2 47.254.145.156
      2 47.254.146.149
      2 47.254.147.64
      2 47.254.147.114
      2 47.254.148.79
      2 47.254.148.147
      2 47.254.148.205
      2 47.254.148.208
      2 47.254.148.213
      3 47.254.148.234
      2 47.254.148.250
      2 47.254.149.0
      2 47.254.149.30
      2 47.254.149.66
      2 47.254.149.81
      2 47.254.149.82
      2 47.254.149.84
      2 47.254.149.88
      2 47.254.149.90
      2 47.254.149.116
      2 47.254.149.131
      2 47.254.149.132
      2 47.254.149.135
      2 47.254.150.50
      2 47.254.150.69
      2 47.254.150.153
      2 47.254.151.69
      2 47.254.151.124
      2 47.254.151.141
      2 50.23.132.51
      2 50.97.201.114
      2 51.15.19.140
      2 51.15.102.168
      2 51.15.126.74
      2 51.15.240.248
      2 51.141.81.181
      2 51.141.86.5
      2 51.143.138.174
      3 51.143.152.116
      2 51.144.99.174
      2 51.145.29.96
      2 52.11.198.90
      2 52.23.214.93
      2 52.23.231.17
      2 52.29.71.148
      2 52.30.35.45
      2 52.47.102.201
      2 52.47.143.121
      2 52.47.190.252
      2 52.47.194.126
      2 52.47.200.143
      2 52.47.206.135
      2 52.49.115.40
      2 52.53.167.185
      2 52.53.233.17
      2 52.53.235.241
      2 52.56.91.33
      2 52.56.142.63
      2 52.57.197.244
      2 52.58.23.76
      2 52.59.77.74
      2 52.77.221.152
      2 52.138.205.71
      2 52.161.145.164
      2 52.161.147.244
      2 52.161.162.64
      2 52.163.121.209
      2 52.165.229.97
      2 52.169.221.178
      2 52.170.192.212
      2 52.171.34.117
      2 52.175.12.164
      2 52.175.13.96
      2 52.175.27.7
      2 52.175.37.204
      2 52.176.97.12
      2 52.176.103.97
      2 52.178.160.109
      2 52.185.152.21
      2 52.191.133.163
      2 52.204.174.82
      2 52.213.9.239
      2 52.221.241.122
      2 52.230.124.60
      2 52.231.10.107
      2 52.231.11.52
      2 52.231.184.14
      2 52.231.184.61
      2 52.231.184.240
      2 52.231.190.3
      2 52.232.124.213
      2 52.233.56.128
      2 52.235.22.220
      2 52.237.29.110
      2 52.237.220.209
      2 52.237.222.222
      2 52.237.238.204
      2 52.240.138.90
      2 54.36.172.64
      2 54.37.81.43
      2 54.38.177.138
      2 54.38.177.139
      2 54.64.133.96
      2 54.72.187.182
      2 54.88.140.236
      2 54.95.202.123
      2 54.144.174.198
      2 54.145.169.221
      2 54.153.39.172
      2 54.165.90.185
      2 54.174.213.153
      2 54.183.136.184
      2 54.191.24.121
      2 54.193.10.192
      2 54.213.27.44
      2 54.215.129.77
      2 54.229.99.107
      2 54.229.180.94
      2 54.238.155.85
      2 54.245.176.143
      2 54.255.235.79
      2 64.137.62.61
      2 78.142.19.42
      2 84.16.227.27
      2 85.17.15.87
      5 85.17.248.14
      2 88.99.136.231
      2 91.109.22.134
      2 94.177.226.59
      2 94.237.48.117
      2 98.158.183.133
      2 98.158.183.140
      2 104.16.7.15
      2 104.16.55.17
      2 104.16.75.40
      2 104.16.81.41
      2 104.16.82.41
      2 104.16.99.59
      2 104.16.113.52
      2 104.16.114.52
      2 104.16.123.51
      2 104.16.173.117
      2 104.16.175.117
      2 104.16.176.117
      2 104.16.177.117
      2 104.17.121.11
      2 104.17.122.11
      2 104.27.140.181
      2 104.27.141.181
      2 104.211.178.195
      2 104.211.179.172
      2 104.211.179.208
      2 104.211.186.108
      2 104.215.21.144
      2 104.215.21.189
      2 104.215.22.182
      2 104.238.165.153
      2 109.234.157.5
      2 136.243.94.81
      2 137.74.207.229
      2 139.59.206.1
      2 139.162.159.148
      2 139.162.170.184
      2 139.162.177.232
      2 139.162.249.228
      2 144.76.98.105
      2 144.76.154.110
      2 144.76.159.196
      2 144.76.160.226
      2 144.76.182.230
      2 148.251.6.214
      2 148.251.45.25
      2 148.251.46.103
      2 148.251.54.174
      2 148.251.67.92
      2 149.154.163.14
      2 149.154.163.21
      2 149.154.163.49
      2 149.154.163.51
      2 149.154.163.64
      2 149.154.163.92
      2 158.175.123.42
      2 158.175.123.45
      2 158.176.82.116
      2 158.177.114.204
      2 159.8.141.246
      2 159.122.166.114
      2 164.138.29.194
      2 168.1.85.149
      2 169.54.166.215
      2 169.60.163.131
      2 172.104.132.181
      2 173.0.146.187
      2 173.0.153.131
      2 173.0.153.154
      2 174.138.98.212
      2 176.34.41.63
      2 176.67.169.166
      2 176.67.170.216
      2 176.67.170.224
      2 178.16.17.45
      2 178.79.137.203
      2 178.79.141.73
      2 178.79.161.219
      2 185.82.210.19
      2 185.82.210.37
      2 185.211.245.136
      2 185.229.227.210
      2 188.42.189.146
      2 188.42.189.149
      2 188.42.189.228
      2 188.42.196.13
      2 188.72.207.5
      2 188.164.255.154
      2 188.186.156.2
      2 191.232.38.146
      2 191.232.179.116
      2 191.235.84.232
      2 195.154.31.196
      2 207.244.95.212
      2 212.71.245.161
      2 213.183.49.190
      2 216.119.146.47
      2 216.119.148.134
      2 216.173.108.158
      2 217.182.113.225
- список IP-подсетей (list-net.txt)

 

Фактически, сейчас только в списке подсетей не дублей. Пока нет. Правда есть перекрытия масок.

Для остальных типов записей дублей много.

Share this post


Link to post
Share on other sites

4 hours ago, alibek said:

Кстати, скрипт нормализует записи и убирает дубли.

А каким скриптом Вы получили такую статистику ?

 

Перерыл в Вашем erdi.tar,gz все срипты, не нашёл даже наличия в них фразы "Поиск дублей в реестре ".

 

Насчёт наложения масок подсетей - столкнулся с этим, когда пихал эти подсети в ipset.

Пришлось развертывать эти подсети в единый список ip-ов, юниковать/сортировать и заново агрегировать и после пихать получившийся новый список в ipset Конечно с blackhole маршрутами такое извращение не нужно....

Share this post


Link to post
Share on other sites

9 минут назад, OK-2004 сказал:

А каким скриптом Вы получили такую статистику ?

Это чуть измененный dump_stat (его первая часть), я его редакцию для дублей отдельно не выкладывал, фактически это те же строчки, которые формируют списки адресов разных типов.

Только в сортировке я убираю ключ -u и добавляю в конвейер uniq -c -d.

То есть вместо

echo "- список доменов (list-domain.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='domain']" \
 -v "domain" -n "$DUMP" \
 | idn --quiet | sed 's/\(.*\)/\L\1/' \
 | sed 's/\.$//' \
 | sort -u | awk '{ print length, $0 }' | sort -nr | cut -d" " -f2- \
 > list-domain.txt

использовать

echo "- список доменов (list-domain.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='domain']" \
 -v "domain" -n "$DUMP" \
 | idn --quiet | sed 's/\(.*\)/\L\1/' \
 | sed 's/\.$//' \
 | sort | awk '{ print length, $0 }' | sort -nr | cut -d" " -f2- \
 | uniq -c -d

Ну или под спойлером сам скрипт.

Скрытый текст

#!/bin/bash

### Работа с дампом - статистика

source ./lib-config.inc
source ./lib-websvc.inc

DUMP="${ERDI_DUMP}/dump_last.xml"
N=5
TS=$("${ERDI_XML}" select --template -v "/reg:register/@updateTime" $DUMP)

echo "Поиск дублей в реестре"

echo "- список адресов (list-url.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[not(@blockType) and url]" \
 -v "url" -n "$DUMP" \
 | sort | awk '{ print length, $0 }' | sort -nr | cut -d" " -f2- \
 | uniq -c -d

echo "- список доменов (list-domain.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='domain']" \
 -v "domain" -n "$DUMP" \
 | idn --quiet | sed 's/\(.*\)/\L\1/' \
 | sed 's/\.$//' \
 | sort | awk '{ print length, $0 }' | sort -nr | cut -d" " -f2- \
 | uniq -c -d

echo "- список доменов с маской (list-mask.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='domain-mask']" \
 -v "domain" -n "$DUMP" \
 | idn --quiet | sed 's/\(.*\)/\L\1/' \
 | sed 's/\.$//' \
 | sort | awk '{ print length, $0 }' | sort -nr | cut -d" " -f2- \
 | uniq -c -d

echo "- список IP-адресов (list-ip.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='ip' and ip]" \
 -v "ip" -n "$DUMP" \
 | sort -V \
 | uniq -c -d

echo "- список IP-подсетей (list-net.txt)"
"${ERDI_XML}" select -T -t -m "/reg:register/content[@blockType='ip' and ipSubnet]" \
 -v "ipSubnet" -n "$DUMP" \
 | sort -V \
 | uniq -c -d

 

 

 

14 минут назад, OK-2004 сказал:

Пришлось развертывать эти подсети в единый список ip-ов, юниковать/сортировать и заново агрегировать

В системных пакетах есть готовая утилита aggregate, можно использовать ее.

Share this post


Link to post
Share on other sites

я знаю и не люблю эту утилиту, именно поэтому переписал её на баше в своё время.

За dump_stat.sh - отдельное спасибо,

 

Зы : заметил что Вы пользуетесь idn,  хорошая утилита, но не поддерживает стандарт IDNA2008 ( тока IDNA2003 ) если Ваш дистрибутив имеет пакет idn2 - лучше пользуйесь им

Edited by OK-2004

Share this post


Link to post
Share on other sites

Добрый день,

помогите решить проблему или подскажите кто может помочь.

нужны файлы дампов XML запрещенных сайтов за май 2018 года,

а то храню месяц а понадобились двух месячной давности.

 

помогите пожалуйста

Share this post


Link to post
Share on other sites

5 часов назад, khraponov сказал:

Добрый день,

помогите решить проблему или подскажите кто может помочь.

нужны файлы дампов XML запрещенных сайтов за май 2018 года,

а то храню месяц а понадобились двух месячной давности.

 

помогите пожалуйста

Куда скинуть?

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.