Вопрос с парсером актуален.У кого есть рабочий скрипт парсера на питоне с перекодировкой кириллических доменов?
Простейший пример выдает в результате список только по 80 записей ip, domain, url
from xml.dom import minidom
xmldoc = minidom.parse('dump.xml')
itemlist = xmldoc.getElementsByTagName('content')
fileDomains = open('domain', "w")
fileUrls = open('url', "w")
fileIps = open('ip', "w")
for c in itemlist :
fileDomains.write(c.getElementsByTagName('domain')[0].childNodes[0].data.encode('utf-8') + '\n')
fileUrls.write(c.getElementsByTagName('url')[0].childNodes[0].data.encode('utf-8') + '\n')
fileIps.write(c.getElementsByTagName('ip')[0].childNodes[0].data.encode('utf-8') + '\n')