您的位置:首页 > 编程语言 > Python开发

用 python 获取域名列表 再进行备案查询

2013-08-21 14:24 721 查看
需要在众多的二手域名中查询他的备案信息,

需要安装beautifulSoup,进行提取,原来是想将内容都获取出来,但是由于批量查询的网站不支持抓取,也没有继续研究,就直接用webbrowser了
http://blog.csdn.net/csapr1987/article/details/9329461
这个是域名列表的源 http://www.wy888.com/news.asp
获取了域名之后,进行拼凑url
url ='http://beian.links.cn/beian.asp?domains=mp1973.com'+l


每次打开5个页面,否则机器受不了,就是每次进行网页查询50个域名

在http://beian.links.cn下进行查询,需要对这个网站说Thx,

#-*- coding: utf-8 -*-
# by sunlei
import datetime
import urllib2
import httplib
import re
import bs4
import webbrowser
from bs4 import BeautifulSoup
class findurl:
def __init__(self,url):
self.url=url
def read(self):
req=self.url
try:
webpage= urllib2.urlopen(req)
data=webpage.read()
except:
print 'wrong'
return 'error'
self.data = data
def findcom(self):
self.listcom=[]
soup = BeautifulSoup(self.data)
lista=soup.findAll(text=re.compile("com")) #根据需要自行修改
self.listcom=lista
def listcom(self):
self.read()
self.findcom()
return self.listcom
class readbeian:
def __init__(self,listcom):
self.listcom=listcom
def writeurl(self):
self.lista=[]
for i in range(0,len(self.listcom),9):
a=self.listcom[i:i+9]
b=''
for j in a:
b=b+'%0D%0A'+j
self.lista.append(b)
return self.lista

def readbeian(self):
for i in range(0,len(self.lista),5):
listl=self.lista[i:i+5]
for l in listl:
url ='http://beian.links.cn/beian.asp?domains=mp1973.com'+l
webbrowser.open(url, new=0,autoraise=1)
a=raw_input('继续打开5个网页 Y or N')
if a=='Y':
continue

a=findurl('http://www.wy888.com/news.asp')
b=readbeian(a.listcom())
print b.writeurl()
b.readbeian()
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: