您的位置：首页 > 编程语言 > Python开发

简单爬虫

2016-05-31 19:56 274 查看

import urllib.request

import re



########################################################

#

# fetch函数功能：抓取“陕西建筑招标网”的第一页“招标公告”页面，输出公告名字

#

# 参数baseUrl是要访问的网站地址

#

########################################################



def fetch(baseUrl):



# 第1步：模拟浏览器发送请求

page = urllib.request.urlopen(baseUrl)

data = page.read()

data = data.decode('utf-8')



# 第2步：页面返回后，利用正则表达式提取想要的内容

nameList=[]

nameList = re.compile(r'target="_blank" title="(.*?)"',re.DOTALL).findall(data)



# 第3步：返回在页面上析取的“标题名”

return nameList



####### 执行 ########

if __name__ =="__main__":

#要抓取的网页地址

url = "http://sh.uzai.com/lvyoucn/shandong-r-5113.html?utm_source=baidu&utm_medium=cpc&utm_term=%E5%B1%B1%E4%B8%9C%E6%97%85%E6%B8%B8%E7%BD%91&utm_content=%E5%B1%B1%E4%B8%9C-%E9%80%9A%E7%94%A8&utm_campaign=%E6%96%B0%E4%B8%8A%E6%B5%B7-%E5%9B%BD%E5%86%85-%E5%B1%B1%E4%B8%9C"



#存放到名字列表中

NameList = fetch(url)



# 输出 NameList

Length = len(NameList)

for i in range(0, Length):
print("标题名%d:%s\n"%(i+1, NameList[i]))

#将信息保存到doc 文档

f = open("E:/data.doc", "w+")

for i in range(0, len(NameList)):

f.write(NameList[i] + "\n")

f.close()

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 爬虫 Python

相关文章推荐

新的分享

章节导航