您的位置:首页 > 编程语言 > Python开发

Python 开发简单爬虫 - 实战演练

2017-02-14 14:32 369 查看
爬取百度百科1000个页面的数据

1. 准备工作:

  确定目标 => 分析目标(URL格式, 数据格式, 网页编码) => 编写代码 => 执行爬虫

  1.1 链接分析:

    进入百度百科“Python”词条页面:http://baike.baidu.com/view/21087.htm => 在链接位置右键后,点击审查元素,

    href="/view/2561555.htm" 是一个不完整的url, 在代码中需要拼接成完整的 baike.baidu.com/view/2561555.htm 才能进行后续的访问。

    

# -*- coding: utf-8 -*-
"""
Created on Tue Feb 14 13:35:56 2017

@author: Wayne
"""

class HtmlOutputer(object):

def __init__(self):  # 建立列表存放数据
self.datas = []

def collect_data(self, data):  # 收集数据
if data is None:
return
self.datas.append(data)

def output_html(self):
fout = open('output.html', 'w')

fout.write("<html>")
fout.write("<head><meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\"></head>")
fout.write("<body>")
fout.write("<table>")

for data in self.datas:
fout.write("<tr>")
fout.write("<td>%s</td>" % data['url'])
fout.write("<td>%s</td>" % data['title'].encode('UTF-8'))
fout.write("<td>%s</td>" % data['summary'].encode('UTF-8'))
fout.write("</tr>")

fout.write("</table>")
fout.write("</body>")
fout.write("</html>")

fout.close()


View Code
3. 课程总结

  
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: