您的位置：首页 > 理论基础 > 计算机网络

python网络小爬虫的编写

2017-10-09 20:16 393 查看

经过几天的自学python后，对python也算有了一定的了解，

然后对着网上的学习教程跟着编写了一个能爬百度百科的爬虫程序，从听不太懂到听懂写出来也花费了时间和努力，这里把我写的代码贴出来，希望能对大家有所帮助

笔者是用python3的环境写的，与教程里面的python2环境的代码有点区别，

已经亲自测试可行

首先用python3的IDLE新建所需要的文件，分别是main()函数调度端，url管理器，网页下载器，网页分析器，数据输出器这几个模块文件：

下面贴出代码：

spider_main模块：

import url_manager

import html_downloader

import html_parser

import html_outputer

class SpiderMain(object):

def __init__(self):

self.urls = url_manager.UrlManager()

self.downloader = html_downloader.HtmlDownloader()

self.parser = html_parser.HtmlParser()

self.outputer = html_outputer.HtmlOutputer()

def craw(self,root_url):

count = 0

self.urls.add_new_url(root_url)

while self.urls.has_new_url():

try:

if count == 5:

break

count = count + 1

new_url = self.urls.get_new_url()

print("craw %d:%s" %(count,new_url))

html_cont = self.downloader.download(new_url)

new_urls,new_data = self.parser.parse(new_url,html_cont)

#print(new_data)

self.urls.add_new_urls(new_urls)

self.outputer.collect_data(new_data)

#print (count)

except:

print("craw failed")

self.outputer.output_html()

if __name__=="__main__":

root_url = "https://baike.baidu.com/item/Python/407313?fr=aladdin"

obj_spider = SpiderMain()

obj_spider.craw(root_url)

由于模块太长，剩下的模块程序上传到我的资源里面

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python网络爬虫

相关文章推荐

新的分享

章节导航