基础爬虫框架及运行(选自范传辉Python爬虫开发与项目实战)
2017-11-16 13:36
1411 查看
基础爬虫框架的五个模块有
一:URL管理器
主要是使用set的去重复功能,防止链接重复爬取,因为爬取链接重复时容易造成死循环。链接去重复在Python
爬虫开发中必备的功能,解决方案主要有3种:①内存去重②关系数据库去重③缓存数据库去重。大型成熟的爬虫
基本上采用缓存数据库的去重方案,尽可能避免内存大小的限制,又比关系型数据库去重性能高很多。由于基础
爬虫的爬取数量较小,因此我们采用Python中的set去重方式。
URL管理器除了具有两个URL集合,还需要提供以下接口,用于配合其他模块使用,接口如下:
●判断是否有代取的URL,方法定义为has_new_url()
●添加新的URL到未爬取集合中,方法定义为add_new_url(url),add_new_urls(urls)
●获取一个未爬取的URL,方法定义为get_new_url()
●获取未爬取URL集合的大小,方法定义为new_url_size()
●获取已经爬取的URL集合的大小,方法定义为old_url_size()
文件名为 :UrlManager
# coding:utf-8 class UrlManager(object): def __init__(self): self.new_urls = set() # 未爬取的URL集合 self.old_urls = set() # 已爬取的URL集合 def has_new_url(self): return self.new_url_size() != 0 def get_new_url(self): new_url = self.new_urls.pop() self.old_urls.add(new_url) return new_url def add_new_url(self, url): if url is None: return if url not in self.new_urls and url not in self.old_urls: self.new_urls.add(url) def add_new_urls(self, urls): if urls is None or len(urls) == 0: return for url in urls: self.add_new_url(url) def new_url_size(self): return len(self.new_urls) def old_url_size(self): return len(self.old_urls)
二:HTML下载器
HTML下载器用来下载网页,这时候需要注意网页的编码,保证下载的网页没有乱码,下载器需要用到Requests模块,里面只需要实现一个接口即可:download(url)。
文件名为:HtmlDownloader
# coding:utf-8 import requests class HtmlDownloader(object): def download(self, url): if url is None: return None user_agent = 'Mozilla/4.0(compatible;MSIE 5.5; Windows NT)' headers = {'User-agent': user_agent} r = requests.get(url, headers=headers) if r.status_code == 200: r.encoding = 'utf-8' return r.text return None
三:HTML解析器
HTML解析器使用BeautifulSoup4进行HTML解析。需要解析的补分主要分为提取相关词条页面的URL和提取当前词条的标题和摘要信息。
文件名为:Htmlparser
# coding:utf-8 import re import urllib.parse from bs4 import BeautifulSoup class Htmlparser(object): def parser(self, page_url, html_cont): if page_url is None or html_cont is None: return soup = BeautifulSoup(html_cont, 'html.parser') new_urls = self._get_new_urls(page_url, soup) new_data = self._get_new_data(page_url, soup) return new_urls, new_data def _get_new_urls(self, page_url, soup): new_urls = set() links = soup.find_all('a', href=re.compile(r'/view/\d+\.htm')) for link in links: new_url = link['href'] new_full_url = urllib.parse.urljoin(page_url, new_url) new_urls.add(new_full_url) return new_urls def _get_new_data(self, page_url, soup): data = {} data['url'] = page_url title = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find('h1') data['title'] = title.get_text() summary = soup.find('div', class_='lemma-summary') data['summary'] = summary.get_text() return data
四:数据存储器
数据存储器主要包括两个方法:store_data(data)用于将解析出来的数据存储到内存中,output_html()用于将存储的数据输出为指定的文件格式,我们使用的是将数据输出为HTML格式。
文件名为:DataOutput
# coding:utf-8
import codecs class DataOutput(object): def __init__(self): self.datas = [] def store_data(self, data): if data is None: return self.datas.append(data) def output_html(self): fout = codecs.open('baike.html', 'w', encoding='utf-8') fout.write("<html>") fout.write("<head><meta charset='utf-8'/></head>") fout.write("<body>") fout.write("<table>") for data in self.datas: fout.write("<tr>") fout.write("<td>%s</td>" % data['url']) fout.write("<td>%s</td>" % data['title']) fout.write("<td>%s</td>" % data['summary']) fout.write("</tr>") self.datas.remove(data) fout.write("</table>") fout.write("</body>") fout.write("</html>") fout.close()
五:爬虫调度器
爬虫调度器首先要做的是初始化各个模块,然后通过crawl(root_url)方法传入入口URL,方法内部实现按照运行流程控制各个模块的工作。
文件名:SpiderMan
# coding:utf-8 from 爬虫.DataOutput import DataOutput from 爬虫.HtmlDownloader import HtmlDownloader from 爬虫.HtmlParser import Htmlparser from 爬虫.URLManager import UrlManager class SpiderMan(object): def __init__(self): self.manager = UrlManager() self.downloader = HtmlDownloader() self.output = DataOutput() self.parser = Htmlparser() def crawl(self, root_url): self.manager.add_new_url(root_url) while (self.manager.has_new_url() and self.manager.old_url_size() < 100): try: new_url = self.manager.get_new_url() html = self.downloader.download(new_url) new_urls, data = self.parser.parser(new_url, html) self.manager.add_new_urls(new_urls) self.output.store_data(data) print("已经抓取%s个链接" % self.manager.old_url_size()) except Exception as e: print("crawl failed") self.output.output_html() if __name__ == "__main__": spider_man = SpiderMan() spider_man.crawl("http://baike.baidu.com/view/284853.htm")运行后打开效果图如下
相关文章推荐
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第3章 爬虫基础知识回顾
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第2章 windows下搭建开发环境
- Python爬虫开发与项目实战——基础爬虫分析
- Python爬虫开发与项目实战 2:Web前端基础
- 这是孔浩老师录制的java全套系列视频教程,从javase基础到javaweb,在到j2ee框架,最后到项目实战开发,非常适合想自学java开发的朋友。
- Python 开发简单爬虫 - 基础框架
- Python爬虫开发与项目实战 1:回顾Python编程
- Python爬虫开发与项目实战pdf
- Python实战开发之Pyramid Web框架在商城项目中的应用教程
- 项目视频讲解_Python实战开发之Pyramid Web框架在商城项目中的应用(模版引擎、布局引擎、JSON)
- 超具实战意义的Python项目课程:四周实现爬虫系统 超经典的Python零基础实战化教程
- Python大型网络爬虫项目开发实战
- Python 开发简单爬虫 - 基础框架
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第5章 scrapy爬取知名问答网站(1)
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第4章 scrapy爬取知名技术文章网站(2)
- Python爬虫开发与项目实战 3: 初识爬虫
- Python实战开发之Pyramid Web框架在商城项目中的应用教程
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第4章 scrapy爬取知名技术文章网站(1)
- Python 基础-项目实战-day 13 Android客户端开发(项目完结)
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第5章 scrapy爬取知名问答网站(2)