您的位置:首页 > 编程语言 > Python开发

关于Python爬虫自己学习进步2(通用爬虫,聚焦爬虫)

2018-02-08 20:34 381 查看
根据使用环境不同,目的不同,分为通用爬虫和聚焦爬虫。
一、通用爬虫:搜索引擎用的爬虫系统。
目标:尽可能把互联网上所有的网页下载下来,放到本地服务器里形成备份,再对这些网页做相关处理(提取关键字、去掉广告等),最后提供一个用户检索的接口(如百度快照则是在一个时间点上爬取到的界面)。
抓取流程:
a)首先选取一部分已有的URL,把这些URL放到待爬取队列。b)从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载html页面,保存到搜索引擎的本地服务器里,之后把这个爬过的URL放入已爬取队列。c)分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。
搜索引擎如何获取一个新网站的URL:a)主动向
4000
搜索引擎提交(百度站长平台);b)在其他网站里设置网站的外链;c)搜索引擎会和DNS服务商进行合作,可以快速收录新的网站。
通用爬虫并不是万物皆可爬,它也需要遵守规则:Robots协议:协议会指明通用爬虫可以爬取网页的权限。Robots.txt并不是所有爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守。所以个人..........
通用爬虫工作流程:爬取网页 存储数据 内容处理 提供检索/排名服务
搜索引擎排名:1)PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,排名越靠前,网站越值钱。2)竞价排名:谁给钱多,谁排名就高。
通用爬虫的缺点:1)只能提供和文本相关的内容(html、word、PDF)等等,但是不能提供多媒体(音乐、图片、视频)和二进制文件(程序,脚本)等等。2)提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。3)不能理解人类语义上的检索(只能针对关键字查询)。
为了解决这个问题,聚焦爬虫出现了:
二、聚焦爬虫:爬虫程序员写的针对某种内容爬虫。
面向主题爬虫,面向需求爬虫,会针对某种特定的内容去爬取信息,而且会保证信息和需求尽可能相关。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  爬虫