关于Python爬虫自己学习进步2(通用爬虫,聚焦爬虫)
2018-02-08 20:34
381 查看
根据使用环境不同,目的不同,分为通用爬虫和聚焦爬虫。
一、通用爬虫:搜索引擎用的爬虫系统。
目标:尽可能把互联网上所有的网页下载下来,放到本地服务器里形成备份,再对这些网页做相关处理(提取关键字、去掉广告等),最后提供一个用户检索的接口(如百度快照则是在一个时间点上爬取到的界面)。
抓取流程:
a)首先选取一部分已有的URL,把这些URL放到待爬取队列。b)从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载html页面,保存到搜索引擎的本地服务器里,之后把这个爬过的URL放入已爬取队列。c)分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。
搜索引擎如何获取一个新网站的URL:a)主动向
4000
搜索引擎提交(百度站长平台);b)在其他网站里设置网站的外链;c)搜索引擎会和DNS服务商进行合作,可以快速收录新的网站。
通用爬虫并不是万物皆可爬,它也需要遵守规则:Robots协议:协议会指明通用爬虫可以爬取网页的权限。Robots.txt并不是所有爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守。所以个人..........
通用爬虫工作流程:爬取网页 存储数据 内容处理 提供检索/排名服务
搜索引擎排名:1)PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,排名越靠前,网站越值钱。2)竞价排名:谁给钱多,谁排名就高。
通用爬虫的缺点:1)只能提供和文本相关的内容(html、word、PDF)等等,但是不能提供多媒体(音乐、图片、视频)和二进制文件(程序,脚本)等等。2)提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。3)不能理解人类语义上的检索(只能针对关键字查询)。
为了解决这个问题,聚焦爬虫出现了:
二、聚焦爬虫:爬虫程序员写的针对某种内容爬虫。
面向主题爬虫,面向需求爬虫,会针对某种特定的内容去爬取信息,而且会保证信息和需求尽可能相关。
一、通用爬虫:搜索引擎用的爬虫系统。
目标:尽可能把互联网上所有的网页下载下来,放到本地服务器里形成备份,再对这些网页做相关处理(提取关键字、去掉广告等),最后提供一个用户检索的接口(如百度快照则是在一个时间点上爬取到的界面)。
抓取流程:
a)首先选取一部分已有的URL,把这些URL放到待爬取队列。b)从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载html页面,保存到搜索引擎的本地服务器里,之后把这个爬过的URL放入已爬取队列。c)分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。
搜索引擎如何获取一个新网站的URL:a)主动向
4000
搜索引擎提交(百度站长平台);b)在其他网站里设置网站的外链;c)搜索引擎会和DNS服务商进行合作,可以快速收录新的网站。
通用爬虫并不是万物皆可爬,它也需要遵守规则:Robots协议:协议会指明通用爬虫可以爬取网页的权限。Robots.txt并不是所有爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守。所以个人..........
通用爬虫工作流程:爬取网页 存储数据 内容处理 提供检索/排名服务
搜索引擎排名:1)PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,排名越靠前,网站越值钱。2)竞价排名:谁给钱多,谁排名就高。
通用爬虫的缺点:1)只能提供和文本相关的内容(html、word、PDF)等等,但是不能提供多媒体(音乐、图片、视频)和二进制文件(程序,脚本)等等。2)提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。3)不能理解人类语义上的检索(只能针对关键字查询)。
为了解决这个问题,聚焦爬虫出现了:
二、聚焦爬虫:爬虫程序员写的针对某种内容爬虫。
面向主题爬虫,面向需求爬虫,会针对某种特定的内容去爬取信息,而且会保证信息和需求尽可能相关。
相关文章推荐
- 关于Python爬虫自己学习进步1
- 关于Python爬虫自己学习进步中的小插曲。。。编码问题
- 关于Python爬虫学习进步(xpath处理的小插曲--xpath如同“失灵”)
- 学习python 中的scrapy爬虫框架艰辛路,不推荐看,主要纪录自己学习笔记的
- python爬虫学习(1)--关于正则表达式输入和提取中文
- python爬虫学习(8) —— 关于4399的一个小Demo
- Python学习记录----一篇关于python编程中try catch的用法,个人觉得java也是通用的
- 关于学习新技术的方法和让自己不断进步的一点建议
- Python 爬虫学习 糗事百科 纯属敦促自己学习
- 记录自己python爬虫的学习
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取自己想要网页内容
- 关于Python学习1--爬虫基础
- Python的学习笔记DAY7---关于爬虫(2)之Scrapy初探
- 关于Python爬虫,这里有一条高效的学习路径
- 【Python3.6爬虫学习记录】(一)爬取简单的静态网页图片
- python爬虫学习第十四天
- Python爬虫入门学习--(向网页提交数据)
- python爬虫 scrapy框架学习
- python学习第十一章测试代码部分课后练习自己尝试的代码
- python爬虫学习之路(2)_ 淘宝淘女郎相册打包下载