您的位置:首页 > 理论基础 > 计算机网络

python 爬虫系列(0) --- 初识网络爬虫

2017-09-02 00:00 681 查看

爬虫的几种尺寸

规模小规模,数据量小,爬取速度不明显中规模,数据规模大,爬取速度明显大规模,搜索引擎,爬取速度关键
作用爬取网页,玩转网页爬取网站、系列网站爬取全网
使用库Requests库Scrapy库定制开发

爬虫带来的问题

对服务器的骚扰问题

可能因为信息的产权造成法律问题

对个人用户隐私形成泄露

爬虫的的限制

来源审查:判断User-Agent
检查来访http协议头的User-Agent域,只响应浏览器或者友好爬虫的的访问。

发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守。

Robots协议

Robots Exclusion Standrad 网络爬虫抓排除标准
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
形式:在网站的根目录下放置robots.txt文件。

robots协议基本语法

User-Agent:*     #爬虫名称
Disallow:/       #网站根目录正则匹配

百度的robots.txt 部分截图样式



robots协议的使用
网络爬虫: 自动或者人工识别robots.txt,再进行内容爬取
约束性: Robots协议是建议而非约束性的,网络爬虫可以不遵守,但存在法律风险。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫