您的位置：首页 > 编程语言 > Python开发

学习python爬虫入门教程掌握爬虫技术提升工作效率

2019-04-17 11:59 603 查看

　　爬虫往往就是指网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。Python是爬虫技术应用最主流的编程语言,所以学习Python技术就能够掌握爬虫技术。

　　面对各种各样的培训机构，我们需要去实地进行考察，看看讲师怎么样，课程安排如何，学习氛围好不好之类的，一定要多问问这家Python培训机构之前的学员，看看就业薪资水平高不高。

最近开始整理python的资料，会陆续放到博客中存档。找了几个qq群，其中有一个QQ群302521268。后面就没怎么加群了，还是需要看官方文档为主

　　用过Python的都知道，Python写爬虫是件很简单的事情。但是有些人还是不了解爬虫是什么，会纳闷为什么写爬虫时要设置什么请求头、请求体之类的，要怎么样去发送请求等等。

　　大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么?这个由你来控制它咯。

　　比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

　　爬虫的基本流程

　　用户获取网络数据的方式：

　　方式1：浏览器提交请求--->下载网页代码--->解析成页面

　　方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

　　爬虫要做的就是方式2：

　　1.发起请求

　　使用http库向目标站点发起请求，即发送一个Request

　　Request包含：请求头、请求体等

　　Request模块缺陷：不能执行JS 和CSS 代码

　　2.获取响应内容

　　如果服务器能正常响应，则会得到一个Response

　　Response包含：html，json，图片，视频等

　　3.解析内容

　　解析html数据：正则表达式(RE模块)，第三方解析库如Beautifulsoup，pyquery等

　　解析json数据：json模块

　　解析二进制数据:以wb的方式写入文件

　　4.保存数据

　　数据库(MySQL，Mongdb、Redis)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航