基于Python的网络爬虫入门
2016-04-21 12:57
435 查看
1.网页抓取入门
(1)简单的抓取:直接从url抓网页数据
(2)传递数据:post或者get方式
post:
get:
(3)设置header
2.cookie的使用
(1)保存cookie到变量:
(2)保存cookie到文件:
(3)从文件中获取cookie并访问:
(4)利用cookie模拟网站登录:
3.初级的爬虫利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy;
4.网页解析工具:xpath;
(1)简单的抓取:直接从url抓网页数据
(2)传递数据:post或者get方式
post:
get:
(3)设置header
2.cookie的使用
(1)保存cookie到变量:
(2)保存cookie到文件:
(3)从文件中获取cookie并访问:
(4)利用cookie模拟网站登录:
3.初级的爬虫利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy;
4.网页解析工具:xpath;
相关文章推荐
- HTTP协议
- IOS学习之——NSURLConnection请求网络资源
- TCP连接状态详解
- 计算机网络(网络层)
- Android网络编程(六)OkHttp3用法全解析
- TCP连接的“三次握手”与“四次挥手”
- Java使用HttpURLConnection请求异常:java.net.SocketException: Software caused connection abort: recv failed
- OSI 七层协议参考模型 与 TCP/IP协议 实现网络模型
- 网络延时 201503-4
- 网络爬虫介绍
- 计算机网络面试题
- 前端进阶-让你升级的网络知识
- HTTP中Get与Post的区别
- HTTP 错误 500.19- Internal Server Error 错误解决方法
- php HttpOnly
- php tcpdf error
- 视频流网络透传分析
- OSI模型和TCP/IP网络模型
- 检查http流量
- HTTP详解(3)-http1.0 和http1.1 区别