您的位置:首页 > 理论基础 > 计算机网络

基于Python的网络爬虫入门

2016-04-21 12:57 435 查看
1.网页抓取入门

(1)简单的抓取:直接从url抓网页数据



(2)传递数据:post或者get方式

post:



get:



(3)设置header



2.cookie的使用

(1)保存cookie到变量:



(2)保存cookie到文件:



(3)从文件中获取cookie并访问:



(4)利用cookie模拟网站登录:



3.初级的爬虫利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy;
4.网页解析工具:xpath;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: