您的位置：首页 > 理论基础 > 计算机网络

基于Python的网络爬虫入门

2016-04-21 12:57 435 查看

1.网页抓取入门

（1）简单的抓取：直接从url抓网页数据

（2）传递数据：post或者get方式

post：

get：

（3）设置header

2.cookie的使用

（1）保存cookie到变量：

（2）保存cookie到文件：

（3）从文件中获取cookie并访问：

（4）利用cookie模拟网站登录：

3.初级的爬虫利用urllib和urllib2库以及正则表达式就可以完成了，不过还有更加强大的工具，爬虫框架Scrapy；
4.网页解析工具：xpath；

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部