您的位置:首页 > 理论基础 > 计算机网络

20161229:for python网络数据采集03

2016-12-29 15:04 323 查看
1.python 的Requests库可以处理复杂的Http请求、cookie、header(响应头和请求头)

2.大多数主流网站都会在它们robots.txt文件里注明禁止爬虫接入登录表单,需要一组不同类型的表单和登录内容。



用request实现



用request跟踪cookie



3.到目前为止,JavaScript是网络上最常用也是支持者最多的客户端脚本语言。jQuery可以动态地创建HTML内容,只有在JavaScript代码执行之后才会显示。Google Analytics是网站最常用的JavaScript库和最受欢迎的用户跟踪工具。Python可以抽取google.maps/LalLng()里的所有坐标,生成一组经/纬度坐标值。通过Google的“地理坐标反向查询API”,可以把经纬度坐标解析成各式规范的地址,便于存储和分析。如果提交表单后,或从服务器获取信息后,网站的页面不需要重新刷新,那么访问的网站就在用Ajax技术。

4.在python中使用Selenium执行JavaScript。

PhantomJS是一个“无头”的浏览器,它会把网站加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。



5.处理重定向

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: