您的位置：首页 > 理论基础 > 计算机网络

20161229：for python网络数据采集03

2016-12-29 15:04 323 查看

1.python 的Requests库可以处理复杂的Http请求、cookie、header（响应头和请求头）

2.大多数主流网站都会在它们robots.txt文件里注明禁止爬虫接入登录表单，需要一组不同类型的表单和登录内容。

用request实现

用request跟踪cookie

3.到目前为止，JavaScript是网络上最常用也是支持者最多的客户端脚本语言。jQuery可以动态地创建HTML内容，只有在JavaScript代码执行之后才会显示。Google Analytics是网站最常用的JavaScript库和最受欢迎的用户跟踪工具。Python可以抽取google.maps/LalLng()里的所有坐标，生成一组经/纬度坐标值。通过Google的“地理坐标反向查询API”，可以把经纬度坐标解析成各式规范的地址，便于存储和分析。如果提交表单后，或从服务器获取信息后，网站的页面不需要重新刷新，那么访问的网站就在用Ajax技术。

4.在python中使用Selenium执行JavaScript。

PhantomJS是一个“无头”的浏览器，它会把网站加载到内存并执行页面上的JavaScript，但是它不会向用户展示网页的图形界面。

5.处理重定向

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航