python 针对selenium+phontomjs等模拟浏览器爬虫的反爬技术点
2017-12-25 17:30
761 查看
使用selenium+phontomjs爬取航空公司网站为例子
1访问元素丰富度
普通用户在打开网页时会有比较丰富的地址访问,而自动爬虫通常只有少数固定的页面访问,比如航司活动专版、舱位价格页面、航线动态等。
图为岂安科技风控产品监控界面
2访问轨迹连贯性
用户在进行页面访问时,通常是有一个合理的访问轨迹,如从首页跳转到机票搜索,但爬虫在自动获取数据时,往往是对页面地址进行逐个访问,没有连贯的轨迹。比如首次访问就是登录页面,正常应该从搜索或者广告页跳转而来。
3访问静态资源比例
爬虫获取数据时往往只关心具体的文字内容和数据,但不会查看图片以及加载页面上的 CSS 或者 JS 信息,这就为风控平台提供了一个较为显著的判断因素,这一点不用多加解释。
4Click 间隔时间
爬虫在获取页面信息时,会出现连续两个 Click 间隔时间过短,不匹配合理的人肉点击间隔时间,这就是典型的区别人机判断机制。
至于在基础反爬这块,我们最少做到userAgent,ip,cookie等信息的随机切换和更新!
1访问元素丰富度
普通用户在打开网页时会有比较丰富的地址访问,而自动爬虫通常只有少数固定的页面访问,比如航司活动专版、舱位价格页面、航线动态等。
图为岂安科技风控产品监控界面
2访问轨迹连贯性
用户在进行页面访问时,通常是有一个合理的访问轨迹,如从首页跳转到机票搜索,但爬虫在自动获取数据时,往往是对页面地址进行逐个访问,没有连贯的轨迹。比如首次访问就是登录页面,正常应该从搜索或者广告页跳转而来。
3访问静态资源比例
爬虫获取数据时往往只关心具体的文字内容和数据,但不会查看图片以及加载页面上的 CSS 或者 JS 信息,这就为风控平台提供了一个较为显著的判断因素,这一点不用多加解释。
4Click 间隔时间
爬虫在获取页面信息时,会出现连续两个 Click 间隔时间过短,不匹配合理的人肉点击间隔时间,这就是典型的区别人机判断机制。
至于在基础反爬这块,我们最少做到userAgent,ip,cookie等信息的随机切换和更新!
相关文章推荐
- Python爬虫之selenium爬虫,模拟浏览器爬取天猫信息
- Python爬虫实战03:用Selenium模拟浏览器爬取淘宝美食
- 浅谈python爬虫使用Selenium模拟浏览器行为
- python爬虫 使用selenium+phontomjs 模拟点击输入 获取东航加载后的源码 机票价格
- python爬虫:使用Selenium模拟浏览器行为
- Python2.7 淘宝爬虫selenium 模拟浏览器
- Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例
- 02Python爬虫---浏览器的模拟Headers属性
- python爬虫(上)--请求——关于模拟浏览器方法
- python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)
- [Python爬虫]使用Selenium操作浏览器订购火车票
- python+chrome+Selenium模拟手机浏览器
- python+selenium模拟浏览器登录shibboleth登录的模拟
- 【Python】 Selenium 模拟浏览器 寻路
- 用htmlunit模拟浏览器辅助python做页面爬虫
- 4.python爬虫浏览器伪装技术
- 【网络爬虫】【python】网络爬虫(三):模拟登录——伪装浏览器登录爬取过程
- python selenium 模拟手机浏览器
- 使用python利器selenium工具模拟浏览器运行并爬取淘宝商品信息
- 02精通Python网络爬虫——模拟浏览器&超时设置