爬虫遇到取到网页为reload的问题
2014-07-09 09:49
106 查看
有的网站防采集,会在页面加上this.window.location.reload(),这时候你就会得到如下代码:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<iframe height="0" width="0" style="border: 0px;" src="http://www.***.cn/***/***_cookie.html"></iframe>
<script type="text/javascript">
setTimeout(function(){
this.window.location.reload();
}, 1000);
</script></body>
</html>
这样你就取不到他的网页内容了,但是浏览器可以正常显示
这时候你需要在爬虫的时候添加cookie,比较直接的就是静态的添加上浏览器访问时的cookie,也可以根据他的地址动态取(我没有试过动态取)
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<iframe height="0" width="0" style="border: 0px;" src="http://www.***.cn/***/***_cookie.html"></iframe>
<script type="text/javascript">
setTimeout(function(){
this.window.location.reload();
}, 1000);
</script></body>
</html>
这样你就取不到他的网页内容了,但是浏览器可以正常显示
这时候你需要在爬虫的时候添加cookie,比较直接的就是静态的添加上浏览器访问时的cookie,也可以根据他的地址动态取(我没有试过动态取)
相关文章推荐
- python爬虫请求网页时遇到问题
- java网页爬虫遇到的问题及解决方法
- python 爬虫遇到的网页乱码问题
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- windows下的网络爬虫遇到的问题
- 瀑布流网页中遇到的问题和解决方法
- 网页抓取中遇到的编码问题
- 浅谈个人在瀑布流网页的实现中遇到的问题和解决方法
- 静态网页中内嵌外部网站遇到的问题
- 最近用htmlunit做网络爬虫 遇到拿不到初始化js加载的数据的问题 最近解决了 写个简单的例子
- 使用QtWebKit加载网页,编译时遇到的问题
- IE框架中访问不同域的网页遇到的问题
- 02-项目开发中遇到的问题之网页乱码
- 做爬虫时候遇到的中文字符编码问题(Python)
- 爬虫遇到的问题
- C++编写网页控件,遇到的问题总结
- 静态网页动态化遇到的问题
- [转]制作适合手机的网页遇到的问题
- 使用curl抓取网页遇到HTTP跳转时得到多个HTTP头部的问题
- 四十七、加载网页可能会遇到的问题