改良TEAR实例抓取动态页面一则
2007-05-11 10:21
183 查看
ASP的动态网页中通常有一种写法:
1、服务端和浏览器连接后,建立一个session(此处指asp语法中的session对象),用来保存一些变量。
2、请求此类动态页面时,先行GET一个带参数的URL,形如: http://www.yoursite.com/xyz/session_id.asp?id=741 3、而后服务端再生成一个页面,该页面每次URL相同,但内容根据上一步带过来的参数值而不同。
url形如http://www.yousite.com/xyz/object.asp
解决方法:分别以两个url GET两次
新的问题:如果用循环快速连续get多个此类动态页面时,每次抓到的都是第一个动态页面。
解决方法:
在每次请求之前Sleep(500)
or
对于object.asp的请求,强行要求重新下载页面。
1、服务端和浏览器连接后,建立一个session(此处指asp语法中的session对象),用来保存一些变量。
2、请求此类动态页面时,先行GET一个带参数的URL,形如: http://www.yoursite.com/xyz/session_id.asp?id=741 3、而后服务端再生成一个页面,该页面每次URL相同,但内容根据上一步带过来的参数值而不同。
url形如http://www.yousite.com/xyz/object.asp
解决方法:分别以两个url GET两次
新的问题:如果用循环快速连续get多个此类动态页面时,每次抓到的都是第一个动态页面。
解决方法:
在每次请求之前Sleep(500)
or
对于object.asp的请求,强行要求重新下载页面。
相关文章推荐
- C# 实现抓取网站页面内容的实例方法
- 使用Selenium来抓取动态加载的页面
- VS2008 WINFROM 利用WeifenLuo +OUTLOOKBAR +IrisSkin2.dll实现换肤 标签页面 以及子动态加载子菜单的实实例
- 如何使用Selenium+PhantomJS抓取动态页面以及常见指令和问题
- asp生成静态页面(抓取动态页面 生成静态文件)
- 【PythonDjango后台实例 第五章】Bootstrap3 在HTML页面中显示调用本地时间并动态显示
- 爬虫技术:(JavaScript渲染)动态页面抓取超级指南
- python 抓取lofterart动态页面
- Python爬虫爬取动态页面思路+实例(二)
- selenium动态抓取页面元素
- java使用phantomJs抓取动态页面
- 如何抓取Js动态生成数据且以滚动页面方式分页的网页
- 浅谈在静态页面上使用动态参数,会造成spider多次和重复抓取的解决方案
- JS动态增加页面上的控件实例
- 如何抓取Js动态生成数据且以滚动页面方式分页的网页
- jQuery实现页面滚动图片等元素动态加载(按需加载的实例)
- 玩玩小爬虫——抓取动态页面
- 玩玩小爬虫——抓取动态页面
- JS抓取动态页面小程序
- JS动态增加页面上的控件实例