不用微博开放api直接进行爬去微博需要解决问题
2013-10-21 09:45
281 查看
实施爬虫步骤:
1.模拟登陆。从什么节点开始的问题
2.parse页面信息。
实施中可能遇到的问题:
1.可能做了全站防爬措施,比如分类浏览和搜索的结果只能爬到前N条数据,只能爬到子集,用浏览器查看同样如此,浏览器只不过是一个实现了http协议和web标准的客户端而已
2.遵循robot协议
3. 获取网页,这个可以用抓包工具看一下浏览器是怎么发包的,然后模拟浏览器发包就可以了。
注:
1.浏览器抓取原理与搜索引擎爬虫抓取的原理完全不同
2.不一定要硬磕电脑版网页,可以试试手机版网页。如微博,http://weibo.com 和
http://weibo.cn 登录就不一样,http://weibo.cn登录就简单多了,不像电脑版的各种加密。
1.模拟登陆。从什么节点开始的问题
2.parse页面信息。
实施中可能遇到的问题:
1.可能做了全站防爬措施,比如分类浏览和搜索的结果只能爬到前N条数据,只能爬到子集,用浏览器查看同样如此,浏览器只不过是一个实现了http协议和web标准的客户端而已
2.遵循robot协议
3. 获取网页,这个可以用抓包工具看一下浏览器是怎么发包的,然后模拟浏览器发包就可以了。
注:
1.浏览器抓取原理与搜索引擎爬虫抓取的原理完全不同
2.不一定要硬磕电脑版网页,可以试试手机版网页。如微博,http://weibo.com 和
http://weibo.cn 登录就不一样,http://weibo.cn登录就简单多了,不像电脑版的各种加密。
相关文章推荐
- mysql常用命令+解决mysql不用用户名和密码可以直接登陆的问题
- mysql常用命令+解决mysql不用用户名和密码可以直接登陆的问题
- Android解决使用findViewById时需要对返回值进行类型转换问题的辅助类
- 解决直接打开.m的问题,只需要在matlab下复制此命令
- mysql常用命令+解决mysql不用用户名和密码可以直接登陆的问题
- 解决MySQL在高版本需要指明是否进行SSL连接问题
- 关于CSS的图像放大问题的解决,需要借助jQuery等直接用css3设置
- 【Easyui】解决未对form表单数据进行校验直接就可以提交的问题
- Android解决使用findViewById时需要对返回值进行类型转换问题的辅助类
- 如何解决MySQL在高版本需要指明是否进行SSL连接问题
- VS2010无法调试问题解决 最近,因为公司开发的需要,对开发环境进行全面的升级,在这其中也遇到了不少问题,在之后将陆续整理出来,以便以后查看。 之前开发环境:VS2008,ArcGIS9.3,Ar
- 解决mysql不用用户名和密码可以直接登陆的问题
- Android中的WebView进行直接加载网页(要注意解决权限问题)
- Android解决使用findViewById时需要对返回值进行类型转换问题的辅助类
- mysql常用命令+解决mysql不用用户名和密码可以直接登陆的问题
- Android解决使用findViewById时需要对返回值进行类型转换问题的辅助类
- 一插上u盘提示需要格式化,选择格式化时提示u盘被写保护无法进行格式化的问题解决方法
- 【已解决】Adobe CS3遇到问题需要关闭……
- iOS开发工具-如何使用网络封包分析工具Charles,通过配置proxy对http、https、tcp、udp 等协议的请求响应过程交互信息进行分析、判断、解决我们移动开发中的遇到的各种实际问题。
- Vmware 直接安装ghost系统遇到问题及解决办法