您的位置:首页 > 理论基础 > 计算机网络

不用微博开放api直接进行爬去微博需要解决问题

2013-10-21 09:45 281 查看
实施爬虫步骤:

1.模拟登陆。从什么节点开始的问题

2.parse页面信息。

实施中可能遇到的问题:

1.可能做了全站防爬措施,比如分类浏览和搜索的结果只能爬到前N条数据,只能爬到子集,用浏览器查看同样如此,浏览器只不过是一个实现了http协议和web标准的客户端而已

2.遵循robot协议

3. 获取网页,这个可以用抓包工具看一下浏览器是怎么发包的,然后模拟浏览器发包就可以了。

注:

1.浏览器抓取原理与搜索引擎爬虫抓取的原理完全不同

2.不一定要硬磕电脑版网页,可以试试手机版网页。如微博,http://weibo.com
http://weibo.cn 登录就不一样,http://weibo.cn登录就简单多了,不像电脑版的各种加密。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  网络爬虫 微博
相关文章推荐