您的位置：首页 > 理论基础 > 计算机网络

不用微博开放api直接进行爬去微博需要解决问题

2013-10-21 09:45 281 查看

实施爬虫步骤：

1.模拟登陆。从什么节点开始的问题

2.parse页面信息。

实施中可能遇到的问题：

1.可能做了全站防爬措施，比如分类浏览和搜索的结果只能爬到前N条数据，只能爬到子集，用浏览器查看同样如此，浏览器只不过是一个实现了http协议和web标准的客户端而已

2.遵循robot协议

3. 获取网页，这个可以用抓包工具看一下浏览器是怎么发包的，然后模拟浏览器发包就可以了。

注：

1.浏览器抓取原理与搜索引擎爬虫抓取的原理完全不同

2.不一定要硬磕电脑版网页，可以试试手机版网页。如微博，http://weibo.com 和
http://weibo.cn 登录就不一样，http://weibo.cn登录就简单多了，不像电脑版的各种加密。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 网络爬虫微博

相关文章推荐

新的分享

章节导航