抓取数据需要注意什么
2014-01-08 18:22
274 查看
1.百度屏蔽你的ip地址,可以使用IP代理,模拟浏览器进行解决
3.抓取网站的黑名单,白名单
4.在百度里面搜索数据如果只有一页只解析一页便好,如果多页,需要解析不同页面的数据转化为dom
5.抓取数据需要设时间间隔进行抓取
6.需要建任务计划程序,进行部署exe文件
难点:
1.解析两个帖子的相似度,自动识别帖子是不是一个帖子
2.将抓取数据放到队列里面,利用先入先出,比较数据是否重复直接从队列里面取数据
3.抓取数据常用算法samhash
3.抓取网站的黑名单,白名单
4.在百度里面搜索数据如果只有一页只解析一页便好,如果多页,需要解析不同页面的数据转化为dom
5.抓取数据需要设时间间隔进行抓取
6.需要建任务计划程序,进行部署exe文件
难点:
1.解析两个帖子的相似度,自动识别帖子是不是一个帖子
2.将抓取数据放到队列里面,利用先入先出,比较数据是否重复直接从队列里面取数据
3.抓取数据常用算法samhash
相关文章推荐
- Oracle起步
- 《汇编语言》王爽版重点摘要-----第一章
- 条条大路同罗马 不要一上来就否定别人的想法,分享探讨才能进步
- C++中对Lib及Dll的链接调用
- zip4j -- Java处理zip压缩文件的完整解决方案
- maven配置本地jar包
- java中处理时间
- 经典电影台词系列【5】——斯巴达克斯
- linux ubutun12.04在win7上的安装出现“等待下载amd64.tar.xz”问题的解决方案
- 二十进制数的加法
- 最短路径之Dijkstra算法
- 01背包,初学者的理解
- uboot knowledge address
- [译] 第二十一天: Docker - 缺失的指南
- mysql分表,分区 的区别
- QT子窗口全屏显示与还原问题
- Ubuntu 12.04下安装Sun jdk 6的方法
- AngularJs integrate with Yii
- 游戏开发制作实用音效素材下载 - 分类:动物、环境、打斗、生活、魔法、自然、系统、交通、配音、战争
- 嵌入式学习笔记2014/01/08