补上那天没有写的技术细节(about nutch)
2007-05-19 16:11
316 查看
本来那天要写的,但是因为要准备考试,所以就没有写了,呵呵,今天补上
那天完成了nutch-0。7。2在federa 4上的按照和部署,并且成功的完成了5个大的网站(sohu,163,21cn,scut,gdsq)的抓取、索引、搜索等功能, 中途遇到一个问题,就是关于怎么设置搜索时间的问题,我抓取gdsq的时候总是抓取不成功,我估计就是它的服务器响应比较慢超过了预先设置的时间,所以就一直都获取不到网页,估计应该在配置文件里面修改,这个今天晚上去解决。还有一个问题,假设我已经搜索了几个站点,保存在文件A里面,现在又搜索了几个站点,保存在文件B里面,怎么把这些站点合并,以便提供同一的服务呢?这个也要再研究下。
作为我工作基础的搜索部分肯定就这样子是不行的了,还需要看懂代码,然后再添加很多东西。具体日后再说。
那天完成了nutch-0。7。2在federa 4上的按照和部署,并且成功的完成了5个大的网站(sohu,163,21cn,scut,gdsq)的抓取、索引、搜索等功能, 中途遇到一个问题,就是关于怎么设置搜索时间的问题,我抓取gdsq的时候总是抓取不成功,我估计就是它的服务器响应比较慢超过了预先设置的时间,所以就一直都获取不到网页,估计应该在配置文件里面修改,这个今天晚上去解决。还有一个问题,假设我已经搜索了几个站点,保存在文件A里面,现在又搜索了几个站点,保存在文件B里面,怎么把这些站点合并,以便提供同一的服务呢?这个也要再研究下。
作为我工作基础的搜索部分肯定就这样子是不行的了,还需要看懂代码,然后再添加很多东西。具体日后再说。
相关文章推荐
- FFMPEG理解一个偶然遇到了ffmpeg,看起来不多,而且通用性很强,算是一个扎实的技术。 研究了两天了,万事开头难啊。 主要是新手学习一个东西的时候,没有宏观的概念,如果猛地往某个细节去钻,往往碰
- JSP技术学习及其细节笔记
- InSAR-DInSAR 技术细节(一) 关于条纹
- 互动直播的技术细节和解决方案实践经验谈
- 防采集 - 最看不起采集,一点技术含量都没有!
- 其实很久以前就有写些技术博客的习惯了,不过都总是没有一个固定的保存地方……
- AVS、H264及MPEG-2技术细节比较
- 自己做的几个小软件(数学工具和游戏),用C/C#制作,用到许多相关的C#技术细节,可以免费提供下载,感兴趣的,来看一下
- ZigBee自组网技术为什么没有取得预期的成功
- S60 VOIP与codec一些技术细节
- 作业调度调度平台的几个技术细节
- 关于直播,所有的技术细节都在这里了
- 技术之路最公平也最残酷的原因是:没有捷径,需要日积月累的积累,以及对技术持久的热情
- 看我出招之:我用Nagios(技术细节)
- 好久没有写操作符重载了 自己重新写了个 温习了一下细节 温习友元 this const 引用
- 在网站发布前,开发者需要关注有许多的技术细节
- 网站开发技术——细节研讨
- Phrack最新公布的内核态RootKit的技术细节
- 多个servlet间跳转技术的细节
- 对一个初学者来说,IT界的技术风潮是不可以追赶的,而且也没有能力去追