您的位置:首页 > 理论基础 > 计算机网络

搜索引擎开源项目技术准备 http://oss.lzu.edu.cn/blog/article.php?tid_246.html

2007-11-27 17:35 537 查看
说明

由于本人初步接触搜索引擎技术,好多东西都不熟悉,如果有叙述得不专业甚至错误的地方敬请批评指正。

前言

猎鹰搜索虽然基本成型,而且还比较稳定的运行至今。但是,现在回头想想,虽然是自己花费了好多心思的结晶,但是就技术而言。我不得不承认,基本上是没有多少技术含量的。
为什么这么说呢?
不知道你看过我的《FTP搜索引擎的设计与实现(优化版)》,里头虽然道出了搜索引擎的基本原理,但是并没有触及到搜索引擎的一些核心技术。虽然做到了简单的功能实现,但是在数据采集、查询效率、效果都没有任何深入的技术处理。
因此重新设计和启动是必然,当然与此同时进行技术准备也是很有必要的。

正文

先来介绍一下搜索引擎里头涉及的核心技术。
从服务器的数据采集到客户端的数据查询这样一个顺序介绍吧。

*数据采集方面:主要负责自动搜索网络中的信息,并进行过滤、分类、分词、索引处理。

涉及到核心技术有自动搜索、自动分类、分词(中文分词)、建索引等。

*数据查询方面:主要接受用户输入查询信息,并返回匹配结果。

涉及到核心技术有分词、结果排序等。

在猎鹰搜索里头用到了Access数据库,然而在专业搜索引擎里头可能得放弃传统的数据库而为满足自身需求设计一套高效的数据系统。

作为技术准备阶段,我们的工作是去寻求各种技术的解决方案、实现措施,并且不断实践和运用它们。

下面对个项技术需要学习的资料划分一下。

自动搜索:
1)各种协议(HTTP/FTP等)
2)C语言网络编程(套接字编程/多线程编程/协议实现等)
自动分类:
1)分类学(信息分类学等)
2)语言学(汉语语言)
3)编译原理(语义分析)
分 词:
1)编译原理(词法分析)
2)语言学(中文词库)
索引创建:
1)索引技术(倒排索引)
结果排序:
1)结果排序算法(?)

详细资料参考《搜索引擎相关站点收集》到时候会把一些资料汇集成册。

好拉,收集了一些资料后,就得自己努力学习和锻炼拉。把你的创造力发挥出来吧。

后记

不要对搜索引擎发热哦,呵呵。不要放弃你的学业而投入一门涉及到好多高深技术的东西 :)

当然,你可以把它当成一个兴趣爱好,抑或挖掘出它的商业潜能。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: