您的位置:首页 > 业界新闻

网站行业搜索,数据源来自于互联网

2007-10-10 14:55 363 查看


最近公司管理层有个新想法,想利用百度,GOOGLE等网站的海量信息,做一个我们自己的行业搜索网站,做为公司的一个新频道,也可以说一个特色服务;第二天交个思路(上面的流程图),数据库方面的内容,需要的可以在第四步骤之后写到库;以前有过网络编程的简单知识和正则基础,所以基本没有问题.考虑到性能问题,要用到多线程编程,这方面只有一点点了解,老板就让我把这点研究一下.之后确定一个开发进度和任务安排.今天看了多线程的文章,很不错,发给大家看看:C#.net多线程编程教学(1): 线程同步多任务和多线程

流程图解说:

开发工作:
a.百度数据分析模块
b.业务处理模块
c.表示层模块
d.数据库设计
详细说明:
a. 【百度数据分析模块】主要工作
1.百度新闻列表页分析
2.制定新闻列表页正则
b. 【业务处理模块】主要工作
1.根据组合URL,获取HTML数据
2.处理HTML数据,由正则提取有用信息(如标题,链接,摘要,时间等等)
3.结构化提取信息(记录到模拟数据库和SQLSERVER),显示给用户
4.多线程编程,性能测试,功能测试
c. 【表示层模块】主要工作
1.友好提示效果
2.AJAX无刷新提交
d. 【数据库设计】主要工作
1. 新闻表

编号
标题
标题链接
来源
摘要
日期
图片新闻
图片
分类
百度标题是加粗的,获取时加粗的处理
2. 词条表

编号
词条关键值
词条
词条关键值点击量
词条点击量
日期
..
3.分类表(一分类对应一正则)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: