您的位置:首页 > 其它

文本数据预处理系统软件

2010-07-09 11:38 204 查看
1. 文本数据预处理系统软件
2.软件简称:文本数据预处理系统软件
3.版本号:v1.0
4.分类号:67500-9100
5.首次发表地点:西安
6.硬件环境: vs.net在windows环境下开发的,硬件是1G的内存,Inter(R)Core(TM2 CPU 2.00GHz),数据库系统根据采用sybase IQ
7.软件环境:Windows XP以上版本
8.编程语言:VC++ 6.0
9.源程序量:48649行
10.主要功能和技术特点(不超过300字)

主要功能:
 可对网页进行内容分析和过滤,精确获取内容主体;
 可对文档相似性检测,从而实现文本去重功能;
 可进行基于内容的文本分类;
 可进行文本自动分词;
 可对文本进行信息抽取,包括关键字、自动文摘的提取;
 根据用户需求进行模式定制,进行相应文本信息的提取;
 对于发布的信息,可以对照查阅原链接网页。
技术特点:
 根据句子特征库对其进行句子相似性计算;
 采用的自动分类技术,可对网页进行无需人工干预的自动分类;
 利用多层隐马尔可夫模型选取切分及标注的最佳结果,实现中文词语分词;
 统计方法和启发式规则提取文档关键句,最后生成文档的摘要;
采用了基于统计和机器学习技术的自动分类技术;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: