文本数据预处理系统软件
2010-07-09 11:38
204 查看
1. 文本数据预处理系统软件
2.软件简称:文本数据预处理系统软件
3.版本号:v1.0
4.分类号:67500-9100
5.首次发表地点:西安
6.硬件环境: vs.net在windows环境下开发的,硬件是1G的内存,Inter(R)Core(TM2 CPU 2.00GHz),数据库系统根据采用sybase IQ
7.软件环境:Windows XP以上版本
8.编程语言:VC++ 6.0
9.源程序量:48649行
10.主要功能和技术特点(不超过300字)
主要功能:
可对网页进行内容分析和过滤,精确获取内容主体;
可对文档相似性检测,从而实现文本去重功能;
可进行基于内容的文本分类;
可进行文本自动分词;
可对文本进行信息抽取,包括关键字、自动文摘的提取;
根据用户需求进行模式定制,进行相应文本信息的提取;
对于发布的信息,可以对照查阅原链接网页。
技术特点:
根据句子特征库对其进行句子相似性计算;
采用的自动分类技术,可对网页进行无需人工干预的自动分类;
利用多层隐马尔可夫模型选取切分及标注的最佳结果,实现中文词语分词;
统计方法和启发式规则提取文档关键句,最后生成文档的摘要;
采用了基于统计和机器学习技术的自动分类技术;
2.软件简称:文本数据预处理系统软件
3.版本号:v1.0
4.分类号:67500-9100
5.首次发表地点:西安
6.硬件环境: vs.net在windows环境下开发的,硬件是1G的内存,Inter(R)Core(TM2 CPU 2.00GHz),数据库系统根据采用sybase IQ
7.软件环境:Windows XP以上版本
8.编程语言:VC++ 6.0
9.源程序量:48649行
10.主要功能和技术特点(不超过300字)
主要功能:
可对网页进行内容分析和过滤,精确获取内容主体;
可对文档相似性检测,从而实现文本去重功能;
可进行基于内容的文本分类;
可进行文本自动分词;
可对文本进行信息抽取,包括关键字、自动文摘的提取;
根据用户需求进行模式定制,进行相应文本信息的提取;
对于发布的信息,可以对照查阅原链接网页。
技术特点:
根据句子特征库对其进行句子相似性计算;
采用的自动分类技术,可对网页进行无需人工干预的自动分类;
利用多层隐马尔可夫模型选取切分及标注的最佳结果,实现中文词语分词;
统计方法和启发式规则提取文档关键句,最后生成文档的摘要;
采用了基于统计和机器学习技术的自动分类技术;
相关文章推荐
- 零售系统软件架构---设计之权限数据分发
- 机器学习数据预处理方法与技巧系统讲解
- 几种简单的文本数据预处理方法
- 软件系统开发中的数据交换协议
- 重装系统通过数据恢复软件找回来的数据库文件提示不是有效的SQL SERVER文件的修复案例
- 经典的文本数据预处理流程
- 软件系统开发中的数据交换协议
- 几种异地数据备份软件/系统方案
- 软件系统开发中的数据交换协议
- 【转】软件系统开发中的数据交换协议
- 通过服务器获取终端上应用软件更新数据的方法和系统
- 软件安全学习笔记(5):FAT32文件系统与数据恢复
- 软件系统开发中的数据交换协议 开发一组 enein
- 如何将多个文本数据转化为指定数据格式[以电影数据为例](数据预处理)
- 电脑重装系统变成一个C盘,其他D,E,F盘数据消失都没有了-艾奇恢复软件
- 如何在Windows系统上用抓包软件Wireshark截获iPhone等网络通讯数据
- 软件系统数据分析的基本流程
- 如何在Windows系统上用抓包软件Wireshark截获iPhone等网络通讯数据
- 写入、获取系统剪帖板中的文本数据
- 文本数据预处理:sklearn 中 CountVectorizer、TfidfTransformer