应用各种算法都要分词计算权重
2016-01-06 11:35
155 查看
从接触算法到现在大概有1个月的时间了,有监督的分类即分类算法都要开始对文本预料输入进行处理,处理流程如下
分词
关于分词处理,暂时用过这三个分词器,只是简单的应用,没有考虑正最大匹配,最长匹配等,其中ansj对于词性的标注最详细,并且有自动学习功能,对于保留名词,动词,形容词,并且去除虚词,连词等没多大实用价值的词方面优势很明显,当然mmseg,中科院分词中也有些简单的标注。
去除停用词
通常分词之后我们会获得一个非常庞大的词典,如一篇文章分词后有几千词或者上万也不无可能,所有我们要对这些词降维,也叫提取特征向量
特征提取
特征提取是非常重要的一个环节,直接关系着我们分类的准确性。
特征提取包括特征选择和特征抽取,特征选择之后的数据是原词典的子集,特征抽取之后的数据是原词典的映射,所以根据不同应用场景选择不同的权重计算方式。
特征选择有10多个计算权重的方法,其中比较常用的有文档频率,反文档频率TF*IDF,卡方检验,互信息,信息增益。
特征抽取中常用的有主要成分分词法PCA和线性评估分词法LDA
分词
关于分词处理,暂时用过这三个分词器,只是简单的应用,没有考虑正最大匹配,最长匹配等,其中ansj对于词性的标注最详细,并且有自动学习功能,对于保留名词,动词,形容词,并且去除虚词,连词等没多大实用价值的词方面优势很明显,当然mmseg,中科院分词中也有些简单的标注。
去除停用词
通常分词之后我们会获得一个非常庞大的词典,如一篇文章分词后有几千词或者上万也不无可能,所有我们要对这些词降维,也叫提取特征向量
特征提取
特征提取是非常重要的一个环节,直接关系着我们分类的准确性。
特征提取包括特征选择和特征抽取,特征选择之后的数据是原词典的子集,特征抽取之后的数据是原词典的映射,所以根据不同应用场景选择不同的权重计算方式。
特征选择有10多个计算权重的方法,其中比较常用的有文档频率,反文档频率TF*IDF,卡方检验,互信息,信息增益。
特征抽取中常用的有主要成分分词法PCA和线性评估分词法LDA
相关文章推荐
- Android Studio更新升级方法
- Android 应用APP加入聊天功能
- 指针->指针的类型
- 问答专场 | 我是高级商业产品总监吴波,你有什么想问的?
- 影响布局的inline-block的空白符的问题
- 这六家创业公司支撑着大半个互联网!
- 转:Linux下/etc/shadow文件全面详解
- linux input&&uevent使用
- window.open打开新窗口,防止浏览器阻止弹窗解决办法
- oracle中merge into的用法
- VLIB中边缘检测算法学习
- Eclipse打war包
- Java多线程-并发协作(生产者消费者模型)
- StreamCQL 1.1版本RoadMap
- linux+php+apache web调用python脚本权限问题
- php导出excel表格
- thinkphp实现对两个字段或or条件搜索
- CSS3第二日--圆角边框
- ADB 常见问题
- MySQL数据库三种常用存储引擎特性对比