您的位置：首页 > 其它

应用各种算法都要分词计算权重

2016-01-06 11:35 155 查看

从接触算法到现在大概有1个月的时间了，有监督的分类即分类算法都要开始对文本预料输入进行处理，处理流程如下

分词

关于分词处理，暂时用过这三个分词器，只是简单的应用，没有考虑正最大匹配，最长匹配等，其中ansj对于词性的标注最详细，并且有自动学习功能，对于保留名词，动词，形容词，并且去除虚词，连词等没多大实用价值的词方面优势很明显，当然mmseg，中科院分词中也有些简单的标注。

去除停用词

通常分词之后我们会获得一个非常庞大的词典，如一篇文章分词后有几千词或者上万也不无可能，所有我们要对这些词降维，也叫提取特征向量

特征提取

特征提取是非常重要的一个环节，直接关系着我们分类的准确性。

特征提取包括特征选择和特征抽取，特征选择之后的数据是原词典的子集，特征抽取之后的数据是原词典的映射，所以根据不同应用场景选择不同的权重计算方式。

特征选择有10多个计算权重的方法，其中比较常用的有文档频率，反文档频率TF*IDF，卡方检验，互信息，信息增益。

特征抽取中常用的有主要成分分词法PCA和线性评估分词法LDA

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航