您的位置:首页 > 其它

应用各种算法都要分词计算权重

2016-01-06 11:35 155 查看
从接触算法到现在大概有1个月的时间了,有监督的分类即分类算法都要开始对文本预料输入进行处理,处理流程如下



分词

关于分词处理,暂时用过这三个分词器,只是简单的应用,没有考虑正最大匹配,最长匹配等,其中ansj对于词性的标注最详细,并且有自动学习功能,对于保留名词,动词,形容词,并且去除虚词,连词等没多大实用价值的词方面优势很明显,当然mmseg,中科院分词中也有些简单的标注。

去除停用词

通常分词之后我们会获得一个非常庞大的词典,如一篇文章分词后有几千词或者上万也不无可能,所有我们要对这些词降维,也叫提取特征向量

特征提取

特征提取是非常重要的一个环节,直接关系着我们分类的准确性。

特征提取包括特征选择和特征抽取,特征选择之后的数据是原词典的子集,特征抽取之后的数据是原词典的映射,所以根据不同应用场景选择不同的权重计算方式。

特征选择有10多个计算权重的方法,其中比较常用的有文档频率,反文档频率TF*IDF,卡方检验,互信息,信息增益。

特征抽取中常用的有主要成分分词法PCA和线性评估分词法LDA
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: