您的位置：首页 > 其它

文本挖掘之详细整体的流程

2016-03-04 15:06 155 查看

1、分词

2、特征权重的计算

3、模型的选择

（1）向量空间模型与布尔模型

（2）概率模型

4、特征选择

IG（特征选择），DF（文档频率），IF-IDF，ECE（期望交叉熵），X方，MI（文档互信息），WET（文档证据权重），OI，CC（相关系数）等常用的特征选择

在我前面的文章都有提到

5、特征抽取

LDA（线性特征抽取），PCA（主成分分析），FA（因子分析），SVD（奇异值分解），NMF（非负矩阵分解），LSI或者LSA（潜在语义分析）

我的其他文章都有提到

6、文本分类算法

KNN，SVM，BP神经网络，Bayes，决策树，基于规则分类，组合算法。

7、文本聚类算法

K-means，agent，divided，DBSCAN 等

8、模型的评估

指标

准确率，错误率，精确度，召回率（主要使用混洗矩阵）

如何验证这些指标？

保持、随机二次抽样、交叉验证、自助法

如何比较二个模型？

ROC曲线的绘制

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航