您的位置：首页 > 其它

文本分类实验任务与结果总结

2019-09-20 19:55 309 查看

1、日程分类任务

2、电话导航分类任务

1、模型使用

TextCNN，LSTM，FastText，XGBoost，LightGBM

效果最好的模型是：XGBboost和LightGBM（LightGBM在训练速度稍微优于XGBoost）

2、关键词提取方法使用

（1）无监督方法：TF，TF-IDF，TextRank ，LDA，

（2）有监督方法：信息增益，卡方检验，基于树模型

实验结果：有监督关键词提取方法整体要优于无监督关键词提取方法，但是只使用TF时的效果也不错，基于树模型的关键词提取效果相对于其他方法要好些。

3、句子长度对模型分类效果的影响

训练集每条文本长度的不同对测试分类结果有影响，模型分类效果更倾向于较长的句子，所以可以考虑使用jieba分词的全局模式来增加句子长度。

4、训练集数据增强方法使用

EDA方法（同义词替换，随机插入，随机删除，随机交换），回译方法。

5、去掉次要关键词对分类结果的影响

训练集中去掉部分次要关键词，对分类结果影响不明显。

6、数据不平衡的分类影响

训练数据中正负样本的不平衡性对模型训练和分类结果有影响。

7、EDA数据增强对分类结果的影响

使用EDA方法增强正样本，负样本数据不变，则分类结果更倾向于正样本。

8、清洗数据（相似度分析）

将已知数据集里面的日程（sch）数据提取出来，与所给数据（会议，促销，订票信息，直播等）计算其相似度，将相似度高的日程数据挑选出来。（使用了jaro distance计算的相似度，根据具体情况设置阈值进行样本数据过滤）。

9、数据特征提取与扩充

添加“时间”和“会议”特征。根据时间正则表达式，提取样本中的时间，添加“时间”特征；根据关键词提取方法，提取样本中的所有跟会议相关的会，然后再添加“会议”特征。

10、Word2Vec计算句向量

（1）方法一：Word2Vec

（2）方法二：加权Word2Vec（效果相对较好）

11、Doc2Vec计算句向量

个人实验效果不是很好（不知道是什么原因）

TF/TF-IDF/TextRank/LDA/信息增益/卡方检验/基于树模型+lightGBM/XGBoost；其中，基于树模型/XGBoost或lightGBM（效果相对较好）。
TextCNN
加权Word2Vec+DNN （相对于方法1中效果有提高，运行速率快）
加权Word2Vec+LSTM（效果不错）
加权Word2Vec+Bi-LSTM（效果不错）
Glove+lightGBM/DNN/LSTM（效果与使用Word2Vec相当）
Doc2Vec+lightGBM（效果一般）
Fasttext（速率较快，但效果一般）
ELMO
Bert
Flair
不同模型训练的词向量进行拼接作为句向量输入模型（比如将word2vec训练的词向量（300维）与glove训练的词向量（300维）拼接成句向量（600维）作为分类模型的输入）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航