您的位置:首页 > 其它

文本分类实验任务与结果总结

2019-09-20 19:55 309 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/asialee_bird/article/details/100730539

目录

一、分类任务

二、分类实验结果分析与总结

三、文本分类方法实验总结

一、分类任务

1、日程分类任务

类别

类别细分

Other(其他)

Delivery(快递)

Business(促销)

Other(其他)

Sch(日程)

Meet(会议)

Order(订单)

Adbroad(直播)

schbroad & other(学习直播与其他)

 

2、电话导航分类任务

类别

类别细分

Comm(电话)

Check(要电话)

Makecall(打电话)

Place(位置)

Path(导航去哪)

Other(其他)

Other(其他)

二、分类实验结果分析与总结

1、模型使用

TextCNN,LSTM,FastText,XGBoost,LightGBM

效果最好的模型是:XGBboost和LightGBM(LightGBM在训练速度稍微优于XGBoost)

2、关键词提取方法使用

(1)无监督方法TF,TF-IDF,TextRank ,LDA,

(2)有监督方法:信息增益,卡方检验,基于树模型

    实验结果:有监督关键词提取方法整体要优于无监督关键词提取方法,但是只使用TF时的效果也不错,基于树模型的关键词提取效果相对于其他方法要好些。

3、句子长度对模型分类效果的影响

训练集每条文本长度的不同对测试分类结果有影响,模型分类效果更倾向于较长的句子,所以可以考虑使用jieba分词的全局模式来增加句子长度。

4、训练集数据增强方法使用

EDA方法(同义词替换,随机插入,随机删除,随机交换),回译方法。

5、去掉次要关键词对分类结果的影响

训练集中去掉部分次要关键词,对分类结果影响不明显。

6、数据不平衡的分类影响

训练数据中正负样本的不平衡性对模型训练和分类结果有影响。

7、EDA数据增强对分类结果的影响

使用EDA方法增强正样本,负样本数据不变,则分类结果更倾向于正样本。

8、清洗数据(相似度分析)

将已知数据集里面的日程(sch)数据提取出来,与所给数据(会议,促销,订票信息,直播等)计算其相似度,将相似度高的日程数据挑选出来。(使用了jaro distance计算的相似度,根据具体情况设置阈值进行样本数据过滤)。

9、数据特征提取与扩充

添加“时间”和“会议”特征。根据时间正则表达式,提取样本中的时间,添加“时间”特征;根据关键词提取方法,提取样本中的所有跟会议相关的会,然后再添加“会议”特征。

10、Word2Vec计算句向量

(1)方法一:Word2Vec

(2)方法二:加权Word2Vec(效果相对较好)

11、Doc2Vec计算句向量

个人实验效果不是很好(不知道是什么原因)

三、文本分类方法实验总结

  • TF/TF-IDF/TextRank/LDA/信息增益/卡方检验/基于树模型+lightGBM/XGBoost;其中,基于树模型/XGBoost或lightGBM(效果相对较好)
  • TextCNN
  • 加权Word2Vec+DNN (相对于方法1中效果有提高,运行速率快)
  • 3ff7
  • 加权Word2Vec+LSTM(效果不错)
  • 加权Word2Vec+Bi-LSTM(效果不错)
  • Glove+lightGBM/DNN/LSTM(效果与使用Word2Vec相当)
  • Doc2Vec+lightGBM(效果一般)
  • Fasttext(速率较快,但效果一般)
  • ELMO
  • Bert
  • Flair
  • 不同模型训练的词向量进行拼接作为句向量输入模型(比如将word2vec训练的词向量(300维)与glove训练的词向量(300维)拼接成句向量(600维)作为分类模型的输入)

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐