文本分类实验任务与结果总结
目录
一、分类任务
1、日程分类任务
类别 |
类别细分 |
Other(其他) |
Delivery(快递) |
Business(促销) |
|
Other(其他) |
|
Sch(日程) |
Meet(会议) |
Order(订单) |
|
Adbroad(直播) |
|
schbroad & other(学习直播与其他) |
2、电话导航分类任务
类别 |
类别细分 |
Comm(电话) |
Check(要电话) |
Makecall(打电话) |
|
Place(位置) |
Path(导航去哪) |
Other(其他) |
Other(其他) |
二、分类实验结果分析与总结
1、模型使用
TextCNN,LSTM,FastText,XGBoost,LightGBM
效果最好的模型是:XGBboost和LightGBM(LightGBM在训练速度稍微优于XGBoost)
2、关键词提取方法使用
(1)无监督方法:TF,TF-IDF,TextRank ,LDA,
(2)有监督方法:信息增益,卡方检验,基于树模型
实验结果:有监督关键词提取方法整体要优于无监督关键词提取方法,但是只使用TF时的效果也不错,基于树模型的关键词提取效果相对于其他方法要好些。
3、句子长度对模型分类效果的影响
训练集每条文本长度的不同对测试分类结果有影响,模型分类效果更倾向于较长的句子,所以可以考虑使用jieba分词的全局模式来增加句子长度。
4、训练集数据增强方法使用
EDA方法(同义词替换,随机插入,随机删除,随机交换),回译方法。
5、去掉次要关键词对分类结果的影响
训练集中去掉部分次要关键词,对分类结果影响不明显。
6、数据不平衡的分类影响
训练数据中正负样本的不平衡性对模型训练和分类结果有影响。
7、EDA数据增强对分类结果的影响
使用EDA方法增强正样本,负样本数据不变,则分类结果更倾向于正样本。
8、清洗数据(相似度分析)
将已知数据集里面的日程(sch)数据提取出来,与所给数据(会议,促销,订票信息,直播等)计算其相似度,将相似度高的日程数据挑选出来。(使用了jaro distance计算的相似度,根据具体情况设置阈值进行样本数据过滤)。
9、数据特征提取与扩充
添加“时间”和“会议”特征。根据时间正则表达式,提取样本中的时间,添加“时间”特征;根据关键词提取方法,提取样本中的所有跟会议相关的会,然后再添加“会议”特征。
10、Word2Vec计算句向量
(1)方法一:Word2Vec
(2)方法二:加权Word2Vec(效果相对较好)
11、Doc2Vec计算句向量
个人实验效果不是很好(不知道是什么原因)
三、文本分类方法实验总结
- TF/TF-IDF/TextRank/LDA/信息增益/卡方检验/基于树模型+lightGBM/XGBoost;其中,基于树模型/XGBoost或lightGBM(效果相对较好)。
- TextCNN
- 加权Word2Vec+DNN (相对于方法1中效果有提高,运行速率快) 3ff7
- 加权Word2Vec+LSTM(效果不错)
- 加权Word2Vec+Bi-LSTM(效果不错)
- Glove+lightGBM/DNN/LSTM(效果与使用Word2Vec相当)
- Doc2Vec+lightGBM(效果一般)
- Fasttext(速率较快,但效果一般)
- ELMO
- Bert
- Flair
- 不同模型训练的词向量进行拼接作为句向量输入模型(比如将word2vec训练的词向量(300维)与glove训练的词向量(300维)拼接成句向量(600维)作为分类模型的输入)
- 大二文本分词过滤分类实验总结
- 基于深度学习的大规模多标签文本分类任务总结
- 转自水木NLP,duckyaya版主总结的关于文本分类的若干资源。
- 多线程并发执行任务,取结果归集。终极总结:Future、FutureTask、CompletionService、CompletableFuture...
- 300万知乎多标签文本分类任务经验分享(附源码)
- 第九周实验报告任务 1 定义Time类中的<<和>>运算符重载,实现时间的输入输出,改造原程序中对运算结果显示方式,使程序读起来更自然。
- 文本分类的算法总结
- 文本分类论文总结
- 【机器学习实验】使用朴素贝叶斯进行文本的分类
- 第九周实验报告任务3 定义分数类中<<和>>运算符重载,实现分数的输入输出,改造原程序中对运算结果显示方式,使程序读起来更自然。
- 多线程并发执行任务,取结果归集。终极总结:Future、FutureTask、CompletionService、CompletableFuture
- aspect level 的文本情感分类试验结果1
- 网易云微专业课NLP总结:4.文本分类:情感分析与内容分类
- LibSVM实现文本分类总结
- 多线程并发执行任务,取结果归集。终极总结:Future、FutureTask、CompletionService、CompletableFuture
- 文本分类算法总结
- TensorFlow学习笔记(9)--使用CNN做英文文本分类任务
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第49期
- 【机器学习实验】使用朴素贝叶斯进行文本的分类