TensorFlow使用CNN实现中文文本分类
TensorFlow使用CNN实现中文文本分类
读研期间使用过TensorFlow实现过简单的CNN情感分析(分类),当然这是比较low的二分类情况,后来进行多分类情况。但之前的学习基本上都是在英文词库上训练的。断断续续,想整理一下手头的项目资料,于是就拾起读研期间的文本分类的小项目,花了一点时间,把原来英文文本分类的项目,应用在中文文本分类,效果还不错,在THUCNews中文数据集上,准确率93.9%左右,老规矩,先上源码地址
Github项目源码:https://github.com/PanJinquan/nlp-learning-tutorials/tree/master/THUCNews, 记得给个“Star”哈
目录
一、项目介绍
1.1 目录结构
Github项目源码:https://github.com/PanJinquan/nlp-learning-tutorials/tree/master/THUCNews, 记得给个“Star”哈
1.2 THUCNews数据集
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。相关介绍,可以看这里http://thuctc.thunlp.org/
下载地址:
1.官方数据集下载链接: http://thuctc.thunlp.org/message
2.百度网盘下载链接: https://pan.baidu.com/s/1DT5xY9m2yfu1YGaGxpWiBQ 提取码: bbpe
二、CNN模型结构
这是我使用的CNN网络结构图
三、文本预处理
这部分:已经在《使用gensim训练中文语料word2vec》https://blog.csdn.net/guyuealian/article/details/84072158,详解讲解,自己看吧!
1、jieba中文分词
2、gensim训练word2vec模型
已经训练好的word2vec模型:链接: https://pan.baidu.com/s/1n4ZgiF0gbY0zsK0706wZiw 提取码: mtrj
2、THUCNews数据处理
使用词向量处理好的THUCNews数据下载地址:链接: https://pan.baidu.com/s/12Hdf36QafQ3y6KgV_vLTsw 提取码: m9dx
四、训练过程
文本分类预训练模型在github上
五、测试过程
唉唉,时间不够,先发个博客占个茅坑先,后续在详解讲解!!!!!!!!
- CNN中文文本分类-基于TensorFlow实现
- cnn、rnn实现中文文本分类(基于tensorflow)
- 【NLP】TensorFlow实现CNN用于中文文本分类
- 使用CNN进行文本分类代码实现
- tensorflow 学习专栏(六):使用卷积神经网络(CNN)在mnist数据集上实现分类
- Tensorflow实现的CNN文本分类
- 字符级卷积神经网络(Char-CNN)实现文本分类--模型介绍与TensorFlow实现
- Yoon Kim的textCNN讲解,以及tensorflow实现,CNN文本分类
- 在TensorFlow中实现文本分类的CNN
- 【NLP】TensorFlow实现CNN用于文本分类(译)
- 如何基于TensorFlow使用LSTM和CNN实现时序分类任务
- Chinese-Text-Classification,用卷积神经网络基于 Tensorflow 实现的中文文本分类。
- 使用tensorflow实现的感知机进行文本分类
- Spark MLlib实现的中文文本分类–Naive Bayes
- Spark MLlib实现的中文文本分类–Naive Bayes
- tensorflow实现基于LSTM的文本分类方法
- tensorflow实现一个最基本的cnn分类mnist
- 几种使用了CNN(卷积神经网络)的文本分类模型
- tensorflow实现基于LSTM的文本分类方法
- CNN模型和RNN模型在分类问题中的应用(Tensorflow实现)