您的位置:首页 > 其它

TensorFlow使用CNN实现中文文本分类

2018-11-14 19:23 344 查看
版权声明:本文为博主原创文章,未经博主允许不得转载(pan_jinquan) https://blog.csdn.net/guyuealian/article/details/83995519

TensorFlow使用CNN实现中文文本分类

    读研期间使用过TensorFlow实现过简单的CNN情感分析(分类),当然这是比较low的二分类情况,后来进行多分类情况。但之前的学习基本上都是在英文词库上训练的。断断续续,想整理一下手头的项目资料,于是就拾起读研期间的文本分类的小项目,花了一点时间,把原来英文文本分类的项目,应用在中文文本分类,效果还不错,在THUCNews中文数据集上,准确率93.9%左右,老规矩,先上源码地址

    Github项目源码:https://github.com/PanJinquan/nlp-learning-tutorials/tree/master/THUCNews 记得给个“Star”哈

目录

TensorFlow使用CNN实现中文文本分类

一、项目介绍

1.1 目录结构

1.2 THUCNews数据集

二、CNN模型结构

三、文本预处理

1、jieba中文分词

2、gensim训练word2vec模型

四、训练过程

五、测试过程

一、项目介绍

1.1 目录结构

  Github项目源码:https://github.com/PanJinquan/nlp-learning-tutorials/tree/master/THUCNews, 记得给个“Star”哈

1.2 THUCNews数据集

    THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。相关介绍,可以看这里http://thuctc.thunlp.org/

下载地址:
1.官方数据集下载链接: http://thuctc.thunlp.org/message
2.百度网盘下载链接: https://pan.baidu.com/s/1DT5xY9m2yfu1YGaGxpWiBQ 提取码: bbpe

二、CNN模型结构

这是我使用的CNN网络结构图

三、文本预处理

    这部分:已经在《使用gensim训练中文语料word2vechttps://blog.csdn.net/guyuealian/article/details/84072158,详解讲解,自己看吧!

1、jieba中文分词

2、gensim训练word2vec模型

   已经训练好的word2vec模型:链接: https://pan.baidu.com/s/1n4ZgiF0gbY0zsK0706wZiw 提取码: mtrj 

2、THUCNews数据处理

   使用词向量处理好的THUCNews数据下载地址:链接: https://pan.baidu.com/s/12Hdf36QafQ3y6KgV_vLTsw 提取码: m9dx 

四、训练过程

   文本分类预训练模型在github上

五、测试过程


 唉唉,时间不够,先发个博客占个茅坑先,后续在详解讲解!!!!!!!!

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: