看到的一些文本分类的一些问题(评论)
2017-09-27 21:25
260 查看
1. 你好 请问textcnn做长文本的话 比如某些类别平均长度已经是1400了,最长上万字,这时根据最长的做padding,内存占用会爆炸。。。另外是 长度非常不均匀,比如百分之一的长度几乎接近0(实际是因为里面全是图片或者视频),这种cnn怎么处理呢
2. 你好,路过看到你的问题,我在某公司实习的时候,50w新闻语料分19类,长文(实际长短非常不均衡,textcnn论文语料应该是句子),然后textcnn random初始化,没有用pretrain的vector,然后效果一般,fasttext当时输入是文本加作者信息
f1飘过0.9 ,不输入作者信息0.86-0.88 传统ml最后搞到0.94.... 上线之后效果比线下更好点,因为人工评价的时候,某些比如放在两个类别都可以的会认为分到哪个都是对的。其他几个问题如果有答案求告知
3. 你好,想请教一下传统机器学习是用什么模型做的?用textcnn的话长短不均衡该怎么处理比较好?我现在做的项目分类类别有上万个,然后一篇文章还可以对应多个类别,完全不知道该怎么处理比较好~
回答、1、长文的话
如果是那种比如军事政治体育这种分类, tf-idf一般能有很好的结果 你看几篇文本分类的DL的论文他们都会对比传统的方法 那些方法你可以试试 2、你的是multilabel classification还是一篇文章只有一个label呢,如果是multilabel classification的话 最近知乎看山杯的竞赛,可以参考下 3、TextCNN长短不均衡 只能统计一下分布,比如90%文本都是<=100个词 你就按照100截断。 5、用fasttext跑个结果当baseline把 这玩意很快而且效果一般还是能看的。6
、DL的话 建议你试试这篇:《 Hierarchical Attention Networks for Document Classification》 当时我们试的这篇效果挺好的。
from: https://zhuanlan.zhihu.com/p/25928551
2. 你好,路过看到你的问题,我在某公司实习的时候,50w新闻语料分19类,长文(实际长短非常不均衡,textcnn论文语料应该是句子),然后textcnn random初始化,没有用pretrain的vector,然后效果一般,fasttext当时输入是文本加作者信息
f1飘过0.9 ,不输入作者信息0.86-0.88 传统ml最后搞到0.94.... 上线之后效果比线下更好点,因为人工评价的时候,某些比如放在两个类别都可以的会认为分到哪个都是对的。其他几个问题如果有答案求告知
3. 你好,想请教一下传统机器学习是用什么模型做的?用textcnn的话长短不均衡该怎么处理比较好?我现在做的项目分类类别有上万个,然后一篇文章还可以对应多个类别,完全不知道该怎么处理比较好~
回答、1、长文的话
如果是那种比如军事政治体育这种分类, tf-idf一般能有很好的结果 你看几篇文本分类的DL的论文他们都会对比传统的方法 那些方法你可以试试 2、你的是multilabel classification还是一篇文章只有一个label呢,如果是multilabel classification的话 最近知乎看山杯的竞赛,可以参考下 3、TextCNN长短不均衡 只能统计一下分布,比如90%文本都是<=100个词 你就按照100截断。 5、用fasttext跑个结果当baseline把 这玩意很快而且效果一般还是能看的。6
、DL的话 建议你试试这篇:《 Hierarchical Attention Networks for Document Classification》 当时我们试的这篇效果挺好的。
from: https://zhuanlan.zhihu.com/p/25928551
相关文章推荐
- 笔记-广达服务器时碰到的一些问题的 分类: 服务器等硬件学习 2014-08-25 17:18 479人阅读 评论(0) 收藏
- 新装ubuntu12.04搜集一些碰到的问题 分类: ubuntu学习 2015-04-03 16:17 71人阅读 评论(0) 收藏
- 使用javamail发信过程中的一些问题… 分类: Android开发 2014-05-30 10:57 55人阅读 评论(0) 收藏
- js + php 处理 永远的敌人 特殊符号 1 在网页上的显示问题 分类: php javascript js 特殊符号 html实体显示 html 2014-03-27 17:55 350人阅读 评论(0) 收藏
- 文本分类入门(九)文本分类问题的分类
- 怎样建索引及索引的分类,索引有什么好处,要注意一些什么问题,如会不会影响其他表?
- 【从0到1学Web前端】CSS定位问题三(相对定位,绝对定位) 分类: HTML+CSS 2015-05-29 23:01 842人阅读 评论(0) 收藏
- JqueryEasyUI 解决IE下datagrid无法刷新的问题 分类: JavaScript JqueryEasyUI 2014-09-20 10:05 510人阅读 评论(1) 收藏
- 关于R语言创建pdf文本和txt文本的一些问题
- 使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同,因为CNN里图像检测卷积一般是3x3,而文本分类的话是直接是一维的3、4、5
- MFC显示文本文档 分类: MFC 2014-12-30 10:03 457人阅读 评论(1) 收藏
- 遇到的问题总结 分类: 问题总结 2013-10-28 17:21 263人阅读 评论(0) 收藏
- [转载]数学之美 系列十八 - 矩阵运算和文本处理中的分类问题
- 存储器的寻址问题 分类: 计算机组成原理 2011-04-04 23:24 477人阅读 评论(0) 收藏
- iOS--开发文本输入框遇到的一些问题
- 棋盘问题 分类: 搜索 POJ 2015-08-09 13:02 4人阅读 评论(0) 收藏
- 【评论文本分类】1.爬取评论数据
- visual studio2010复制粘贴源代码到Word时乱码问题 分类: C# 2014-11-28 09:25 687人阅读 评论(0) 收藏
- 《数学之美》—矩阵运算和文本处理中的两个分类问题