您的位置：首页 > 其它

看到的一些文本分类的一些问题（评论）

2017-09-27 21:25 260 查看

1. 你好请问textcnn做长文本的话比如某些类别平均长度已经是1400了，最长上万字，这时根据最长的做padding，内存占用会爆炸。。。另外是长度非常不均匀，比如百分之一的长度几乎接近0(实际是因为里面全是图片或者视频)，这种cnn怎么处理呢

2. 你好，路过看到你的问题，我在某公司实习的时候，50w新闻语料分19类，长文(实际长短非常不均衡，textcnn论文语料应该是句子)，然后textcnn random初始化，没有用pretrain的vector，然后效果一般，fasttext当时输入是文本加作者信息
f1飘过0.9 ，不输入作者信息0.86-0.88 传统ml最后搞到0.94.... 上线之后效果比线下更好点，因为人工评价的时候，某些比如放在两个类别都可以的会认为分到哪个都是对的。其他几个问题如果有答案求告知

3. 你好，想请教一下传统机器学习是用什么模型做的？用textcnn的话长短不均衡该怎么处理比较好？我现在做的项目分类类别有上万个，然后一篇文章还可以对应多个类别，完全不知道该怎么处理比较好~

回答、1、长文的话
如果是那种比如军事政治体育这种分类， tf-idf一般能有很好的结果你看几篇文本分类的DL的论文他们都会对比传统的方法那些方法你可以试试 2、你的是multilabel classification还是一篇文章只有一个label呢，如果是multilabel classification的话最近知乎看山杯的竞赛，可以参考下 3、TextCNN长短不均衡只能统计一下分布，比如90%文本都是<=100个词你就按照100截断。 5、用fasttext跑个结果当baseline把这玩意很快而且效果一般还是能看的。6
、DL的话建议你试试这篇：《 Hierarchical Attention Networks for Document Classification》当时我们试的这篇效果挺好的。

from： https://zhuanlan.zhihu.com/p/25928551

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习深度学习

相关文章推荐

新的分享

章节导航