您的位置:首页 > 其它

看到的一些文本分类的一些问题(评论)

2017-09-27 21:25 260 查看
1. 你好 请问textcnn做长文本的话 比如某些类别平均长度已经是1400了,最长上万字,这时根据最长的做padding,内存占用会爆炸。。。另外是 长度非常不均匀,比如百分之一的长度几乎接近0(实际是因为里面全是图片或者视频),这种cnn怎么处理呢

2. 你好,路过看到你的问题,我在某公司实习的时候,50w新闻语料分19类,长文(实际长短非常不均衡,textcnn论文语料应该是句子),然后textcnn random初始化,没有用pretrain的vector,然后效果一般,fasttext当时输入是文本加作者信息
f1飘过0.9 ,不输入作者信息0.86-0.88 传统ml最后搞到0.94.... 上线之后效果比线下更好点,因为人工评价的时候,某些比如放在两个类别都可以的会认为分到哪个都是对的。其他几个问题如果有答案求告知

3. 你好,想请教一下传统机器学习是用什么模型做的?用textcnn的话长短不均衡该怎么处理比较好?我现在做的项目分类类别有上万个,然后一篇文章还可以对应多个类别,完全不知道该怎么处理比较好~

回答、1、长文的话
如果是那种比如军事政治体育这种分类, tf-idf一般能有很好的结果 你看几篇文本分类的DL的论文他们都会对比传统的方法 那些方法你可以试试 2、你的是multilabel classification还是一篇文章只有一个label呢,如果是multilabel classification的话 最近知乎看山杯的竞赛,可以参考下 3、TextCNN长短不均衡 只能统计一下分布,比如90%文本都是<=100个词 你就按照100截断。 5、用fasttext跑个结果当baseline把 这玩意很快而且效果一般还是能看的。6
、DL的话 建议你试试这篇:《 Hierarchical Attention Networks for Document Classification》 当时我们试的这篇效果挺好的。




from: https://zhuanlan.zhihu.com/p/25928551
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐