您的位置:首页 > 其它

Datawhale入门NLP比赛——Task1NLP之新闻文本分类赛题理解

2020-07-21 23:13 405 查看

赛题任务

以自然语言处理为背景,对新闻文本进行分类,本质上是字符识别问题

赛题数据

赛题数据包括三部分:训练数据集train_set.csv,共20W条、测试数据集test_a.csv,共5W条、以及结果提交格式示意文件test_a_sample_submit.csv。

其中数据集按照字符级别进行了匿名处理,划分出了14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

数据标签

14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,一次对应0到13。

评测指标

评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。

解题思路

难点:赛题中的数据是匿名化的,不能直接使用中文分词等操作。所以只能对匿名字符进行建模,然后完成文本分类。

思路一:TF-IDF+机器学习分类器,即直接使用TF-IDF对文本提取特征,并使用分类器进行分类,再分类器的选择上,可以使用SVM、LR或XGBoost。
思路二:FastText,即直接利用Facebook提供的入门款词向量TastText工具构建出分类器。
思路三:WordVec+深度学习分类器,即利用进借款词向量工具WordVec,并通过构建深度学习分类完成分类。深度学习的算法可选择TextCNN、TextRNN或者BiLSTM。
思路四:直接利用高配款Bert词向量工具。

个人比较熟悉TF-IDF和相关机器学习模型,拟采用思路一完成本次比赛。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐