您的位置：首页 > 其它

Datawhale入门NLP比赛——Task1NLP之新闻文本分类赛题理解

2020-07-21 23:13 405 查看

赛题任务

以自然语言处理为背景，对新闻文本进行分类，本质上是字符识别问题。

赛题数据

赛题数据包括三部分：训练数据集train_set.csv，共20W条、测试数据集test_a.csv，共5W条、以及结果提交格式示意文件test_a_sample_submit.csv。

其中数据集按照字符级别进行了匿名处理，划分出了14个候选文本分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

数据标签

14个候选文本分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐，一次对应0到13。

评测指标

评价标准为类别f1_score的均值，选手提交结果与实际测试集的类别进行对比，结果越大越好。

解题思路

难点：赛题中的数据是匿名化的，不能直接使用中文分词等操作。所以只能对匿名字符进行建模，然后完成文本分类。

思路一：TF-IDF+机器学习分类器，即直接使用TF-IDF对文本提取特征，并使用分类器进行分类，再分类器的选择上，可以使用SVM、LR或XGBoost。
思路二：FastText，即直接利用Facebook提供的入门款词向量TastText工具构建出分类器。
思路三：WordVec+深度学习分类器，即利用进借款词向量工具WordVec，并通过构建深度学习分类完成分类。深度学习的算法可选择TextCNN、TextRNN或者BiLSTM。
思路四：直接利用高配款Bert词向量工具。

个人比较熟悉TF-IDF和相关机器学习模型，拟采用思路一完成本次比赛。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航