Datawhale入门NLP比赛——Task1NLP之新闻文本分类赛题理解
2020-07-21 23:13
405 查看
赛题任务
以自然语言处理为背景,对新闻文本进行分类,本质上是字符识别问题。
赛题数据
赛题数据包括三部分:训练数据集train_set.csv,共20W条、测试数据集test_a.csv,共5W条、以及结果提交格式示意文件test_a_sample_submit.csv。
其中数据集按照字符级别进行了匿名处理,划分出了14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
数据标签
14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,一次对应0到13。
评测指标
评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。
解题思路
难点:赛题中的数据是匿名化的,不能直接使用中文分词等操作。所以只能对匿名字符进行建模,然后完成文本分类。
思路一:TF-IDF+机器学习分类器,即直接使用TF-IDF对文本提取特征,并使用分类器进行分类,再分类器的选择上,可以使用SVM、LR或XGBoost。
思路二:FastText,即直接利用Facebook提供的入门款词向量TastText工具构建出分类器。
思路三:WordVec+深度学习分类器,即利用进借款词向量工具WordVec,并通过构建深度学习分类完成分类。深度学习的算法可选择TextCNN、TextRNN或者BiLSTM。
思路四:直接利用高配款Bert词向量工具。
个人比较熟悉TF-IDF和相关机器学习模型,拟采用思路一完成本次比赛。
相关文章推荐
- Datawhale零基础入门NLP——新闻文本分类(一)熟悉赛题(天池比赛)
- [不知pandas为何物的纯金小白]Datawhale零基础入门NLP赛事--天池新闻文本分类--Day1理解赛题
- 【学习笔记】Datawhale零基础入门NLP赛事--天池新闻文本分类--Day2数据理解与数据分析
- NLP——天池新闻文本分类赛题理解
- DataWhale 零基础入门NLP赛事-新闻文本分类 TASK2 数据读取与数据分析
- 阿里天池NLP入门——新闻文本分类(2)数据读取与数据分析
- Datawhale NLP入门:Task5 基于深度学习的文本分类2
- 阿里天池NLP入门——新闻文本分类(4)基于深度学习的文本分类1
- 入门NLP新闻文本分类Task2——数据读取与数据分析
- NLP基础入门之新闻文本基于机器学习的分类Test3
- 跟我一起零基础入门NLP(实战项目 : 新闻文本分类)4基于fastText的文本分类
- 阿里天池NLP入门——新闻文本分类(5)基于深度学习的文本分类2
- 跟我一起零基础入门NLP(实战项目 : 新闻文本分类)1.赛题理解
- 入门NLP新闻文本分类Task3——基于机器学习的文本分类
- 入门NLP新闻文本分类Task5——基于深度学习文本分类Word2Vec
- NPL基础入门之新闻本分类赛题理解Test1
- Datawhale零基础入门NLP-Task3 基于机器学习的文本分类
- 阿里天池NLP入门——新闻文本分类(3)基于机器学习的文本分类
- NLP入门实践-新闻文本分类Task2基于机器学习的文本分类
- NLP入门实践-新闻文本分类Task2数据探索