您的位置:首页 > 其它

数据挖掘竞赛题目 -- 文本分类

2016-06-14 11:10 429 查看
从某公众号看到两个题目, 逻辑挺简单, 现在记录下来, 有时间琢磨琢磨(数据在文末).

竞赛简介

使用搜狗语料库进行自动文本分类

数据描述

新闻语料中类别与目录的对应关系如下,共十大类别:

C000007 汽车

C000008 财经

C000010 IT

C000013 健康

C000014 体育

C000016 旅游

C000020 教育

C000022 招聘

C000023 文化

C000024 军事

在Data文件夹中有训练数据集(train)及测试数据集(test),其中train目录中是已经分类好的文档,每个类别中有6000个文档,而test目录中共包含20000个所有类别的文档,需要参赛者设计算法进行自动归类。

任务描述

构建优秀的分类器,将test目录中文档进行自动归类

提交最终分类结果,即将test中的各个文档自动划分到C000007、C000008、….、 C000024等目录后打包提交.

评价标准

评分算法:F1-Measure:

F1=2P∗RP+R,P是准确率,R是召回率

对于每个类别分别单独计算其F1值,然后求10个类别的F1平均值作为最终评分结果。

数据链接: http://pan.baidu.com/s/1eS6WSl8
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: