数据挖掘竞赛题目 -- 文本分类
2016-06-14 11:10
429 查看
从某公众号看到两个题目, 逻辑挺简单, 现在记录下来, 有时间琢磨琢磨(数据在文末).
C000007 汽车
C000008 财经
C000010 IT
C000013 健康
C000014 体育
C000016 旅游
C000020 教育
C000022 招聘
C000023 文化
C000024 军事
在Data文件夹中有训练数据集(train)及测试数据集(test),其中train目录中是已经分类好的文档,每个类别中有6000个文档,而test目录中共包含20000个所有类别的文档,需要参赛者设计算法进行自动归类。
提交最终分类结果,即将test中的各个文档自动划分到C000007、C000008、….、 C000024等目录后打包提交.
F1=2P∗RP+R,P是准确率,R是召回率
对于每个类别分别单独计算其F1值,然后求10个类别的F1平均值作为最终评分结果。
数据链接: http://pan.baidu.com/s/1eS6WSl8
竞赛简介
使用搜狗语料库进行自动文本分类数据描述
新闻语料中类别与目录的对应关系如下,共十大类别:C000007 汽车
C000008 财经
C000010 IT
C000013 健康
C000014 体育
C000016 旅游
C000020 教育
C000022 招聘
C000023 文化
C000024 军事
在Data文件夹中有训练数据集(train)及测试数据集(test),其中train目录中是已经分类好的文档,每个类别中有6000个文档,而test目录中共包含20000个所有类别的文档,需要参赛者设计算法进行自动归类。
任务描述
构建优秀的分类器,将test目录中文档进行自动归类提交最终分类结果,即将test中的各个文档自动划分到C000007、C000008、….、 C000024等目录后打包提交.
评价标准
评分算法:F1-Measure:F1=2P∗RP+R,P是准确率,R是召回率
对于每个类别分别单独计算其F1值,然后求10个类别的F1平均值作为最终评分结果。
数据链接: http://pan.baidu.com/s/1eS6WSl8
相关文章推荐
- 动态规划之01背包问题(最易理解的讲解)
- 5.django笔记之form保存表单信息,动态select
- Android图表开发——AChartEngine
- jquery插件集
- 用Qt Designer创建ui后,记得修改objectName
- Android中的Drawable资源—— NinePatchDrawable
- 计算机与经济学:天造地设的一对
- 机器学习的应用
- spring-shiro(权限、用户认证配置)
- 全面理解Unity动态加载和内存管理
- 定义一个函数subsamp,输入为彩色图像文件名,输出并显示尺寸减半的彩色 图像(原始、水平翻转、垂直翻转、中心区域变红)。必须使用控制语句,在命令窗口成功调用!
- QtQuick学习笔记之QML键盘Keys事件
- linux yum命令详解
- 算法--查找--散列表查找
- Ubuntu安装MySQL
- Swift Optionals: When to use if let, when ? and !, when as? and as
- 灰度图像归一化到0~255(对比度拉伸)的OpenCV代码实现
- 创建Material Design风格的Android应用--使用自定义动画
- opencv类型转换
- hdu1022栈的应用