定义数据挖掘任务
2015-08-28 21:48
489 查看
一个数据挖掘任务可以通过数据挖掘查询,它是数据挖掘系统的输入。数据挖掘查询用一下原语定义:
①任务相关数据:我想挖据什么数据集?
②我想挖掘什么知识?
③什么背景知识这里可能有用?
④哪些度量可以用来评估模式的兴趣度?
⑤我希望如何提供发现的模式?
一、任务相关的数据
这个原语说明了待挖掘的数据。通常,用户感兴趣的只是数据库的一个子集。在关系数据库中,任务相关的数据可以通过选择、投影和聚集等操作关系查询收集。这种数据提取可以看做是数据挖掘的子任务。数据收集过程产生一个新的数据关系,称作为:初始数据关系(视图)。这种可用于数据挖掘的数据集称作可挖掘的视图。
二、要挖掘的知识类型
说明挖掘什么类型的知识是非常重要的,因为这决定使用什么数据挖掘功能。知识类型包括:概念描述、分类/预测、聚类、关联和演变分析。
三、背景知识:概念分层
背景知识是关于数据挖掘领域的知识,它们在发现过程中是非常有用的。现在我们来看概念分层的背景知识上,概念分层允许在多个抽象层上发现知识。
概念分层定义了一组由低层概念集到高层概念集的映射。将较低层的概念(城市)映射到较高层更一般的概念(国家)。
概念分层是一种有用的背景知识形式,它使得原始数据可以在较高的、一般的抽象层上进行处理。数据的泛化或上卷可以通过用较高层概念替换较低层的概念。泛化的另一个优点是数据压缩。如果结果过于一般化,概念分层也允许下钻,概念值用较低层的概念替代。对于给定的属性或维,根据不同用户的观点,可能有多个概念分层。
概念分层可以划分为4种类型:
模式分层:是数据库模式属性间的全序或偏序。模式分层可以形式地表示属性间的语义联系。通常,一个模式分层是指数据仓库的一个维。
如:address:street<city<province<country
集合分组分层:是将给定的属性或维的值组织成常量组或区间值。组之间可以定义全序或偏序。
如:属性age的集合分组分层
{young,middle_aged,senior}=>all(age)
操作导出的分层:是根据用户、专家或数据挖掘系统说明的操作分层。操作可能包括信息编码串的解码,由复杂数据对象提取信息和数据聚类。
基于规则的概念分层:指整个概念分层或它的一部分由一组规则定义,并且根据当前数据库数据和规则定义动态地计算。
如:可以将商品分类为:low_profit_margin,medium_profit_margin,high_profit_margin,按照一定的规则。
四、兴趣度度量
尽管任务相关的数据和要挖掘的知识类型(如:特征和关联等),的说明可以大大减少产生规则的数量,数据挖掘过程仍可能产生大量模式。通常这些模式中只有一小部分是用户感兴趣的。这样用户需要进一步限制挖掘过程产生的不感兴趣的模式数量。这可以通过设定兴趣度来实现。
置信度和支持度。
五、数据挖掘查询语言(DMQL)
①任务相关数据:我想挖据什么数据集?
②我想挖掘什么知识?
③什么背景知识这里可能有用?
④哪些度量可以用来评估模式的兴趣度?
⑤我希望如何提供发现的模式?
一、任务相关的数据
这个原语说明了待挖掘的数据。通常,用户感兴趣的只是数据库的一个子集。在关系数据库中,任务相关的数据可以通过选择、投影和聚集等操作关系查询收集。这种数据提取可以看做是数据挖掘的子任务。数据收集过程产生一个新的数据关系,称作为:初始数据关系(视图)。这种可用于数据挖掘的数据集称作可挖掘的视图。
二、要挖掘的知识类型
说明挖掘什么类型的知识是非常重要的,因为这决定使用什么数据挖掘功能。知识类型包括:概念描述、分类/预测、聚类、关联和演变分析。
三、背景知识:概念分层
背景知识是关于数据挖掘领域的知识,它们在发现过程中是非常有用的。现在我们来看概念分层的背景知识上,概念分层允许在多个抽象层上发现知识。
概念分层定义了一组由低层概念集到高层概念集的映射。将较低层的概念(城市)映射到较高层更一般的概念(国家)。
概念分层是一种有用的背景知识形式,它使得原始数据可以在较高的、一般的抽象层上进行处理。数据的泛化或上卷可以通过用较高层概念替换较低层的概念。泛化的另一个优点是数据压缩。如果结果过于一般化,概念分层也允许下钻,概念值用较低层的概念替代。对于给定的属性或维,根据不同用户的观点,可能有多个概念分层。
概念分层可以划分为4种类型:
模式分层:是数据库模式属性间的全序或偏序。模式分层可以形式地表示属性间的语义联系。通常,一个模式分层是指数据仓库的一个维。
如:address:street<city<province<country
集合分组分层:是将给定的属性或维的值组织成常量组或区间值。组之间可以定义全序或偏序。
如:属性age的集合分组分层
{young,middle_aged,senior}=>all(age)
操作导出的分层:是根据用户、专家或数据挖掘系统说明的操作分层。操作可能包括信息编码串的解码,由复杂数据对象提取信息和数据聚类。
基于规则的概念分层:指整个概念分层或它的一部分由一组规则定义,并且根据当前数据库数据和规则定义动态地计算。
如:可以将商品分类为:low_profit_margin,medium_profit_margin,high_profit_margin,按照一定的规则。
四、兴趣度度量
尽管任务相关的数据和要挖掘的知识类型(如:特征和关联等),的说明可以大大减少产生规则的数量,数据挖掘过程仍可能产生大量模式。通常这些模式中只有一小部分是用户感兴趣的。这样用户需要进一步限制挖掘过程产生的不感兴趣的模式数量。这可以通过设定兴趣度来实现。
置信度和支持度。
五、数据挖掘查询语言(DMQL)
相关文章推荐
- 2015.08.28 C++笔记
- 附一、MDT 2013 Update 1 引导镜像生成出错的解决办法
- 读书笔记之linux/unix系统编程手册(30)
- Android设置系统时区
- 数据挖掘-客户倾向分析
- 数据结构:循环队列(队列的顺序表示)
- eclipse import 工程出现错误怎么办
- Android中的几种网络请求方式详解
- iOS UIImagePickerController拍照与摄像
- 统计学习方法 -> 朴素贝叶斯算法
- Core Text
- hadoop源代码解读
- vim基础
- 让人自由才是真的好
- 流失分析中需要注意的问题
- 对象间的联动——观察者模式与Java事件处理(五)
- poll函数
- 【EXT-BSGS算法求离散对数】POJ Clever Y 3243
- Lua中只读表和只允许修改表
- js跑马灯效果