您的位置:首页 > 其它

定义数据挖掘任务

2015-08-28 21:48 489 查看
一个数据挖掘任务可以通过数据挖掘查询,它是数据挖掘系统的输入。数据挖掘查询用一下原语定义:

①任务相关数据:我想挖据什么数据集?

②我想挖掘什么知识?

③什么背景知识这里可能有用?

④哪些度量可以用来评估模式的兴趣度?

⑤我希望如何提供发现的模式?

一、任务相关的数据

这个原语说明了待挖掘的数据。通常,用户感兴趣的只是数据库的一个子集。在关系数据库中,任务相关的数据可以通过选择、投影和聚集等操作关系查询收集。这种数据提取可以看做是数据挖掘的子任务。数据收集过程产生一个新的数据关系,称作为:初始数据关系(视图)。这种可用于数据挖掘的数据集称作可挖掘的视图。

二、要挖掘的知识类型

说明挖掘什么类型的知识是非常重要的,因为这决定使用什么数据挖掘功能。知识类型包括:概念描述、分类/预测、聚类、关联和演变分析。

三、背景知识:概念分层

背景知识是关于数据挖掘领域的知识,它们在发现过程中是非常有用的。现在我们来看概念分层的背景知识上,概念分层允许在多个抽象层上发现知识。

概念分层定义了一组由低层概念集到高层概念集的映射。将较低层的概念(城市)映射到较高层更一般的概念(国家)。

概念分层是一种有用的背景知识形式,它使得原始数据可以在较高的、一般的抽象层上进行处理。数据的泛化或上卷可以通过用较高层概念替换较低层的概念。泛化的另一个优点是数据压缩。如果结果过于一般化,概念分层也允许下钻,概念值用较低层的概念替代。对于给定的属性或维,根据不同用户的观点,可能有多个概念分层。

概念分层可以划分为4种类型:

模式分层:是数据库模式属性间的全序或偏序。模式分层可以形式地表示属性间的语义联系。通常,一个模式分层是指数据仓库的一个维。

如:address:street<city<province<country

集合分组分层:是将给定的属性或维的值组织成常量组或区间值。组之间可以定义全序或偏序。

如:属性age的集合分组分层

{young,middle_aged,senior}=>all(age)

操作导出的分层:是根据用户、专家或数据挖掘系统说明的操作分层。操作可能包括信息编码串的解码,由复杂数据对象提取信息和数据聚类。

基于规则的概念分层:指整个概念分层或它的一部分由一组规则定义,并且根据当前数据库数据和规则定义动态地计算。

如:可以将商品分类为:low_profit_margin,medium_profit_margin,high_profit_margin,按照一定的规则。

四、兴趣度度量

尽管任务相关的数据和要挖掘的知识类型(如:特征和关联等),的说明可以大大减少产生规则的数量,数据挖掘过程仍可能产生大量模式。通常这些模式中只有一小部分是用户感兴趣的。这样用户需要进一步限制挖掘过程产生的不感兴趣的模式数量。这可以通过设定兴趣度来实现。

置信度和支持度。

五、数据挖掘查询语言(DMQL)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: