您的位置：首页 > 其它

定义数据挖掘任务

2015-08-28 21:48 489 查看

一个数据挖掘任务可以通过数据挖掘查询，它是数据挖掘系统的输入。数据挖掘查询用一下原语定义：

①任务相关数据：我想挖据什么数据集？

②我想挖掘什么知识？

③什么背景知识这里可能有用？

④哪些度量可以用来评估模式的兴趣度？

⑤我希望如何提供发现的模式？

一、任务相关的数据

这个原语说明了待挖掘的数据。通常，用户感兴趣的只是数据库的一个子集。在关系数据库中，任务相关的数据可以通过选择、投影和聚集等操作关系查询收集。这种数据提取可以看做是数据挖掘的子任务。数据收集过程产生一个新的数据关系，称作为：初始数据关系（视图）。这种可用于数据挖掘的数据集称作可挖掘的视图。

二、要挖掘的知识类型

说明挖掘什么类型的知识是非常重要的，因为这决定使用什么数据挖掘功能。知识类型包括：概念描述、分类/预测、聚类、关联和演变分析。

三、背景知识：概念分层

背景知识是关于数据挖掘领域的知识，它们在发现过程中是非常有用的。现在我们来看概念分层的背景知识上，概念分层允许在多个抽象层上发现知识。

概念分层定义了一组由低层概念集到高层概念集的映射。将较低层的概念（城市）映射到较高层更一般的概念（国家）。

概念分层是一种有用的背景知识形式，它使得原始数据可以在较高的、一般的抽象层上进行处理。数据的泛化或上卷可以通过用较高层概念替换较低层的概念。泛化的另一个优点是数据压缩。如果结果过于一般化，概念分层也允许下钻，概念值用较低层的概念替代。对于给定的属性或维，根据不同用户的观点，可能有多个概念分层。

概念分层可以划分为4种类型：

模式分层：是数据库模式属性间的全序或偏序。模式分层可以形式地表示属性间的语义联系。通常，一个模式分层是指数据仓库的一个维。

如：address：street<city<province<country

集合分组分层：是将给定的属性或维的值组织成常量组或区间值。组之间可以定义全序或偏序。

如：属性age的集合分组分层

{young,middle_aged,senior}=>all(age)

操作导出的分层：是根据用户、专家或数据挖掘系统说明的操作分层。操作可能包括信息编码串的解码，由复杂数据对象提取信息和数据聚类。

基于规则的概念分层：指整个概念分层或它的一部分由一组规则定义，并且根据当前数据库数据和规则定义动态地计算。

如：可以将商品分类为：low_profit_margin,medium_profit_margin,high_profit_margin,按照一定的规则。

四、兴趣度度量

尽管任务相关的数据和要挖掘的知识类型（如：特征和关联等），的说明可以大大减少产生规则的数量，数据挖掘过程仍可能产生大量模式。通常这些模式中只有一小部分是用户感兴趣的。这样用户需要进一步限制挖掘过程产生的不感兴趣的模式数量。这可以通过设定兴趣度来实现。

置信度和支持度。

五、数据挖掘查询语言（DMQL）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航