数据挖掘之原语、语言和系统结构学习笔记

数据挖掘原语、语言和系统结构

 

希望用户能够通过使用一组数据挖掘原语与数据挖掘系统通讯,以支持有效的和有成果的知识发现。这组原语包括说明数据库的部分或用户感兴趣的数据集(包括感兴趣的数据库属性或数据仓库维),要挖掘的知识类型,用于指导挖掘过程的背景知识,模式评估兴趣度量和如何显示所发现的知识。这些原语允许用户在知识发现时与数据挖掘系统通讯,从不同的角度和深度审查发现结果,并指导挖掘过程。

可以设计数据挖掘查询语言集成这些原语,允许用户自由地与数据挖掘系统交互。数据挖掘查询语言也为建立友好的图形用户界面提供了基础。此外,为了实现数据挖掘系统,一个精心设计的系统结构是非常重要的。这将有助于数据挖掘系统与其它信息系统通讯,有利于它与整个信息处理环境的集成

 

每个用户脑袋里都有一个数据挖掘任务,即,他想要进行的数据分析形式。一个数据挖掘任务可以用数据挖掘查询的形式说明,它是数据挖掘系统的输入

 

任务相关的数据:这是要考察的数据库部分。你还可以说明挖掘过程中需要考虑的感兴趣的属性。这些属性称为相关属性

 

要挖掘什么类型的知识:这是说明要执行的数据挖掘函数,如特征、区别、关联、分类、聚类或演变分析

 

背景知识:用户可以说明背景知识,或关于挖掘领域的知识。对于指导知识发现过程和评估发现的模式,这些知识是非常有用的。有多种类型的背景知识

 

兴趣度度量:这些功能用于将不感兴趣的模式从知识中分开。它们可以用于指导挖掘过程,或在挖掘之后,评估发现的模式。不同类型的知识需要不同的兴趣度度量。

 

发现模式的提供和可视化:这涉及发现模式的显示形式。用户可以选择不同的知识表现形式,如规则、表、图、判定树和数据方。

 

第一个原语是说明待挖掘的数据。通常,用户感兴趣的只是数据库的一个子集。不加区分地挖掘整个数据库是不现实的,特别是由于所产生的模式可能随数据库的大小指数地增长,使得挖掘过程效率很低。此外,所发现的许多模式与用户的兴趣无关。

在关系数据库中,任务相关的数据集可以通过涉及如选择、投影、连接和聚集等操作的关系查询来收集。这种数据提取可以认为是数据挖掘任务的一个“子任务”。数据收集过程产生一个新的数据关系,称作初始数据关系。初始数据关系可以根据查询中指定的条件排序或分组。在用于数据挖掘分析之前,数据可能被清理或转换(例如,在某些属性上聚集)。初始关系可以对应于,也可以不对应于数据库中的物理关系。由于虚拟关系在数据库领域称为视图,这种用于数据挖掘的任务相关的数据集称作可挖掘的视图。

 

 

说明挖掘什么类型的知识是非常重要的,因为这决定使用什么数据挖掘功能。知识类型包括概念描述(特征和区别)、关联、分类、预测、聚类和演变分析。

对于给定的数据挖掘任务,除说明要挖掘的知识类型外,用户可能想进一步说明和提供所有发现模式必须匹配的模式模板。这些模板,或元模式(又称元规则或元查询)可以用于指导发现过程。

 

尽管任务相关的数据和要挖掘的知识类型(例如,特征、关联等)的说明可以大幅度减少产生规则的数量,数据挖掘过程仍然可能产生大量模式。通常,这些模式中只有一小部分是特定用户感兴趣的。这样,用户需要进一步限制挖掘过程产生的不感兴趣的模式数量。这可以通过设定兴趣度度量来实现。兴趣度度量评估模式的简洁性、确定性、实用性和新颖性。

 

简洁性:模式兴趣度的一个重要因素是对于人的理解,模式的总体简洁性。模式简洁性的客观度量可以看作模式结构的函数,用模式的二进位位数,或属性数,或模式中出现的操作符数来定义。

关联、区别或分类规则的长度超过用户定义的阈值时,被认为是不感兴趣的。对于以判定树表达的模式,简洁性可以是树叶或树结点的个数的函数。

确定性:每个发现的模式都应当有一个表示其有效性或“值得信赖性”的确定性度量。对于形如“AÞ B”的关联规则,其确定性度量是置信度。给定一个任务相关的数据元组集合(或事务数据库事务的集合),“A Þ B”的置信度定义为:

confidence包含的元组数

 

置信度为100%或1 意味在数据分析时,该规则总是正确的。这种规则称为准确的。

对于分类规则,置信度称为可靠性或准确性。分类规则提出了一个模型,将目标类(如,bigSpenders)的对象或元组与对比类(如,budgetSpenders)的对象相区别。低可靠性表明不正确的分类,对比类的许多对象也在目标类中。规则的可靠性也称为规则的强度,规则的质量,确定性因子和区分权。

 

实用性:一个模式的潜在的有用性是定义其兴趣度的一个重要因素。它可以用一个实用性函数(如支持度)来评估。关联模式的支持度是模式为真的任务相关的元组(或事务)所占的百分比

 

同时满足用户定义的最小置信度阈值和最小支持度阈值的关联规则称为强关联规则,并认为是有趣的。具有较低支持度的规则多半是提供噪音,少见或例外的情况。

支持度定义的分子通常称作规则计数。我们常常显示该值而不是支持度。支持度容易由它导出。

特征和区分描述基本上是泛化元组。其代表的元组数少于整个任务相关元组数的Y%的泛化元组都被视为噪音。因此,这样的元组不向用户提供。Y 值称为噪音阈值。

新颖性:新颖的模式是那些提供信息或提高给定模式集性能的模式。

 

 

“如何‘观看’发现的模式?”数据挖掘要成为有效的,数据挖掘系统就应当能够以多种形式显示所发现的模式,如规则、表、交叉表、饼图或条图、判定树、数据方或其它可视化表示。

允许发现的模式以多种形式表示可以帮助不同背景的用户识别有趣的模式,并与系统交互或指导进一步的发现。用户应当能够指定用于显示发现模式的表示形式。

概念分层的使用在帮助用户观察发现的模式中起重要作用。

相关推荐