您的位置:首页 > 其它

数据挖掘入门 第二篇 数据与数据预处理

2019-01-14 18:52 106 查看

1.数据类型

·属性:对象的性质或特征。

·测量表度:将数值或符号之与对象的属性相关联的规则(函数)。

·属性类型:分类的(categorical)/定性的(qualitative):标称(nominal)(二元)、序数(ordinal)

                   定量的(quantitative)/数值的(numeric):区间(interval)、比率(ratio)。

·数据集的特征:维度、稀疏性(零/非零)、分辨率(注:精度)。

·数据集的类型:记录数据(实物数据/购物篮数据、数据矩阵、稀疏数据矩阵)、基于图形的数据(带有对象之间联系的数据、具有图形对象的数据)、有序的数据(时序数据、序列数据、时间序列数据)。

 

2.数据质量

·数据挖掘的两个目标:数据质量问题的检测和纠正、使用可以容忍低质量数据的算法。

·测量误差、噪声和伪像

·精度(precision)、偏倚(bias)、准确率(accuracy)

·离群点(异常)、遗漏值(删除数据对象或属性、估计遗漏值、在分时忽略遗漏值)、不一致的值、重复数据。

 

3.数据可视化

基于像素的可视化技术(颜色深浅)、几何投影可视化技术(多维度不同符号)、基于图符的可视化技术(画画)、层次可视化技术(更高维分层次)、可视化复杂对象和关系(图)

 

4.数据预处理

· 数据质量的因素(3+3):准确性、完整性、一致性。时效性、可信性、可解释性

· 主要任务/步骤:数据清理data cleaning、数据集成data integrations、数据规约data reduction、数据变换data transformation。

· 数据清洗有多种方法,最常用的是使用最可能的值填充缺失值,比如回归、贝叶斯方法、决策树等。

· 数据集成:实体识别问题、冗余和相关分析(标称数据:卡方检验;数值数据:Pearson积矩关系、协方差)、元组重复、数据值冲突的检测与处理。

   *相似度与相异度:距离。相似系数、简单匹配系数、Jaccard系数;余弦相似度;广义Jaccard系数,相关性。邻近度(Mahalanobis距离)

· 数据规约:策略:维归约(减少属性个数)、数量规约(采用较小的表现形式)、数据压缩(变换);抽样(自适应的)。

                    小波变换、主成分分析、属性子集选择(向前/向后)、回归和对数线性模型:参数化数据规约、直方图、聚类、抽样、数据立方体聚集。

· 数据变换与数据离散化:策略:光滑(去掉噪音)、属性构造(添加新属性)、简单函数、聚集、规范化、离散化(用区间代替、二元化)、由标称数据产生概念分层()

 

 

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: