您的位置：首页 > 其它

数据挖掘入门第二篇数据与数据预处理

2019-01-14 18:52 106 查看

·属性：对象的性质或特征。

·测量表度：将数值或符号之与对象的属性相关联的规则（函数）。

·属性类型：分类的（categorical）/定性的（qualitative）：标称（nominal）（二元）、序数（ordinal）

定量的（quantitative）/数值的(numeric)：区间（interval）、比率（ratio）。

·数据集的特征：维度、稀疏性（零/非零）、分辨率（注：精度）。

·数据集的类型：记录数据（实物数据/购物篮数据、数据矩阵、稀疏数据矩阵）、基于图形的数据（带有对象之间联系的数据、具有图形对象的数据）、有序的数据（时序数据、序列数据、时间序列数据）。

·数据挖掘的两个目标：数据质量问题的检测和纠正、使用可以容忍低质量数据的算法。

·测量误差、噪声和伪像

·精度（precision）、偏倚（bias）、准确率（accuracy）

·离群点（异常）、遗漏值（删除数据对象或属性、估计遗漏值、在分时忽略遗漏值）、不一致的值、重复数据。

基于像素的可视化技术（颜色深浅）、几何投影可视化技术（多维度不同符号）、基于图符的可视化技术（画画）、层次可视化技术（更高维分层次）、可视化复杂对象和关系（图）

· 数据质量的因素（3+3）：准确性、完整性、一致性。时效性、可信性、可解释性

· 主要任务/步骤：数据清理data cleaning、数据集成data integrations、数据规约data reduction、数据变换data transformation。

· 数据清洗有多种方法，最常用的是使用最可能的值填充缺失值，比如回归、贝叶斯方法、决策树等。

· 数据集成：实体识别问题、冗余和相关分析（标称数据：卡方检验；数值数据：Pearson积矩关系、协方差）、元组重复、数据值冲突的检测与处理。

*相似度与相异度：距离。相似系数、简单匹配系数、Jaccard系数；余弦相似度；广义Jaccard系数，相关性。邻近度（Mahalanobis距离）

· 数据规约：策略：维归约（减少属性个数）、数量规约（采用较小的表现形式）、数据压缩（变换）；抽样（自适应的）。

小波变换、主成分分析、属性子集选择（向前/向后）、回归和对数线性模型：参数化数据规约、直方图、聚类、抽样、数据立方体聚集。

· 数据变换与数据离散化：策略：光滑（去掉噪音）、属性构造（添加新属性）、简单函数、聚集、规范化、离散化（用区间代替、二元化）、由标称数据产生概念分层（）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

数据挖掘入门 第二篇 数据与数据预处理