数据挖掘入门 第二篇 数据与数据预处理
1.数据类型
·属性:对象的性质或特征。
·测量表度:将数值或符号之与对象的属性相关联的规则(函数)。
·属性类型:分类的(categorical)/定性的(qualitative):标称(nominal)(二元)、序数(ordinal)
定量的(quantitative)/数值的(numeric):区间(interval)、比率(ratio)。
·数据集的特征:维度、稀疏性(零/非零)、分辨率(注:精度)。
·数据集的类型:记录数据(实物数据/购物篮数据、数据矩阵、稀疏数据矩阵)、基于图形的数据(带有对象之间联系的数据、具有图形对象的数据)、有序的数据(时序数据、序列数据、时间序列数据)。
2.数据质量
·数据挖掘的两个目标:数据质量问题的检测和纠正、使用可以容忍低质量数据的算法。
·测量误差、噪声和伪像
·精度(precision)、偏倚(bias)、准确率(accuracy)
·离群点(异常)、遗漏值(删除数据对象或属性、估计遗漏值、在分时忽略遗漏值)、不一致的值、重复数据。
3.数据可视化
基于像素的可视化技术(颜色深浅)、几何投影可视化技术(多维度不同符号)、基于图符的可视化技术(画画)、层次可视化技术(更高维分层次)、可视化复杂对象和关系(图)
4.数据预处理
· 数据质量的因素(3+3):准确性、完整性、一致性。时效性、可信性、可解释性
· 主要任务/步骤:数据清理data cleaning、数据集成data integrations、数据规约data reduction、数据变换data transformation。
· 数据清洗有多种方法,最常用的是使用最可能的值填充缺失值,比如回归、贝叶斯方法、决策树等。
· 数据集成:实体识别问题、冗余和相关分析(标称数据:卡方检验;数值数据:Pearson积矩关系、协方差)、元组重复、数据值冲突的检测与处理。
*相似度与相异度:距离。相似系数、简单匹配系数、Jaccard系数;余弦相似度;广义Jaccard系数,相关性。邻近度(Mahalanobis距离)
· 数据规约:策略:维归约(减少属性个数)、数量规约(采用较小的表现形式)、数据压缩(变换);抽样(自适应的)。
小波变换、主成分分析、属性子集选择(向前/向后)、回归和对数线性模型:参数化数据规约、直方图、聚类、抽样、数据立方体聚集。
· 数据变换与数据离散化:策略:光滑(去掉噪音)、属性构造(添加新属性)、简单函数、聚集、规范化、离散化(用区间代替、二元化)、由标称数据产生概念分层()
- Python数据挖掘入门与实践(二)——scikit-learn数据的预处理转换器以及流水线
- Python数据挖掘入门与实践 第三章 用决策树预测获胜球队(一)pandas的数据预处理与决策树(Decision tree)
- Python数据挖掘入门与实践 第二章2.2 流水线在预处理中的应用
- 《数据挖掘与商务分析R语言》-1-数据预处理-R语言-Lattice包-条形图
- 数据分析与数据挖掘 入门
- 【数据挖掘】最优化算法入门
- 数据挖掘--数据预处理--抽样与降维
- 数据预处理和weka.filters的使用--数据挖掘学习和weka使用(三)
- python 数据挖掘基础 入门
- 《Python数据挖掘入门与实践》—— 学习笔记(一)
- 数据挖掘-分词入门
- Python数据挖掘入门与实践(一)——亲和性分析
- 数据挖掘技术(一)——预处理
- 数据挖掘-推荐算法入门
- 叶梓老师开讲人工智能入门-R语言数据分析与数据挖掘-16
- 【SPMF开源数据挖掘平台入门】MaxSP算法使用说明
- java代码带你玩玩数据挖掘之分词入门
- 叶梓老师开讲人工智能入门-R语言数据分析与数据挖掘30
- 数据挖掘入门——分词
- 【问底】严澜:数据挖掘入门——分词