weka中的数据预处理
2010-08-29 10:29
399 查看
数据预处理包括数据的缺失值处理、标准化、规范化和离散化处理。
数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。
对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。
标准化(standardize):类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。
规范化(Nomalize):类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:但scale=2.0,translation=-1.0时,你能将属性值规范到区间[-1,+1]。
离散化(discretize):类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。
数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。
对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。
标准化(standardize):类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。
规范化(Nomalize):类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:但scale=2.0,translation=-1.0时,你能将属性值规范到区间[-1,+1]。
离散化(discretize):类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。
相关文章推荐
- 数据预处理和weka.filters的使用--数据挖掘学习和weka使用(三)
- weka数据预处理:使用weka将excel数据转换为arff格式数据
- 数据预处理和weka.filters的使用--数据挖掘学习和weka使用
- weka数据挖掘之预处理
- 数据预处理和weka.filters的使用--数据挖掘学习和weka使用(三)
- 使用Weka进行数据挖掘(Weka教程五)Weka数据预处理之Filter使用
- 数据预处理和weka.filters的使用
- Weka学习2-数据预处理
- weka进行数据预处理
- weka---数据预处理
- 【读书笔记-数据挖掘概念与技术】数据预处理
- 从数据预处理开始学习网络可视化——社团发现算法
- weka数据挖掘拾遗(三)----再谈如果何生成arff
- 用 WEKA 进行数据挖掘,第 3 部分: 最近邻和程序库
- 数据预处理(2) ——数据变换与数据离散化 使用python(sklearn,pandas,numpy)实现
- Weka -- 数据格式基本介绍
- Scikit-learn:数据预处理Preprocessing data
- 用 WEKA 进行数据挖掘,第 1 部分: 简介和回归
- sklearn 数据预处理1: StandardScaler
- 数据挖掘(4):使用weka做关联规则挖掘