A Comprehensive Guide to Data Exploration(数据探索的综合指南)
2017-09-06 10:25
459 查看
目录:
1.数据探索和准备步骤2.丢失数据的处理
2.1为什么需要处理数据丢失是必要的?
2.2为什么数据会丢失?
2.3处理丢失数据的方法
3.离群检测和处理技术
3.1什么是离群点
3.2离群点的类型
3.3离群点出现的原因
3.4离群点对数据集的影响
3.5怎么检测离群点
3.6怎么去除离群点
4.特征工程的艺术
4.1什么是特征工程
4.2特征工程的步骤
4.3什么是变量转换?
4.4什么时候我们用变量转换
4.5变量转换的普遍方法
4.6特征变量的创造和优势
开启一段新的旅程
1.数据探索和准备步骤
记住一点,我们输入的数据的质量决定了我们输出的质量,因此,一旦你拿到了你的业务准备,是值得花费时间和精力在这上面的。根据我个人的经验而言,数据探索、清洗和准备能耗费整个项目的70%的时间。下面是为建立你的预测性模型所做的数据理解、清洗和准备工作:1.1变量识别
1.2单变量分析
1.3双变量分析
1.4丢失数据处理
1.5离群点检测
1.6变量转换
1.7变量创造
最终,我们将需要在提出我们的模型之前重复步骤4-7多次
现在让我们从每个步骤的细节学起
变量识别
首先,搞明白自变量(predictor(input))和因变量(target(output))。下一步,清楚数据类型和变量类别让我们通过一个例子更清楚的理解这个步骤:
Example:-假设,我们要预测学生是否将会打板球(参考下面的数据集),这里你将需要识别自变量、因变量、变量的数据类型和变量类别(连续还是离散)
下面,变量从不同的类别区分
单变量分析
这个阶段,我们一个一个的探索变量,表现单变量分析的方法取决于变量类型是离散的还是连续的。分别介绍下表现离散和连续变量的技术和统计方法Continuous Variables(连续型变量):-对于连续型变量,我们需要理解中心趋势(未完)
相关文章推荐
- 数据挖掘和统计学的区别(guide to Intelligent data analysis学习笔记)
- 高维数据探索 (High-Dimensional Data Exploration)
- How to Diagnose Oracle Data Pump-如何给数据泵添加诊断信息
- A Comprehensive Guide to Installing and Configuring OpenCV 2.4.2 on Ubuntu
- Xqk.Data开发指南:如何自定义数据列
- JsonToKotlin(Kotlin开发神器)----Json数据示例直接生成Kotlin Data Class 开发插件
- Providing vertex data to vertex programs //为顶点程序提供顶点数据
- Java Object to Data Model Data Type Mapping, java数据类型与数据库数据类型的对应
- 用Python和OpenCV创建一个图片搜索引擎的完整指南 The complete guide to building an image search engine with Python and
- what we need to learn durning the period of bigdata(数据科学家)
- DataRabbit 轻量的数据访问框架(14)-- DataRabbit 3.0 与 Linq to sql 性能比较
- 如何阅读英文数据手册(How to read a datasheet)
- A Comprehensive guide to Fine-tuning Deep Learning Models in Keras
- (ros/navigation)how to build a map using logged data 怎样用记录的数据创建地图
- Context3D类中的drawToBitmapData方法(将GPU缓冲区数据写到位图中)
- 递归神经网络(RNN,Recurrent Neural Networks)和反向传播的指南 A guide to recurrent neural networks and backpropagation(转载)
- iOS Core Data 数据迁移 指南
- How To Load CSV Machine Learning Data in Weka (如何在Weka中加载CSV机器学习数据)
- Techno Security's Guide to E-Discovery and Digital Forensics: A Comprehensive Handbook
- ScottGu's 博客之--LINQ to SQL 第二部分-定义数据模型类--LINQ to SQL (Part 2 - Defining our Data Model Classes)