您的位置:首页 > 产品设计 > UI/UE

A Comprehensive Guide to Data Exploration(数据探索的综合指南)

2017-09-06 10:25 459 查看

目录:

1.数据探索和准备步骤

2.丢失数据的处理

  2.1为什么需要处理数据丢失是必要的?

  2.2为什么数据会丢失?

  2.3处理丢失数据的方法

3.离群检测和处理技术

  3.1什么是离群点

  3.2离群点的类型

  3.3离群点出现的原因

  3.4离群点对数据集的影响

  3.5怎么检测离群点

  3.6怎么去除离群点

4.特征工程的艺术

  4.1什么是特征工程

  4.2特征工程的步骤

  4.3什么是变量转换?

  4.4什么时候我们用变量转换

  4.5变量转换的普遍方法

  4.6特征变量的创造和优势

开启一段新的旅程

1.数据探索和准备步骤

记住一点,我们输入的数据的质量决定了我们输出的质量,因此,一旦你拿到了你的业务准备,是值得花费时间和精力在这上面的。根据我个人的经验而言,数据探索、清洗和准备能耗费整个项目的70%的时间。下面是为建立你的预测性模型所做的数据理解、清洗和准备工作:

1.1变量识别

1.2单变量分析

1.3双变量分析

1.4丢失数据处理

1.5离群点检测

1.6变量转换

1.7变量创造

最终,我们将需要在提出我们的模型之前重复步骤4-7多次

现在让我们从每个步骤的细节学起

变量识别

首先,搞明白自变量(predictor(input))和因变量(target(output))。下一步,清楚数据类型和变量类别

让我们通过一个例子更清楚的理解这个步骤:

Example:-假设,我们要预测学生是否将会打板球(参考下面的数据集),这里你将需要识别自变量、因变量、变量的数据类型和变量类别(连续还是离散)



下面,变量从不同的类别区分



单变量分析

这个阶段,我们一个一个的探索变量,表现单变量分析的方法取决于变量类型是离散的还是连续的。分别介绍下表现离散和连续变量的技术和统计方法

Continuous Variables(连续型变量):-对于连续型变量,我们需要理解中心趋势(未完)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐