您的位置：首页 > 产品设计 > UI/UE

A Comprehensive Guide to Data Exploration（数据探索的综合指南）

2017-09-06 10:25 459 查看

1.数据探索和准备步骤

2.丢失数据的处理

2.1为什么需要处理数据丢失是必要的？

2.2为什么数据会丢失？

2.3处理丢失数据的方法

3.离群检测和处理技术

3.1什么是离群点

3.2离群点的类型

3.3离群点出现的原因

3.4离群点对数据集的影响

3.5怎么检测离群点

3.6怎么去除离群点

4.特征工程的艺术

4.1什么是特征工程

4.2特征工程的步骤

4.3什么是变量转换？

4.4什么时候我们用变量转换

4.5变量转换的普遍方法

4.6特征变量的创造和优势

开启一段新的旅程

1.数据探索和准备步骤

记住一点，我们输入的数据的质量决定了我们输出的质量，因此，一旦你拿到了你的业务准备，是值得花费时间和精力在这上面的。根据我个人的经验而言，数据探索、清洗和准备能耗费整个项目的70%的时间。下面是为建立你的预测性模型所做的数据理解、清洗和准备工作：

1.1变量识别

1.2单变量分析

1.3双变量分析

1.4丢失数据处理

1.5离群点检测

1.6变量转换

1.7变量创造

最终，我们将需要在提出我们的模型之前重复步骤4-7多次

现在让我们从每个步骤的细节学起

变量识别

首先，搞明白自变量（predictor（input））和因变量（target（output））。下一步，清楚数据类型和变量类别

让我们通过一个例子更清楚的理解这个步骤：

Example：-假设，我们要预测学生是否将会打板球（参考下面的数据集），这里你将需要识别自变量、因变量、变量的数据类型和变量类别（连续还是离散）

下面，变量从不同的类别区分

单变量分析

这个阶段，我们一个一个的探索变量，表现单变量分析的方法取决于变量类型是离散的还是连续的。分别介绍下表现离散和连续变量的技术和统计方法

Continuous Variables（连续型变量）:-对于连续型变量，我们需要理解中心趋势（未完）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

A Comprehensive Guide to Data Exploration（数据探索的综合指南）

目录：

1.数据探索和准备步骤

变量识别

单变量分析