干净的数据《数据清洗入门与实战》
2017-04-20 20:58
204 查看
1.数据科学过程
(1)问题陈述。识别出你要解决的问题是什么。
(2)数据收集与存储。数据从何而来?它们在哪里存放?格式又是什么?
(3)数据清洗。数据需要修改吗?有什么需要删除吗?数据应该怎么调整才能适用于接下来的分析和挖掘。
(4)数据分析和机器学习。数据需要哪些处理?需要怎样的转换?使用什么样的算法?运用什么样的公式?使用什么机器学习算法?顺序是怎样的?
(5)数据展现和可视化实现。数据处理结果应该怎样呈现出来?数据表、图画、图表、网络图、文字云、地图?最佳的可视化方案?更好的替代方案?
(6)问题决议。第一步问题的答案是什么?还有哪些不足?这个方法能彻底解决问题吗?接下来要做什么?
(1)问题陈述。识别出你要解决的问题是什么。
(2)数据收集与存储。数据从何而来?它们在哪里存放?格式又是什么?
(3)数据清洗。数据需要修改吗?有什么需要删除吗?数据应该怎么调整才能适用于接下来的分析和挖掘。
(4)数据分析和机器学习。数据需要哪些处理?需要怎样的转换?使用什么样的算法?运用什么样的公式?使用什么机器学习算法?顺序是怎样的?
(5)数据展现和可视化实现。数据处理结果应该怎样呈现出来?数据表、图画、图表、网络图、文字云、地图?最佳的可视化方案?更好的替代方案?
(6)问题决议。第一步问题的答案是什么?还有哪些不足?这个方法能彻底解决问题吗?接下来要做什么?
相关文章推荐
- 数据库(oracle)数据同步之物化视图(实战入门)
- Redis 视频教程 大数据 高性能 集群 NoSQL 设计 实战 入门 命令
- 《Python数据挖掘入门与实战》第四章电影推荐案例
- Linux存储入门:简易数据恢复方案--分区和LVM实战
- python3 [爬虫入门实战] 爬虫之爬取盘多多文档(百万数据)
- 硬盘数据恢复入门教程[四]----实战数据恢复篇
- python数据挖掘入门与实战——学习笔记(第1、2章)
- 从官方例子入手 (详解数据清洗)——kettle实战(5)
- CSDN学霸课表——从应用解析到基础实战,大数据入门、晋级课程推荐
- python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB
- Hadoop链式MapReduce、多维排序、倒排索引、自连接算法、二次排序、Join性能优化、处理员工信息Join实战、URL流量分析、TopN及其排序、求平均值和最大最小值、数据清洗ETL、分析气
- Hibernate实战数据持久化之二hibernate简单的入门实例
- Spark入门实战系列 图文教程 包含开发工具测试数据 源代码
- 机器学习-实战-入门-iris数据分析
- Mycat之——数据分片入门实战
- Dt大数据梦工厂王家林老师 Scala实战详解之第3讲 Tuple、Array、Map与文件操作入门实战
- [action]tensorflow 深度学习实战(1) deep learning 清洗数据
- 【备忘】 传智播客云计算大数据Hadoop2014全套高清入门基础到项目实战
- TensorFlow从入门到实战资料汇总 2017-02-02 06:08 | 数据派
- nba2014年数据获取——最近在读《Python数据挖掘入门与实战》