大数据和数据挖掘有什么关系
2017-04-26 10:42
369 查看
数据挖掘基于数据库理论,机器学习,人工智能,现代统计学的迅速发展的交叉学科,在很多领域中都有应用。涉及到很多的算法,源于机器学习的神经网络,决策树,也有基于统计学习理论的支持向量机,分类回归树,和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。
大数据是今年提出来,也是媒体忽悠的一个概念。有三个重要的特征:数据量大,结构复杂,数据更新速度很快。由于Web技术的发展,web用户产生的数据自动保存、传感器也在不断收集数据,以及移动互联网的发展,数据自动收集、存储的速度在加快,全世界的数据量在不断膨胀,数据的存储和计算超出了单个计算机(小型机和大型机)的能力,这给数据挖掘技术的实施提出了挑战(一般而言,数据挖掘的实施基于一台小型机或大型机,也可以进行并行计算)。Google提出了分布式存储文件系统,发展出后来的云存储和云计算的概念。
大数据需要映射为小的单元进行计算,再对所有的结果进行整合,就是所谓的map-reduce算法框架。在单个计算机上进行的计算仍然需要采用一些数据挖掘技术,区别是原先的一些数据挖掘技术不一定能方便地嵌入到 map-reduce 框架中,有些算法需要调整。
此外,大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上,而在大数据时代,可能得到的是总体,而不再是总体的不放回抽样。
作者:叶开
来源:知乎
大数据是今年提出来,也是媒体忽悠的一个概念。有三个重要的特征:数据量大,结构复杂,数据更新速度很快。由于Web技术的发展,web用户产生的数据自动保存、传感器也在不断收集数据,以及移动互联网的发展,数据自动收集、存储的速度在加快,全世界的数据量在不断膨胀,数据的存储和计算超出了单个计算机(小型机和大型机)的能力,这给数据挖掘技术的实施提出了挑战(一般而言,数据挖掘的实施基于一台小型机或大型机,也可以进行并行计算)。Google提出了分布式存储文件系统,发展出后来的云存储和云计算的概念。
大数据需要映射为小的单元进行计算,再对所有的结果进行整合,就是所谓的map-reduce算法框架。在单个计算机上进行的计算仍然需要采用一些数据挖掘技术,区别是原先的一些数据挖掘技术不一定能方便地嵌入到 map-reduce 框架中,有些算法需要调整。
此外,大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上,而在大数据时代,可能得到的是总体,而不再是总体的不放回抽样。
作者:叶开
来源:知乎
相关文章推荐
- 机器学习、统计分析、数据挖掘、神经网络、人工智能、模式识别之间的关系是什么?
- 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?
- 数据仓库,olap与数据挖掘之间的关系
- 鹦鹉学舌之数据挖掘1:什么是数据挖掘
- 联机分析处理(OLAP)与数据挖掘的关系
- 什么是数据挖掘
- 数据挖掘与统计学的关系
- [导入] 什么是数据挖掘?
- 图说“什么是数据挖掘”
- 数据挖掘——我们能从股市数据得出什么,以及一些算法
- 数据挖掘是什么
- 图说“什么是数据挖掘”
- 数据挖掘( Data Mining )和统计学:有什么联系?
- 数据挖掘是什么
- 数据挖掘、机器学习和模式识别关系与区别
- 数据挖掘是什么?
- 什么是数据挖掘
- 什么是数据挖掘?
- 什么是数据挖掘?
- 什么叫精粒度对象模型,什么叫粗粒度关系数据模型?