『数据挖掘』什么样的数据才能称得上是大数据?
2016-02-18 20:28
246 查看
在我看来,只有数据量很大且数据维度全的数据才能够称得上是大数据。
为什么数据量必须得要大?
这是因为如果我们使用局部样本来代替整体的时候,可能会由于局部样本不能够完全反映整体,从而导致我们对整体的真实情况的认知造成偏差。例如当我们以贴吧和网易的用户素质来作为全体网民的整体素质,显然会造成我们对整体网民素质的认知要远比真实的素质要低,而如果用知乎来代替整体,则也会造成偏高的情况。
所以样本代替整体必然会产生偏差。而随着科技的发展,我们已经能够直接使用整体数据来对整体进行数据挖掘了,既然如此那么我们为何不直接使用整体数据进行数据挖掘呢,对吧?
虽然我们已经明白数据量必须要大的重要性,那么对于数据挖掘什么才叫大呢?
例如我们要研究B站上的二次元群体的用户行为,但是我们手上却只有知乎、贴吧、微信、QQ等的大数据,这对于我们来说,这样的大数据并没有任何意义,同样对于我们的目的来说,这样的大数据其实是小数据。
因此所谓的大数据应当是覆盖我们的研究对象的全体对象的数据,如果这些数据不能覆盖、也跟我们所研究的对象无关,那么这些数据就不是大数据。
为什么数据维度必须要全?
试想即使我们获取了6亿网民的数据,但是数据维度只有年龄这一个维度,那么我们除了能够分析网民的年龄构成之外,就再也做不了其它的事了。这样的大数据对于我们来说并没有多大的意义,也很难产生商业价值。换言之,如果数据维度很全,我们所要研究的维度数据都有,那么我们就能进行我们想要进行的数据挖掘,这对于我们来说才有意义,也更容易产生商业价值。
数据维度全既可以用于整体数据挖掘(宏观)也可以用于个体数据挖掘(微观)
事实上目前的数据挖掘都是偏向宏观的,所以这里不再赘述。主要谈谈微观的数据挖掘。
微观数据挖掘是什么意思?理论基础是什么?
微观数据挖掘是在数据维度极全的基础上(这是前提条件)对一个人或极少数人进行数据挖掘,目的是能够通过数据来对这个人到底是什么样的人构建一个模型,这个模型应当能够比较准确地预测对象的行为。如果不太理解的话,可以去看看《心理测量者》
理论基础是行为心理学,我们认为一个人是什么样的人不取决于他认为自己是个怎么样的人,而是取决于他的行为,而他的行为可以被量化成数据,而我们可以利用数据构建模型来拟合这个人的真实情况,到底是一个怎么样的人。
微观数据挖掘有什么用?
主要在两方面:
一方面是为对于我们而言特别重要的客户进行微观数据挖掘,从而为我们提供更大的商业价值。
另一方面则是为所有的人都进行微观数据挖掘,这样我们就能够准确地预测每个人的行为,从而从中挖掘到更大的商业价值。
为什么数据量必须得要大?
这是因为如果我们使用局部样本来代替整体的时候,可能会由于局部样本不能够完全反映整体,从而导致我们对整体的真实情况的认知造成偏差。例如当我们以贴吧和网易的用户素质来作为全体网民的整体素质,显然会造成我们对整体网民素质的认知要远比真实的素质要低,而如果用知乎来代替整体,则也会造成偏高的情况。
所以样本代替整体必然会产生偏差。而随着科技的发展,我们已经能够直接使用整体数据来对整体进行数据挖掘了,既然如此那么我们为何不直接使用整体数据进行数据挖掘呢,对吧?
虽然我们已经明白数据量必须要大的重要性,那么对于数据挖掘什么才叫大呢?
例如我们要研究B站上的二次元群体的用户行为,但是我们手上却只有知乎、贴吧、微信、QQ等的大数据,这对于我们来说,这样的大数据并没有任何意义,同样对于我们的目的来说,这样的大数据其实是小数据。
因此所谓的大数据应当是覆盖我们的研究对象的全体对象的数据,如果这些数据不能覆盖、也跟我们所研究的对象无关,那么这些数据就不是大数据。
为什么数据维度必须要全?
试想即使我们获取了6亿网民的数据,但是数据维度只有年龄这一个维度,那么我们除了能够分析网民的年龄构成之外,就再也做不了其它的事了。这样的大数据对于我们来说并没有多大的意义,也很难产生商业价值。换言之,如果数据维度很全,我们所要研究的维度数据都有,那么我们就能进行我们想要进行的数据挖掘,这对于我们来说才有意义,也更容易产生商业价值。
数据维度全既可以用于整体数据挖掘(宏观)也可以用于个体数据挖掘(微观)
事实上目前的数据挖掘都是偏向宏观的,所以这里不再赘述。主要谈谈微观的数据挖掘。
微观数据挖掘是什么意思?理论基础是什么?
微观数据挖掘是在数据维度极全的基础上(这是前提条件)对一个人或极少数人进行数据挖掘,目的是能够通过数据来对这个人到底是什么样的人构建一个模型,这个模型应当能够比较准确地预测对象的行为。如果不太理解的话,可以去看看《心理测量者》
理论基础是行为心理学,我们认为一个人是什么样的人不取决于他认为自己是个怎么样的人,而是取决于他的行为,而他的行为可以被量化成数据,而我们可以利用数据构建模型来拟合这个人的真实情况,到底是一个怎么样的人。
微观数据挖掘有什么用?
主要在两方面:
一方面是为对于我们而言特别重要的客户进行微观数据挖掘,从而为我们提供更大的商业价值。
另一方面则是为所有的人都进行微观数据挖掘,这样我们就能够准确地预测每个人的行为,从而从中挖掘到更大的商业价值。
相关文章推荐
- C/C++程序中的profile http://blog.csdn.net/cnjet/article/details/2617403
- 11. Container With Most Water
- aidl引用类作为函数的返回值
- hadoop环境搭建总结
- INSTALL_FAILED_OLDER_SDK
- Hadoop、Storm、Spark这三个大数据平台有啥区别,各有啥应用场景?
- GIS+=地理信息+云计算技术——SPARK for IntelliJ IDEA 开发环境部署
- 简析大数据的平台架构
- grails一对一关联关系
- 大数据课程体系-学习笔记-第一阶段-Java Socket(转载)
- hive创建一个表,并挂载hdfs目录下的一个分布式文件到表中
- 大数据课程体系-学习笔记-第一阶段-Java Reflect
- GDAL应用-gdal_merge.py
- ORA-00245: control file backup failed; target is likely on a local file system
- 大数据课程体系-学习笔记-第一阶段-Java Thread
- DataIntegration windows7 64 安装
- mbstring.funcoverload fail
- HDU1839---Delay Constrained Maximum Capacity Path(SPFA+vector+二分)
- Python 18.4 aiohttp
- 大数据利器