您的位置:首页 > 其它

什么是数据挖掘

2007-03-31 13:37 369 查看

什么是数据挖掘

当今数据库的容量已经达到上万亿的水平(T)--- 1,000,000,000,000个字节。在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些“知识”呢?也就是怎样通过一颗颗的树木了解到整个森林的情况?

计算机科学对这个问题给出的最新回答就是:数据挖掘,在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略(把产品推广给最需要他们的人),以用最小的花费得到最好的销售。

数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。

数据挖掘的第一步是描述数据 --- 计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性(比如有一些值经常同时出现)。选择正确的数据源对整个数据挖掘项目的成败至关重要,在后面数据挖掘的步骤中我们会着重强调这一点。

单单是数据描述并不能为人们制订行动计划提供足够的依据,你必须用你的这些历史数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。一个好的模型没必要与数据库中的数据100%的相符(城市交通图也不是完全的实际交通线路的等比缩小),但他在你做决策时是一个很好的指南和依据。

最后一步是验证你的模型。比如你用所有对你的产品推广计划做出回应的人的数据库做了一个模型,来预测什么样的人会对你的产品感兴趣。你能在得到这个模型后就直接利用这个模型做出决策或采取行动吗?还是更稳妥一点先对一小部分客户做一个实际的测试,然后再决定?
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: