企业信息化如何发挥数据挖掘的效力(收藏)
2008-04-26 17:44
447 查看
我国的银行、证券、电信、保险行业都在大谈“数据集中”,希望在此基础上实现客户关系管理和商业智能。“数据挖掘工程师”这个新颖的职位名称,也隐约出现在企业的招聘职位栏里。
数据挖掘到底有没有用?一些企业的领导人对此怀有疑虑。数据挖掘人员口里念叨的是一些稀奇古怪的技术名词,他们的出身复杂,即不完全是学计算机的,也不像统计学家,更不是营销策划人员,他们得到的结果不容易理解,他们的工作对我的企业发展到底意味着什么?一些技术出身的管理者可能会热捧数据挖掘,希望从中尽快找出新的商业模式,找到新的赚钱机会;而商业直觉强烈的管理者则容易抵触这种精确的定量分析方法,数据挖掘本身的缺陷也导致它容易遭受攻击。
为了更好地发挥数据挖掘的效力,需要的是企业管理者的理解、数据挖掘人员的更多努力。本文作者根据过去数据挖掘项目的经验,试图对一些混淆不清的问题做出解释。
1.结果的应用
问题:数据挖掘的结果有一部分是以概率数据的形式提交的,这是最容易招致非议的地方。企业管理者可能会问,我要你对我的客户流失做出预测,为什么你不能准确地告诉我究竟是哪些客户下个月会流失?而只能告诉我每个客户流失的概率。我要你预测哪些客户会发生保险欺诈,你提交的仍然是客户骗保的概率。这样的概率值我如何使用,我敢用吗?
解释:数据挖掘建立的预测模型,是对真实世界的近似,原因是企业客户中储存的客户的行为信息是不可能面面俱到的,可能没有搜集储存到的那些客户信息恰恰是与客户是否流失或骗保最相关的信息,因此依据已有的信息建立的预测模型是不精确的,得不出确定性结果,而只能是概率值。这样的结果仍然是有用的,因为预测出来的那些流失概率高的客户中,实际流失的往往特别多,企业重点对这部分客户实施挽留维系,针对性就特别强,能节省企业的资源开销。同样,欺诈概率较高的客户中,实际发生欺诈行为的比率也比别的客户群体中高出很多,因此专门的调查人员可以重点对这些客户进行调查,往往事半功倍。资源的节省,即意味着效益的增长。
2.变量的选择
问题:建立预测模型是一个很吸引人的想法。预测的目标比较好确定,你要预测客户流失,那么“客户是否流失”(二值变量)就是目标变量;你要预测股票的涨跌,那么“收市价是否上升”就是目标变量。但是如何确定哪些变量作为自变量(回想一下高中代数中关于函数的定义),则颇费周折。换句话说,要确定哪些因素与目标变量有关系,往往是见仁见智。这个问题解决不好,则会直接影响预测模型的性能。那么,究竟应该是企业业务人员来决定,还是数据挖掘人员决定呢?
解释:最佳的方式是双方的结合。企业业务人员长期的业务经验,使他们能够敏锐地感觉到哪些因素与目标变量密切相关。但是经验是有局限的,甚至束缚人的思维,企业业务人员会遗漏很多表面无关但实际上很重要的因素,而且因为人脑的处理能力有限,有时不得不忽略一些因素及一些因素之间的复杂微妙的相互影响,而这正是数据挖掘人员可以发挥作用的地方。统计学中有大量的成熟的方法,可以帮助我们挑选合适的变量来构造我们的预测模型。
还有一种常见的现象:数据挖掘人员挑选的某个变量,事后发现对模型精度的提高很有好处,但是可能得不到合理的业务解释,这时候,企业业务人员会要求删除这个变量。实际上,数据挖掘的结果常常超出我们的想象,我们的本能就是趋向于拒绝无法理解的东西,甚至冒着损害模型预测性能的风险--这种做法是有害的,因为当前无法解释并不意味着以后也无法解释(据说沃尔玛的“啤酒与尿布”的规则发现也是事后辅之以市场调研才得到解释的);数据挖掘结果并不是凭空得来,而是借助于上千年来人类发展的数学理论在无数次证实有效的复杂算法基础上得到的,不能简单地予以否定;更何况,如果这个变量进入预测模型,被证明是有利于模型精度的,则去掉是很可惜的。不要忘记“实践是检验真
理的唯一标准”这一基本法则。
3.对“提升度(lift)”的迷信1
数据挖掘到底有没有用?一些企业的领导人对此怀有疑虑。数据挖掘人员口里念叨的是一些稀奇古怪的技术名词,他们的出身复杂,即不完全是学计算机的,也不像统计学家,更不是营销策划人员,他们得到的结果不容易理解,他们的工作对我的企业发展到底意味着什么?一些技术出身的管理者可能会热捧数据挖掘,希望从中尽快找出新的商业模式,找到新的赚钱机会;而商业直觉强烈的管理者则容易抵触这种精确的定量分析方法,数据挖掘本身的缺陷也导致它容易遭受攻击。
为了更好地发挥数据挖掘的效力,需要的是企业管理者的理解、数据挖掘人员的更多努力。本文作者根据过去数据挖掘项目的经验,试图对一些混淆不清的问题做出解释。
1.结果的应用
问题:数据挖掘的结果有一部分是以概率数据的形式提交的,这是最容易招致非议的地方。企业管理者可能会问,我要你对我的客户流失做出预测,为什么你不能准确地告诉我究竟是哪些客户下个月会流失?而只能告诉我每个客户流失的概率。我要你预测哪些客户会发生保险欺诈,你提交的仍然是客户骗保的概率。这样的概率值我如何使用,我敢用吗?
解释:数据挖掘建立的预测模型,是对真实世界的近似,原因是企业客户中储存的客户的行为信息是不可能面面俱到的,可能没有搜集储存到的那些客户信息恰恰是与客户是否流失或骗保最相关的信息,因此依据已有的信息建立的预测模型是不精确的,得不出确定性结果,而只能是概率值。这样的结果仍然是有用的,因为预测出来的那些流失概率高的客户中,实际流失的往往特别多,企业重点对这部分客户实施挽留维系,针对性就特别强,能节省企业的资源开销。同样,欺诈概率较高的客户中,实际发生欺诈行为的比率也比别的客户群体中高出很多,因此专门的调查人员可以重点对这些客户进行调查,往往事半功倍。资源的节省,即意味着效益的增长。
2.变量的选择
问题:建立预测模型是一个很吸引人的想法。预测的目标比较好确定,你要预测客户流失,那么“客户是否流失”(二值变量)就是目标变量;你要预测股票的涨跌,那么“收市价是否上升”就是目标变量。但是如何确定哪些变量作为自变量(回想一下高中代数中关于函数的定义),则颇费周折。换句话说,要确定哪些因素与目标变量有关系,往往是见仁见智。这个问题解决不好,则会直接影响预测模型的性能。那么,究竟应该是企业业务人员来决定,还是数据挖掘人员决定呢?
解释:最佳的方式是双方的结合。企业业务人员长期的业务经验,使他们能够敏锐地感觉到哪些因素与目标变量密切相关。但是经验是有局限的,甚至束缚人的思维,企业业务人员会遗漏很多表面无关但实际上很重要的因素,而且因为人脑的处理能力有限,有时不得不忽略一些因素及一些因素之间的复杂微妙的相互影响,而这正是数据挖掘人员可以发挥作用的地方。统计学中有大量的成熟的方法,可以帮助我们挑选合适的变量来构造我们的预测模型。
还有一种常见的现象:数据挖掘人员挑选的某个变量,事后发现对模型精度的提高很有好处,但是可能得不到合理的业务解释,这时候,企业业务人员会要求删除这个变量。实际上,数据挖掘的结果常常超出我们的想象,我们的本能就是趋向于拒绝无法理解的东西,甚至冒着损害模型预测性能的风险--这种做法是有害的,因为当前无法解释并不意味着以后也无法解释(据说沃尔玛的“啤酒与尿布”的规则发现也是事后辅之以市场调研才得到解释的);数据挖掘结果并不是凭空得来,而是借助于上千年来人类发展的数学理论在无数次证实有效的复杂算法基础上得到的,不能简单地予以否定;更何况,如果这个变量进入预测模型,被证明是有利于模型精度的,则去掉是很可惜的。不要忘记“实践是检验真
理的唯一标准”这一基本法则。
3.对“提升度(lift)”的迷信1
相关文章推荐
- 企业信息化如何发挥数据挖掘的效力(收藏)
- 企业信息化如何发挥数据挖掘的效力(收藏)
- SQL SERVER 数据挖掘中的几个问题(四):如何实现Web 路径流挖掘
- 数据挖掘/机器学习如何学习
- 数据挖掘工程师如何选择数据可视化工具?
- Google和facebook如何应用R进行数据挖掘
- 数据挖掘:如何寻找相关项
- 如何挖掘GA自然流量里的Not Provided数据?
- 如何搞空间数据挖掘
- 新手入门如何系统地学习数据挖掘
- 如何系统地学习数据挖掘?
- [置顶] 【R语言 数据挖掘】R语言如何做关联规则?
- 如何使用sklearn进行数据挖掘
- 机器学习如何选择模型 & 机器学习与数据挖掘区别 & 深度学习科普
- R语言数据挖掘中的,“回归分析”是如何操作的?
- 趣文:如何向外行解释机器学习和数据挖掘
- [译] Twitter数据挖掘:如何使用Python分析大数据
- 我该如何在30天后找到一份数据挖掘相关工作
- 如何成为一家真正发挥大数据作用的 “数据驱动型公司”?
- 新浪微博如何挖掘大数据资源为用户带来新价值