您的位置:首页 > 其它

痛批BI基础篇_深入理解数据挖掘_报告.doc

2009-01-15 15:05 344 查看


关键词:时间数据库,时间序列数据库,模式匹配,web内容挖掘,web结构挖掘,web使用挖掘,衍生变量

一、从电信业构建数据挖掘系统的思考说起

随着电信市场竞争的日益加剧,构建电信企业经营分析系统,充分利用其业务支撑系统产生的大量的历史数据,实现对信息的深加工和处理已经成为当前电信企业系统建设关注的焦点。

二、电信企业系统建设在召唤数据挖掘

数据挖掘就是从海量的,不完全的,有噪声的,模糊的数据中找出潜在的有价值的信息知识,是知识发现过程(KDD)的一个重要步骤,它是涉及统计学,数据库和人工智能等相关领域的一门偏向应用的交叉学科。在近十多年的发展过程中,数据挖掘技术被广泛的应用于医学,金融,管理学等相关学科。
目前,随着国内外电信市场竞争的日趋激烈,为了真正做到以客户为中心,提高服务质量,提供个性化的客户服务并且准确,及时地进行经营决策,电信业也开始尝试将数据挖掘技术应用于业务预测,客户的行为模式分析,网络资源的管理等领域,并逐渐成为电信企业管理决策的重要手段之一。

三、数据挖掘技术应用简介

数据挖掘是从存放在数据库,数据仓库或者其他信息库中的大量数据中挖掘有趣知识的过程,是运用统计学,人工智能,机器学习,数据库技术等方法发现数据的模型和结构,发现有价值的关系或知识的一门交叉学科。数据挖掘不是用于验证某个假定的模式的正确性,而是在数据库中自己寻找模型。
通过时间数据库和时间序列数据库,数据挖掘可以根据数据库中存储的随时间变化的信息,发现对象演化特征和变化趋势,帮助进行投资决策。
多媒体数据库存储图像,声音,视频数据,在其上进行数据挖掘,需要与存储和搜搜技术结合在一起,如构造多媒体数据立方体,多媒体数据的特征提取和基于相似性进行模式匹配。
随着互联网的普及,web挖掘也应运而生,主要有web内容挖掘,web结构挖掘,web使用挖掘三个方面,由于web内容的非结构化和缺乏统一的模式,因此web挖掘前景乐观但困难较多。

四、关于数据仓库的介绍

数据仓库是从多个数据源收集数据,存储与一个统一的数据模式下的数据体,通常驻留在单一站点。首先它是面向主题的,每一个行业甚至企业建立自己的数据仓库,其次,它集成存储了整个企业个部门各时期的数据,因此它是时变的非易失的。
数据仓库是面向企业的,用于企业决策,因此它的数据内容是庞大而复杂的,它的建立费用也是很昂贵。而在实际数据挖掘中经常使用的是数据集市(data mart)它是面向部门,只关心某一主题,因此更灵活和实用。
数据仓库的物理结构可以是关系数据库或数据立方体。目前,数据立方体的物理实体一般为关系数据库中的表。从观察数据的特定角度,把某一类属性的集合称为一个维,如一个三维数据立方体:销售城市,季度和商品类型。在数据立方体上可以进行上卷下钻等OLAP操作,即对不同的数据层次进行概化或细化。

五、数据挖掘的主要功能

这里主要简单的介绍关联规则,分类与预测,聚类分析三种数据挖掘功能。详细请见“数据仓库与数据挖掘原理及应用_book_报告.doc”
5.1关联规则
关联规则分析的目的是在交易数据,关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式,关联,相关性或因果结构。典型应用包括购物篮分析,交叉销售或促销,产品目录设计。
规则形式:规则前件→规则后件[支持度,置信度]
关联规则分析中常用的Apriori算法。
5.2分类与预测
分类是预测离散的分类标号,而预测则是建立连续值函数模型;
用于离散符号的分类方法最常用的就是决策树和贝叶斯分类:
最著名的决策树算法是Quinlan的ID3和C4.5。它的主要思想是开始时所有的训练样本都在根部,基于最高信息增益自顶向下递归地划分数据集,生成决策树。当一个结点上所有的样本都属于用一类或者没有剩余属性可以用来进一步划分样本时停止划分,形成一个叶结点;
贝叶斯分类主要依据贝叶斯定理:
根据贝叶斯定理计算一个样本属于每一类的概率,取最高概率的类作为样本的分类;
5.3聚类分析
预先不知道目标数据的有关类的信息,需要以某种度量为标准将所有数据划分到各个族中,因此聚类分析又称无指导的学习。
客户细分在电信营销中的应用;

六、数据挖掘过程的一般步骤

数据挖掘的过程包括如下六步:
6.1 定义商业问题就是了解你的数据和业务问题,这是实施数据挖掘的基本前提,一个数据挖掘项目必须要有一个清晰明确的目标以及对结果的评审标准

6.2 建立数据挖掘库
数据挖掘的原始数据大多来自于数据仓库或数据集市中。虽然数据仓库/数据集市对于数据挖掘本身来说不是必须的,比如有些应用一个平面文件或电子表格就足够了,但是从商业系统建设的角度来看,直接从数据仓库/集市中获取经过清洗,转换的数据,能够为构建数据挖掘应用提供更加全面的数据支撑

6.3 分析数据
分析的目的是进行数据筛选,寻找对数据建模影响最大的指标变量,以及决定是否需要定义衍生变量。

6.4 准备数据
为数据挖掘建模准备数据,确定训练以及测试样本集,为此需要进行具体的数据抽取,转换工作,也就是所谓的数据清理;
6.5 模型建立与评估
一个有效模型的建立是一个迭代循环的过程。它包括:1.选择何种算法模型;2.选择合适的训练数据集,基于所涉及的项目,这里可以理解为圈群;3.模型的评价;

6.6 模型实施
模型建立并经过验证之后,有两种主要的使用方法。一种是提供给分析人员做参考,由他们通过查看和分析这个模型之后,提出行动方案的建议,比如,聚类模型得出的聚类标准,分类模型得到的分类标准等等。这里值得注意的是,所建立的模型只是提供给分析人员做参考,模型本身不是起到决定性的作用,起着决定性作用的最终还是人,这也是对当前BI发展的挑战埋下了伏笔。
另一种是把数据模型应用到某个商业过程中,与某些应用系统相集成,例如在CRM系统中,通过客户的流失分析,建立客户流失的预警机制,或是在网管系统中,根据客户的呼叫模式分析,对可能的恶意呼叫行为进行监控。

七、数据挖掘在不同领域的应用

7.1超市中的数据挖掘应用
7.2 WEB中的数据挖掘应用
7.3电信业中的数据挖掘应用
7.4金融业中的数据挖掘应用
7.5生物医学中的数据挖掘应用
7.6农业中数据挖掘的应用

八、电信领域数据挖掘现状

随着电信市场垄断格局的打破,市场竞争更趋激烈,客户的质量要求日益提高,这些因素使得国内的电信企业开始着手数据仓库的建设,并将数据挖掘系统作为数据仓库实施的一部分。
目前国内电信运营商以及各省公司都已经建成或正在完善各自的电信业务运行支撑系统(OSS)和电信业务经营支撑系统(BSS),使之集成更多应用。这些系统中与业务有关的数据类别主要有:客户数据,计费数据,营业数据,账务数据,信用数据。
数据挖掘在电信营运市场决策中的应用与企业的市场营销和客户管理紧密相关,因此BSS中数据挖掘的应用主要是从面向营销决策支持和CRM而展开的。
数据挖掘应作为一个功能模块存在与CRM系统中,而CRM系统又应作为一个子系统集成在BSS系统中,同时BSS系统与通信网系统,网管系统,OA系统,MIS系统以及OSS系统之间互联互通,以实现与其他系统的信息交换,从而使BSS形成一个封装了各种应用且具备与底层系统的数据接口的一个开放式结构。
在这一结构上,可以很有效的利用现有的各类系统产生的数据,使得面向各种业务或应用的数据挖掘功能能够很方便的实现。
目前,一些电信公司已在客户关系管理(CRM),网管系统,OSS等系统中运用了数据挖掘技术;电信公司为了避免系统的重复建设,已经从更高层次开始规划,实施统一的综合业务经营分析平台,试图将各种数据挖掘的分析活动统一在该平台下完成。具体的,国内电信企业尝试的数据挖掘应用主要涉及以下几个方面(存在的商业价值):N/A

九、数据挖掘在电信业BSS系统中的仿真应用 引用3

利用关联分析,具体的说是使用“量化属性的静态离散化方法发现事务数据库中的多维关联规则”

十、数据挖掘在电信业CRM系统中的应用

10.1问题的提出
目前,在电信企业管理中,数据的组织和管理是分散在各个职能部门进行的,各个部 门之间通过0A进行信息的传递和沟通。但是对于企业的高层决策者来说。他们只能看到各个部门定期汇报的报表。而无法精确掌握各系统原始数据的特征和相互关系,因此需要建立CRM系统,将企业的营销过程自动化管理起来。
电信运营商现有的CRM系统已经帮助企业积累了大量的数据,比如客户基本信息,客户联系人决策关系,客户交互记录,价格,趋势,Call—Center交互记录,甚至帐务信息等等 。然而 ,面对,日益积累的资费竞争,如何深入应用这些信息,发掘客户需求,提升客户满意度,进而利用客户的消费趋势和规律发掘更多的新客户的同时,能够留住大部分老客户,成为 摆在各个电信运营商面前的实际问题。理所当然地,数据挖掘技术成为了电信业增加收入,提到客户忠诚度的有效工具。
10.2 数据挖掘技术在电信CRM的主要应用领域
数据挖掘的数据来源,可以是来自传统的关系数据库,也可以建立采用多维数据立方体组织数据的数据仓库。电信企业有其先天性的IT特性。大量的数据包括客户基本信息,产品,服务使用信息,通话时长,通话费用,通话时间段等,都可作为分群的纬度。对此类数据的多维分析有助于比较各种类型通信情况,用户组行为等,因此利用数据挖掘技术整合电信行业数据十分有效。 具体主要应用领域有:
10.2.1客户背景分析
客户背景分析是按照客户基本背景资料,对客户群进行划分。利用客户信息中相对稳定 的背景要素 (如年龄,职业等)来描述不同客户的通话种类,通话时段等状况;同时也可以利用现有客户的背景分析来正确评价和预测潜在的客户和新客户的信用度情况。
10.2.2客户消费模式分析
客户消费模式分析主要是分析针对各种业务种类,不同背景群体客户的消费模式如何。不同的群体客户消费模式具有一定的趋势,同时也具有一定的共同点。通过客户消费模 式的分析,可以挖掘出隐含在客户交易信息下的规律,依此制订相应的市场促销策略,挖掘不同客户群体的潜在消费潜质。比如电信业中的固定电话话费行为分析是对客户历年来长话,市话,信息台的大量详单以及客户档案资料等相关数据进行关联分析,结合客户的分类,可以从消费能力,消费习惯,消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营决策提供依据。
10.2.3客户行为分析
客户行为分析指结合信息对某一客户群的消费行为进行分析,针对不同的消费行为及其变化,制定个性化营销策略,并从中筛选出“黄金客户”。在客户行为分析过程中,可能还需要对客户忠诚度进行分析,即:对客户持久性,牢固性及稳定性的分析。
10.2.4 客户流失分析
客户流失分析指根据已有的客户流失数据,建立客户属性,服务类型,客户消费情况等数据与客户流失概率相关联的数据模型,找出这些数据之间的关系,并给出明确的数据公式,然后根据此模型来监控客户流失的可能性。关键问题是当运营商面临海量的客户资料时,应如何才能从中提取有效的信息以判断客户流失的状况或者倾向。在此,数据挖掘所提供的数据探索能力就得到了充分的发挥。

10.3 数据挖掘在CRM中应用的步骤和流程
数据挖掘的步骤可以按照第六章中的6步来一一展开:
10.3.1业务问题定义
数据挖掘影响企业决策的方式取决于商业过程,而不是数据挖掘过程,因此必须首先依据CRM的功能做需求分析,定义业务问题。比如在定义客户流失问题时,国外成熟的应用中通常根据相对指标来判别客户流失,如大众的个人通信费用约占总收入的1%-3%,当客户的个人通信费用远低于此比例时,就认为发生了客户流失。
10.3.2 数据选择
根据实际问题抽取的数据是存放在CRM数据仓库中的不同基表中的与业务问题定义相关的属性域,这些被抽取出来的数据组成一个新的表。如果通过数据仓库组织数据,则可以根据主题建立响应的多维数据集,同时还可以进行OLAP分析。
10.3.3 数据准备
具体指的是数据的清洗和预处理,这些都是建模前必须做的工作,一方面保证建模数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使得数据更符合建模的要求。
数据预处理的主要工作包括对数据的转换和整合,抽样,随机化,缺失值处理等等。
10.3.4 模型建立与验证
利用现有的数据挖掘工具提供的决策树,神经网络等建模方法,我们可以在建模之前,利用这些工具和方法删除相关性较小的变量,从而缩短建模时间,降低建模复杂度。此外,数据挖掘工具还提供了选择建模方法的功能,系统可自动判别最优的模型。
模型的验证是数据挖掘成败的关键,要保证使用这些模型的其他输入和输出过程的正确性。验证的方法是使用模型对已知客户状态的数据进行预测,将预测值与实际客户状态作比较,预测正确率高的模型则是最优模型。
10.3.5数据挖掘
对客户数据的挖掘是在数据抽取形成的表的基础上,运用一定的挖掘分析方法进行数据挖掘。在CRM系统中,三种常用的数据挖掘方法是:聚类分析,行为分组和预测。对客户行为聚类和分组可以帮助企业有效的定制市场营销计划,选择营销渠道及策划广告等。
10.3.6模型评估
上面挖掘出来的数据需要用两个技术指标来进行评估,一个是支持度,用来验证结果的使用性,另一个是可信度,用来验证结果的正确性。

十一、大唐电信经营分析系统解决方案

1.可伸缩的数据抽取平台
电信经营分析系统采用可伸缩的开发平台结构实现对底层系统数据的抽取,从而实现了对底层数据系统信息的透明抽取。同时在数据仓库设计中,根据ODS的概念,形成以数据操作存储为基础构造数据仓库的方法,使得数据仓库上层构造与OLAP进一步独立,降低了OLAP变动对数据仓库的影响,加快了数据仓库上层构造的速度,提高了数据仓库上层构造的可重用性。
2.先进的基于数据仓库的联机分析方法和数据挖掘

十二、BI系统在中国移动运营商中的应用

N/A

十三、实施数据挖掘的三个方向考虑

1.尊享e8系统中,圈定潜在客户,进行针对性营销;
2.CRM系统中,通过客户的流失分析,建立客户流失的预警机制;
3.网管系统中,根据客户的呼叫模式分析,对可能的恶意呼叫行为进行监控;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: