您的位置:首页 > 其它

信用卡违约客户的预测模型的选择(一)相关技术介绍

2018-02-06 16:55 316 查看
在进行建模之前,前期需要准备的包括数据提取、清洗,字段验证选择,分类模型的选择。


变量处理方法

数据处理方法包括最小-最大规范化、标准化、特征化处理等,根据数据字段特点也可避免前期数据处理,直接借用挖掘函数计算。

最小-最大规范化,即归一化

proValue=(v-min(x))/(max(x)-min(x)),min(x),max(x)分别为v所在列的最小值和最大值。对数据进行归一化处理,即利用归一化处理将数据处理为0至1或-1至1之间的数据,归一化处理使得处理后的数据更加有利于预测准确性的提高,但是由于改变了数值的取值范围也增加了分类器的复杂度。


标准化处理,即规范化
proValue=(v-mean(x))/std(x),mean(x)为v所在列的均值,std(x)为v值所在列的标准差,经过标准化处理将x序列转化为n(0,1)正态分布,由于受离散值得影响,均值mean(x)有时使用序列中位数median(x)替代。
在数据处理与训练数据集和测试数据集的划分优先级上,应首先进行数据集的划分。例如,如果对某数据集进行归一化,再按照比例进行测试集和训练集的划分,则两个数据集容易存在相关性,不利于对通过训练得到的权重进行检验,无法保证训练和测试的独立性。

变量筛选方法

特征选择
包括主成分分析和多因子分析。用于对多变量的降维,通过降维后将相关性强的变量组合为多类,代表一个因子或主成分。通过低维数据的分析来获得相应的高维数据特性,从而达到简化分析、获取数据有效特征以及可视化数据的目标。
向前选择法
首先增加一个变量,计算整个模型的F值和P值。继续增加变量观察模型F值和P值的变化,当增加后P值减小则保持该变量,当增加后P值增大则删除该变量。该方法较使用于线性分析、logisitic分析,通过衡量模型的预测值与实际值之间的误差变化,衡量模型的优劣,而误差的变化直接反应在P值的变化上。
向后选择法
从模型设计的全部变量开始,逐步剔除变量,观察模型的F值和P值,当P值小于显著性水平,则删除,否则保留。其中显著性水平一般取值在0.1左右,越小则模型越严格。
在实际的变量筛选中,一般还会涉及经验判断和相关性分析,根据客观事实和对事物的经验分析,选择重要变量,删除无关变量,可节省时间成本。一般在前期变量筛选之前会对变量之间进行相关性及同质性分析,对强相关变量进行组合处理。

分类模型介绍

线性回归、Logistic回归、决策树、svm支持向量机等。

线性回归



4000
/20180206164200346?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQva3NoMDA3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast"border="0">

图2-1线性回归最小二乘法

最小二乘法评定模型效果,通常包括模型的F值和P值,各系数值的F和P值。 方差分析(AnalysisofVariance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。




MSR代表由于x的变化而引起Y的变化,称为回归平方和。MSE反应的是观测值和回归值之间的离差平方和,称为误差平方和。

用来检验模型系数是否显著,p-value衡量系数的显著性水平,p值越小表明该系数值越显著。

Logistic回归

一般线性回归和logistic回归同属于多元线性回归,一般线性回归的目标变量是连续的,而逻辑回归的目标变量是类别变量。

假设目标变量是两个层次的类别变量,即0/1变量,如果我们建立一般线性模型:

因为Y只能去0或者1,而E(Y)的值是连续的,所以用E(Y)来预测因变量Y显然存在不足。E(Y)代表Y值得期望值,代表Y=1的概率,即


等式右边取值线性,为了易于分类,转化公式为0~1之间,于是我们对p值进行logistic转换:


则概率公式转换为:


p~(0,1),根据阀值对其进行二分类。




图2-2逻辑斯蒂回归

svm支持向量机

支持向量机是一种监督式的机器学习方法,可分两部分来理解它,首先是支持向量,即在多维空间建立用于分类的支持向量。

 

图2-3超平面示意图

如图所示,将二元变量进行划分,得到支持向量。在多维向量中我们会得到超平面,即分类函数f(x)=wT+b。

显然对于某个变量点,当f(=0,则该点位于超平面上。我们基于这样的原则进行分类,当f(>0时,分类为1,当f(0时,分类为0。

我们应寻找这样的分类器,使得其尽可能精确地对变量进行分类。即寻找两类别至超平面的最大几何间隔w。如上图所示在三个分类器中,实现代表的分类器具有最大的几何间隔。

在进行模型分类时使用线性回归的情况比较少,需视变量情况确定。在进行基于训练集的训练后得到各系数值。在对测试变量进行预测,为进行二值(0,1或1,-1)分类或多值分类,需基于预测值设计分类器。


结果验证

目前常用的模型评估方法包括准确率与召回率比较,以及AUC值。


在样本分类后会得到如下变量,真正(TruePositive)代表被预测为正的正样本,真负(TrueNegative)代表被预测为负的负样本,假正(FalsePositive)代表被预测为正的负样本,假负(FalseNegative)代表被预测为负的正样本。

AUC值即areaunderthecurve(ROC),ROC曲线是从(0,0)至(1.0,1.0)漫游的足迹线,代表了随着假正率增加,真正率变化情况,或者说随着真正率增加,假正率的变化情况。

有一个普遍使用的工具,称为混淆矩阵,用于呈现分类情况。


 

预测值



样本值


真正(TP)

假负(FN)


假正(FP)

真负(TN)

真正率(TruePositiveRate,TPR)=TP/(TP+FN),表示正样本被正确分类的比例。真负率(TrueNegativeRate,TNR)=TN/(FP+TN),表示负样本被正确分类的比例。假负率(FalseNegativeRate,FNR)=FN/(FN+Tp),表示正样本中被分类错误的比例。假正率(FalsePositiveRate,FPR)=FP/(FP+TN),表示负样本中被分类错误的比例。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐