您的位置：首页 > 其它

信用卡违约客户的预测模型的选择(一）相关技术介绍

2018-02-06 16:55 316 查看

在进行建模之前，前期需要准备的包括数据提取、清洗，字段验证选择，分类模型的选择。

变量处理方法

数据处理方法包括最小-最大规范化、标准化、特征化处理等，根据数据字段特点也可避免前期数据处理，直接借用挖掘函数计算。

最小-最大规范化，即归一化

proValue=(v-min(x))/(max(x)-min(x))，min(x),max(x)分别为v所在列的最小值和最大值。对数据进行归一化处理，即利用归一化处理将数据处理为0至1或-1至1之间的数据，归一化处理使得处理后的数据更加有利于预测准确性的提高，但是由于改变了数值的取值范围也增加了分类器的复杂度。

标准化处理，即规范化
proValue=(v-mean(x))/std(x)，mean(x)为v所在列的均值，std(x)为v值所在列的标准差，经过标准化处理将x序列转化为n(0,1)正态分布，由于受离散值得影响，均值mean(x)有时使用序列中位数median（x）替代。
在数据处理与训练数据集和测试数据集的划分优先级上，应首先进行数据集的划分。例如，如果对某数据集进行归一化，再按照比例进行测试集和训练集的划分，则两个数据集容易存在相关性，不利于对通过训练得到的权重进行检验，无法保证训练和测试的独立性。

变量筛选方法

特征选择
包括主成分分析和多因子分析。用于对多变量的降维，通过降维后将相关性强的变量组合为多类，代表一个因子或主成分。通过低维数据的分析来获得相应的高维数据特性,从而达到简化分析、获取数据有效特征以及可视化数据的目标。
向前选择法
首先增加一个变量，计算整个模型的F值和P值。继续增加变量观察模型F值和P值的变化，当增加后P值减小则保持该变量，当增加后P值增大则删除该变量。该方法较使用于线性分析、logisitic分析，通过衡量模型的预测值与实际值之间的误差变化，衡量模型的优劣，而误差的变化直接反应在P值的变化上。
向后选择法
从模型设计的全部变量开始，逐步剔除变量，观察模型的F值和P值，当P值小于显著性水平，则删除，否则保留。其中显著性水平一般取值在0.1左右，越小则模型越严格。
在实际的变量筛选中，一般还会涉及经验判断和相关性分析，根据客观事实和对事物的经验分析，选择重要变量，删除无关变量，可节省时间成本。一般在前期变量筛选之前会对变量之间进行相关性及同质性分析，对强相关变量进行组合处理。

分类模型介绍

线性回归、Logistic回归、决策树、svm支持向量机等。

线性回归

4000
/20180206164200346?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQva3NoMDA3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast"border="0">

图2-1线性回归最小二乘法

最小二乘法评定模型效果，通常包括模型的F值和P值，各系数值的F和P值。　方差分析(AnalysisofVariance，简称ANOVA)，又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。

MSR代表由于x的变化而引起Y的变化，称为回归平方和。MSE反应的是观测值和回归值之间的离差平方和，称为误差平方和。

用来检验模型系数是否显著，p-value衡量系数的显著性水平，p值越小表明该系数值越显著。

Logistic回归

一般线性回归和logistic回归同属于多元线性回归，一般线性回归的目标变量是连续的，而逻辑回归的目标变量是类别变量。

假设目标变量是两个层次的类别变量，即0/1变量，如果我们建立一般线性模型：

因为Y只能去0或者1，而E(Y)的值是连续的，所以用E(Y)来预测因变量Y显然存在不足。E(Y)代表Y值得期望值，代表Y=1的概率，即

等式右边取值线性，为了易于分类，转化公式为0~1之间，于是我们对p值进行logistic转换：

则概率公式转换为：

p~(0,1),根据阀值对其进行二分类。

图2-2逻辑斯蒂回归

svm支持向量机

支持向量机是一种监督式的机器学习方法，可分两部分来理解它，首先是支持向量，即在多维空间建立用于分类的支持向量。

图2-3超平面示意图

如图所示，将二元变量进行划分，得到支持向量。在多维向量中我们会得到超平面，即分类函数f(x)=wT+b。

显然对于某个变量点，当f(=0，则该点位于超平面上。我们基于这样的原则进行分类，当f(>0时，分类为1，当f(0时，分类为0。

我们应寻找这样的分类器，使得其尽可能精确地对变量进行分类。即寻找两类别至超平面的最大几何间隔w。如上图所示在三个分类器中，实现代表的分类器具有最大的几何间隔。

在进行模型分类时使用线性回归的情况比较少，需视变量情况确定。在进行基于训练集的训练后得到各系数值。在对测试变量进行预测，为进行二值（0,1或1，-1）分类或多值分类，需基于预测值设计分类器。

结果验证

目前常用的模型评估方法包括准确率与召回率比较，以及AUC值。

在样本分类后会得到如下变量，真正（TruePositive）代表被预测为正的正样本，真负（TrueNegative）代表被预测为负的负样本，假正（FalsePositive）代表被预测为正的负样本，假负（FalseNegative）代表被预测为负的正样本。

AUC值即areaunderthecurve(ROC)，ROC曲线是从（0，0）至（1.0,1.0）漫游的足迹线，代表了随着假正率增加，真正率变化情况，或者说随着真正率增加，假正率的变化情况。

有一个普遍使用的工具，称为混淆矩阵，用于呈现分类情况。

	预测值
正	负
样本值	正	真正(TP)	假负(FN)
负	假正(FP)	真负(TN)

真正率（TruePositiveRate,TPR）=TP/(TP+FN)，表示正样本被正确分类的比例。真负率（TrueNegativeRate,TNR）=TN/(FP+TN)，表示负样本被正确分类的比例。假负率（FalseNegativeRate,FNR）=FN/(FN+Tp),表示正样本中被分类错误的比例。假正率（FalsePositiveRate,FPR）=FP/(FP+TN),表示负样本中被分类错误的比例。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航