机器学习面试问题2
2016-07-28 17:04
267 查看
算法原理
LR
logistic(逻辑回归)是一种广义线性回归分析模型,是一种分类算法。通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。L是logistic函数.
该模型是典型的数学模型,它服从逻辑斯蒂分布。
二项逻辑斯蒂回归模型是如下的条件概率分布:
在这里,x是输入,y是输出,w是权值向量参数,b是偏置参数。
对于给定的输入实例x,按照以上两个公式可以求得P(Y=1|x)和P(Y=0|x)。逻辑斯蒂回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。
将权值向量和输入向量加以扩充,仍记作w,x,即w=(x1,x2,…,wn,b),x=(x1,x2,…,xn,1)。这时,逻辑斯蒂回归模型如下:
线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.如下图:
逻辑斯蒂回归模型学习时,对于给定的训练数据集可以应用极大似然估计法估计模型参数,这样,问题就变成了以对数似然函数为目标函数的最优化问题,逻辑斯蒂回归模型学习中通常采用的方法是梯度下降法及拟牛顿法。得到w的极大似然估计值w’,就可以得到逻辑斯蒂回归模型。
二项逻辑斯蒂回归模型可以推广到多项逻辑斯蒂回归模型:
二项逻辑斯蒂回归的参数估计法也可以推广到多维逻辑斯蒂回归。
k-NN
k-NN(k近邻法)是一种基本分类和回归方法。k近邻模型的三个基本要素:距离度量,k值的选择,分类决策规则。常用的距离度量是欧式距离及更一般的Lp距离。k值小时,k近邻模型更复杂;k值大时,k近邻模型更简单。k值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的k。常用的分类决策规则是多数表决,对应于经验风险最小化。
k近邻模型对应于训练数据集对特征空间的一个划分。k近邻法中,当三个基本要素确定后,其结果唯一确定。
k近邻法的基本做法:
对给定的训练实例点和输入实例点,首先确定输入实例点的k个最近邻训练实例点,然后利用这k个训练实例点的类的多数来预测输入实例的类。
k近邻法的实现需要考虑如何快速搜索k个最近邻点。kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树,表示对k维空间的一个划分,其每个节点对应于k维空间划分中的一个超矩形区域。利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。
K-Means
K-Means算法是一种聚类算法。以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。
基本思想:从n个对象中任意选择k个对象为中心进行聚类,而对于剩下的其他对象,则根据它们与这些聚类中心(距离均值所对应的对象)的相似度(距离),按照最小距离分别将它们分配给与其最相似的(距离聚类中心所代表的聚类是最小的)聚类,然后再计算每个所获新聚类的聚类中心(该聚类中的中心对象)结果将n个对象划分为k个聚类,且这些聚类满足:同一聚类中的对象相似度较高,不同聚类中的对象相似度较小。
算法流程:
首先从n个数据对象中任意选择k个对象作为初始聚类中心,将剩下的其他对象分别计算它们到这k个聚类中心的距离,归到距离最小的聚类中,每聚一次类,都要重新计算一次聚类中心,规则是将所有对象的距离均值所对应的对象作为聚类中心。
相关文章推荐
- 用Python从零实现贝叶斯分类器的机器学习的教程
- My Machine Learning
- 机器学习---学习首页 3ff0
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- 反向传播(Backpropagation)算法的数学原理
- 关于SVM的那点破事
- 也谈 机器学习到底有没有用 ?
- #ML-SDN
- TensorFlow人工智能引擎入门教程之九 RNN/LSTM循环神经网络长短期记忆网络使用
- TensorFlow人工智能引擎入门教程之十 最强网络 RSNN深度残差网络 平均准确率96-99%
- TensorFlow人工智能引擎入门教程所有目录
- Tensorflow 杂记
- 如何用70行代码实现深度神经网络算法
- 量子计算机编程原理简介 和 机器学习
- 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
- 已经证实提高机器学习模型准确率的八大方法
- 初识机器学习算法有哪些?
- 机器学习相关的库和工具
- 10个关于人工智能和机器学习的有趣开源项目
- 机器学习实践中应避免的7种常见错误