您的位置：首页 > 其它

【machine learning通俗讲解code逐行注释】之线性回归实现

2015-01-18 22:24 225 查看

现在机器学习算法在分类、回归、数据挖掘等问题上运用的十分广泛，对于初学者来说，可能一听到'算法'或其他的专属名词都感觉高深莫测，以致很多人望而却步，这让很多人在处理很多问题上失去了一个很有用的工具。机器学习的算法并没有那么高深，这里我就用最通俗的语言来细致解释算法的表达的意义，，并且很多人对程序的实现这一部分也会望而却步，网上固然有很多现成的程序，但是鉴于大部分没有注释，所以有时候需要花费很大的精力去解读程序，有时候甚至不得其解，这里我也会对每个讲解的算法的程序进行讲解，大部分是逐行讲解，务必做到最精细，把程序的来龙去脉表达清楚，这样对于学习机器学习算法的读者势必会事半功倍！

转载时候最好标注http://www.cnblogs.com/happylion/或http://blog.sina.com.cn/ahappylion
开始了，学习吧，加油！

......................................................................分割线............................................................................

上一个博客已经说了我们要线性回归的主要内容，通俗的讲就是：你有一个样本X=[x1,x2,…,xn],然后你需要做的就是找到一组参数W=[w1,w2…wn],使

样本各个元素的线性叠加和w1*x1+w2*x2+…+wn*xn尽量等于样本的label。所以我们的costfunction就是：

也就是说我们的目的就是惩罚那些线性叠加和不等于label的样本。然后我们最小化这个costfunction，当costfunction达到收敛的时候，这时候的参数就是我们需要的蚕食。我们有两种方法去优化我们的参数，上一个博客说了，我们线性回归的参数是有显式解的。就是上一节提到的normalequations，w=inv(X’*X)*X’*y。（X的每一行是一个样本），除此之外，我们也可以用梯度下降法来求得我们的参数，梯度下降法的解释将在下面的博客中提到，这里我们用一个例子来说明一下：

题目是：50个数据样本点，其中x为这50个小朋友到的年龄，年龄为2岁到8岁，年龄可有小数形式呈现。Y为这50个小朋友对应的身高，当然也是小数形式表示的。现在的问题是要根据这50个训练样本，估计出3.5岁和7岁时小孩子的身高。（数据下载）

采用normalequations方法求解：

1%%方法一
2x=load('ex2x.dat');
3y=load('ex2y.dat');
4plot(x,y,'*')
5xlabel('height')
6ylabel('age')
7x=[ones(size(x，2),1),x]；%因为size（x）会出来的x这个向量两个维度

8%度，我们只需要第一个维度，我们还要再加一列1是因为这里把wx+b变成了w’x这样我们化成齐次的线性方程，所以我们要把x扩成一列1。
9w=inv(x'*x)*x'*y%这个就是解的公式
10holdon
12plot(x(:,2),0.0639*x(:,2)+0.7502）%这里的0.7502就是求得的w向量的第一个值，也就是wx+b的那个b，w第二个值就是wx+b的w

利用梯度下降法进行迭代求解系数

方法二：

1clearall;closeall;clc
2x=load('ex2x.dat');y=load('ex2y.dat');
3m=length(y);%numberoftrainingexamples
4%Plotthetrainingdata
5figure;%openanewfigurewindow这个figure也可以不写，没什么影响
6plot(x,y,'o');%用圆圈表示数据点
7ylabel('Heightinmeters')%给y值写上代表什么意思
8xlabel('Ageinyears')
10%Gradientdescent
11x=[ones(m,1)x];%Addacolumnofonestoxx最开始增加一列1,也就是每一个数据点增加一维，并且这一维都是1，
12%相当于要求得线性方程是齐次的w'x=Y，x是变成的二维的，Y代表根据训练的w'x预测的Y值
13theta=zeros(size(x(1,:)))';%initializefittingparametersw'初始化为[0;0]
14MAX_ITR=1500;
15alpha=0.07;%学习速率
17fornum_iterations=1:MAX_ITR
18grad=(1/m).*x'*((x*theta)-y);%grd具体是怎么算的可以看下下面的推导，只是这里的1/m不知道是怎么得出来的，
19%我的是2m，注意grad是一个2*1的向量。并且公式里面的形式
20%跟这里有点不同，是因为在公式中xi代表一个向量，这里x是一个矩阵，并且每一行代表一个样本，所以这里代码中前面是x'后面是x，
21%在公式中正好相反.*是点乘，不是内积，向量的内积结果是个数，这还是一个向量
22theta=theta-alpha.*grad;%这里如果令grad=0求极值得到参数的方法就是前面的那个方法，这里不是grad=0，而是一次次%的迭代，求最值。
23end
24holdon;%keeppreviousplotvisible
25plot(x(:,2),x*theta,'-')%这个就是回归曲线的那个图
26legend('Trainingdata','Linearregression')%标出图像中各曲线标志所代表的意义，就是每个数据点表示成的圆圈或线段所代表%的意义
27holdoff%don'toverlayanymoreplotsonthisfigure，指关掉前面的那幅图
28%Closedformsolutionforreference
29%Youwilllearnaboutthismethodinfuturevideos
30exact_theta=(x'*x)\x'*y%不知道这是啥意思
31%Predictvaluesforage3.5and7
32predict1=[1,3.5]*theta
33predict2=[1,7]*theta
34%GridoverwhichwewillcalculateJ
35theta0_vals=linspace(-3,3,100);%生成一个从-3到3之间有均匀的100个元素的向量
36theta1_vals=linspace(-1,1,100);
37%initializeJ_valstoamatrixof0's
38J_vals=zeros(length(theta0_vals),length(theta1_vals));
39fori=1:length(theta0_vals)
40forj=1:length(theta1_vals)
41t=[theta0_vals(i);theta1_vals(j)];
42J_vals(i,j)=(0.5/m).*(x*t-y)'*(x*t-y);%当参数的取值是从（-3,1）到（3,1）
43%的矩形内均匀采样取值时（取了100*100个参数），所有样本xi与每个参数对应
44%的回归方程的误差就是J_vals(i,j)的一个值
45end
46end
47J_vals=J_vals';
48%Surfaceplot
49figure;
50surf(theta0_vals,theta1_vals,J_vals)%画出参数与损失函数的图像。注意用这个surf比较蛋疼，surf（X,Y,Z）是这样的，
51%X,Y是向量，Z是矩阵，用X，Y铺成的网格（100*100个点）与Z的每个点
52%形成一个图形，但是是怎么对应的哪，蛋疼之处就是，你的X的第二个元素与Y的第一个元素形成的那一个点不是和Z（2，1）的值对应！！
53%而是和Z（1,2）对应！！因为前面形成Z（2，1）时，是X的第二个元素与Y的第一个元素
54%所以J_vals前面才要转置。
55xlabel('\theta_0');ylabel('\theta_1');
56%Contourplot
57figure;
58%PlotJ_valsas15contoursspacedlogarithmicallybetween0.01and100
59contour(theta0_vals,theta1_vals,J_vals,logspace(-2,2,15))%画出等高线
60xlabel('\theta_0');ylabel('\theta_1');%类似于转义字符，但是最多只能是到参数0~9

实验结果：训练样本散点和回归曲线预测图：

损失函数与参数之间的曲面图:

参考：/article/4670350.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航