您的位置：首页 > 其它

Learning with local and global consistency阅读报告NIPS2003

2017-06-22 16:17 666 查看

该论文被NIPS2003收录，目前已被引用3011次，无疑是经典中的经典。提出了一种基于“smooth”理论的半监督学习方法，方法实现简单、有效。

这里所说的“smooth”是指：在半监督学习问题中，算法学习到的分类目标函数，相对于标签样本和无标签样本所共同显示的内在结构，应该足够平滑（smooth）。

算法基于两个重要的假设：（1）空间中距离越近的点，越倾向于拥有同样的标签；（2）处于同一个结构（簇、流形等）的样本，倾向于拥有同样的标签。

算法的核心思想：让每一个样本的类标信息在空间中进行传递，直到达到某种合适的全局状态。

算法内容

设样本集合X={x1,...,xl,xl+1,...,xn}，标签集合L={1,...,c}。样本集合中前l个为带标签样本，其余为不带标签样本。算法的目标就是预测不带标签样本的标签。

设一个nxc的矩阵F，每行代表一个样本，且每行中最大的元素的位置就是该样本的标签。定义一个nxc的标签矩阵Y，若Yij = 1，则表明标签yi=j。

定义一个迭代算法，具体步骤为：

a)定义一个关联矩阵W，用来表示样本之间的空间位置关系，且其对角线元素为0。

b)定义矩阵S

其中D为一个对角矩阵，其Dii的值为W第i行元素的和。

c)迭代公式为

其中阿尔法为0到1的数。

d)设最终矩阵F变为F*，则每个样本的标签为

算法的步骤a定义了一个矩阵W，这个矩阵W表达了样本集合X所构成的图的各个边的权值。在步骤c中，等式右边的式子可以分为两个部分，第一个部分表示每个样本从其领域点中得到标签信息；第二个部分表示每个样本需要保留其最原始的标签信息。

作者同时推导出了F*的非迭代形式，这样就不需要进行迭代就可以进行求解。设F(0)=Y，则有