您的位置:首页 > 其它

主动学习综述(ACTIVE LEARNING)

2016-12-03 00:00 453 查看
Active learning process

算法:主动学习算法伪代码描述

输入:未标记样本U,标记样本集L,学习引擎LE,采样引擎SE

输出:学习引擎SE

BeginFor:i=1,2,…,N

Train(LE,L); //通过标记样本集L训练分类器f

T=Test(LE,U);

S=Select(SE,U);

Label(S) ; //对集合S中的样本进行标记

L<—L + S

U<—U - S

Until 迭代次数达到某阈值,或达到其他终止条件

Active Learning

Membership Query Synthesis

Stream-Based Selective Sampling

Pool-Based Active Learning

Membership Query Synthesis

实验者可以选择询问输入空间中任何一个未标识的实例,包括实验者自己创建的,而不仅仅是来自某个自然分布的实例。好的询问关系经常是易处理的或者在有限的领域内是有效的。

Stream-Based Selective Sampling

基于不确定度缩减的方法(熵,信息量)

基于版本空间(version space)的缩减方法(QBC)

基于泛化误差缩减的方法(损失函数,找误差缩减最大的)

基于不确定度缩减的方法

基准分类器选择最不能确定其分类的实例进行标识,这种方法以信息熵作为衡量样例所含信息量大小的度量。从几何角度看这种方法优先选择靠近分类边界的实例,又称为最近边界法。

基于版本空间缩减的方法

选择那些训练后能够最大程度缩减版本空间的实例进行标识。(QBC)

QBC算法从版本空间中随机选择若干假设构成一个委员会,然后选择委员会中预测分歧度最大的实例进行标注。

分歧度:投票熵,Jensen-Shannon分歧度,Kullback-Leibler分歧度

基于泛化误差缩减的方法

选择能够是未来泛化误差最大程度缩小的实例。

首先选择一种损失函数用于估计未来错误率,然后将未标识实例集中的每一个实例都作为下一个可能的选择,分别估计其能给基准分类器带来的误差缩减,选择估计误差缩减最大的那个实例进行标识。

Uncertainty Sampling

选择不确定度最大样本进行标记,正类后验概率接近0.5的实例。如果小于0.5 说明接近负类。大于0.5说明接近正类。

支持向量机的不确定度实例选择则是选择询问最靠近线性决策边界的实例。

Query-By-Committee

委员会询问选择算法不直接计算分类误差,而是根据自己已标识实例集训练两个或多个分类器,组成“委员会”,利用委员会对未标识实例进行标识投票,然后选择询问投票最不一致的实例。

计算简单,评价未标识实例,只需要一次内积运算。

Expected Model Change

模型期望变化的直观理解,算法倾向于选择询问对模型变化影响最大的实例. 这种方法在实验研究中表现良好。

如果数据集的属性或类标识数量比较多时, 计算复杂度非常高

THREE METHODS

Variance Reduction 通过减小方差来减小实验者的未来误差。

Estimated Error Reduction 最小估计误差近似最优与模型无关 计算复杂度高

Density-Weighted Methods 信息量最大实例不只是不确定的而且还是要具有代表性的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息