联合Tag-Label的推荐方法:A Joint Approach to Label Classification and Tag Tecommendation
2017-10-29 16:42
711 查看
基本分类模型
Tag-Label关联信息
本文模型
小结
前文总结了推荐经典的推荐算法
由于rating 信息与tag信息是并列性质的信息,所以通常情况下,我们都是单独的处理;标签推荐或者评分预测(利用分类方法);
CLARE:A Joint Approach to Label Classification and Tag Tecommendation 联合Tag与Label之间的关系信息,分别进行分类和标签推荐;将二者的二部图关联信息(非结构化信息)通过重叠套索组方式融合到经典的模型中,(优化过程中用到了乘子罚函数法,矩阵的迹、矩阵的F-范数等信息)。
因为 Label属于大类别信息,它为Tag标签提供了一个上下文范围;同时Tag标签信息也为Label提供了证据;
X∈Rn∗d,d代表了输入的特征(文本的embedding向量);
W∈Rd∗c,代表权重;c是最终的类别信息(对于单分类就是oneHot,tag推荐属于多分类模型);W(i,j)代表了第i个特征对第j个label的影响程度
Y∈Rn∗c;
那么:
minWΩ(w)+L(XW,Y)
其中,Ω是惩罚项,一般取二范数、L2-loss;L是损失函数
Tag 是小标签信息,更加具体、随意;而且一个文本有多个Tag
一个Label 中有多个Tag
多个Label间共享多个Tag
可以使用二部图描述二者的关系:
对于一个Label ci,可以得到与其关联的Tag的集合信息(组)g={t1,t2,...,t5},max|g|=c1,c1表示Tag的总个数;c2表示Label的个数;
wig=[W(i,t1),W(i,t2),...,W(i,t5)]
根据二部图,可以得到|c|个g,定义为G;
特征之间存在组关联;利用重叠组套索模型,可以得到:
∑id∑g∈Gαg||wig||2
X∈Rn∗d,d代表了输入的特征(文本的embedding向量);
W∈Rd∗(c1+c2),代表权重;c是最终的类别信息(对于单分类就是oneHot,tag推荐属于多分类模型);W(i,j)代表了第i个特征对第j个label的影响程度
Y∈Rn∗(c1+c2);
将特征的组模型作为惩罚项,构造新的目标函数:
minWΩ(W)+L(XW,Y)+α∑i=1d∑g∈Gαg||wig||2minWβ||W||2F+||XW−Y||2F+α∑i=1d∑g∈Gαg||wig||2
组模型有一个问题:组的大小不一致,为此我们利用稀疏矩阵将组大小统一到c1+c2,并引入一个等式约束,转化问题;
引入V∈Rd∗c2(c1+c2),M∈{0,1}(c1+c2)∗c2(c1+c2),M(i,(c1+c2)(j−1)+i)=1,if B(i,j)=1.
原问题转换成:
minWβ||W||2F+||XW−Y||2F+∑i=1d∑j=1c2αj||V(i,(c1+c2)∗(j−1)+1:(c1+c2)∗j)||2s.t.V=WM
含有等式约束的最优化问题见博客;
这里使用乘子罚函数法:其中μ∈Rd∗c2(c1+c2),拉格朗日乘子;
minW,V,μΩ(W)+L(XW,Y)+Ωgroup(V)+Tr(μT(V−WM))+ρ2||V−WM||2FminW,V,μβ||W||2F+||XW−Y||2F+Ωgroup(V)+Tr(μT(V−WM))+ρ2||V−WM||2F
接下来,使用轮转方向乘子法更新W,V,μ;
(1)更新W,固定V,μ
minW∂(W)=β||W||2F+||XW−Y||2F−Tr(μTWM)+ρ2||V−WM||2F
Trace(ATA)=∑ni∑niai,j∗ai,j=||A||2F
||A+B||2F=∑∑(ai,j+bi,j)2=∑∑(a2i,j+b2i,j+2ai,jbi,j)=||A||2F+||B||2F+2Trace(ATB)
梯度为零即可;这里有进一步的变换和化简;
(3)更新V
minV∂(V)=Ωgreoup(V)+||XW−Y||2F+Tr(μTV)+ρ2||V−WM||2F
(2)更新μ
梯度下降法更新即可;
μ→μ+ρ(V−WM)
不管在分类领域还是标签推荐领域都取得了很好的结果;
不足之处:
1. 计算Tag-Label关联时,利用邻接矩阵方式,没有考虑他们共现的频率(Tag-Label之间的关联程度不同);
2. Tag信息的噪音很大,需要数据预处理;
Tag-Label关联信息
本文模型
小结
前文总结了推荐经典的推荐算法
由于rating 信息与tag信息是并列性质的信息,所以通常情况下,我们都是单独的处理;标签推荐或者评分预测(利用分类方法);
CLARE:A Joint Approach to Label Classification and Tag Tecommendation 联合Tag与Label之间的关系信息,分别进行分类和标签推荐;将二者的二部图关联信息(非结构化信息)通过重叠套索组方式融合到经典的模型中,(优化过程中用到了乘子罚函数法,矩阵的迹、矩阵的F-范数等信息)。
因为 Label属于大类别信息,它为Tag标签提供了一个上下文范围;同时Tag标签信息也为Label提供了证据;
1 基本分类模型
基本的分类模型使用了常用的分类器,然后构造出损失函数,再加上惩罚项约束,最后最小化这个目标函数即可。X∈Rn∗d,d代表了输入的特征(文本的embedding向量);
W∈Rd∗c,代表权重;c是最终的类别信息(对于单分类就是oneHot,tag推荐属于多分类模型);W(i,j)代表了第i个特征对第j个label的影响程度
Y∈Rn∗c;
那么:
minWΩ(w)+L(XW,Y)
其中,Ω是惩罚项,一般取二范数、L2-loss;L是损失函数
2 Tag-Label关联信息
Label 是类别信息,一个文本一般只属于一个类;Tag 是小标签信息,更加具体、随意;而且一个文本有多个Tag
一个Label 中有多个Tag
多个Label间共享多个Tag
可以使用二部图描述二者的关系:
对于一个Label ci,可以得到与其关联的Tag的集合信息(组)g={t1,t2,...,t5},max|g|=c1,c1表示Tag的总个数;c2表示Label的个数;
wig=[W(i,t1),W(i,t2),...,W(i,t5)]
根据二部图,可以得到|c|个g,定义为G;
特征之间存在组关联;利用重叠组套索模型,可以得到:
∑id∑g∈Gαg||wig||2
3 本文模型
本文首先将Tag推荐和Label分类模型进行统一化,相应的变量进行级联;X∈Rn∗d,d代表了输入的特征(文本的embedding向量);
W∈Rd∗(c1+c2),代表权重;c是最终的类别信息(对于单分类就是oneHot,tag推荐属于多分类模型);W(i,j)代表了第i个特征对第j个label的影响程度
Y∈Rn∗(c1+c2);
将特征的组模型作为惩罚项,构造新的目标函数:
minWΩ(W)+L(XW,Y)+α∑i=1d∑g∈Gαg||wig||2minWβ||W||2F+||XW−Y||2F+α∑i=1d∑g∈Gαg||wig||2
组模型有一个问题:组的大小不一致,为此我们利用稀疏矩阵将组大小统一到c1+c2,并引入一个等式约束,转化问题;
引入V∈Rd∗c2(c1+c2),M∈{0,1}(c1+c2)∗c2(c1+c2),M(i,(c1+c2)(j−1)+i)=1,if B(i,j)=1.
原问题转换成:
minWβ||W||2F+||XW−Y||2F+∑i=1d∑j=1c2αj||V(i,(c1+c2)∗(j−1)+1:(c1+c2)∗j)||2s.t.V=WM
含有等式约束的最优化问题见博客;
这里使用乘子罚函数法:其中μ∈Rd∗c2(c1+c2),拉格朗日乘子;
minW,V,μΩ(W)+L(XW,Y)+Ωgroup(V)+Tr(μT(V−WM))+ρ2||V−WM||2FminW,V,μβ||W||2F+||XW−Y||2F+Ωgroup(V)+Tr(μT(V−WM))+ρ2||V−WM||2F
接下来,使用轮转方向乘子法更新W,V,μ;
(1)更新W,固定V,μ
minW∂(W)=β||W||2F+||XW−Y||2F−Tr(μTWM)+ρ2||V−WM||2F
Trace(ATA)=∑ni∑niai,j∗ai,j=||A||2F
||A+B||2F=∑∑(ai,j+bi,j)2=∑∑(a2i,j+b2i,j+2ai,jbi,j)=||A||2F+||B||2F+2Trace(ATB)
梯度为零即可;这里有进一步的变换和化简;
(3)更新V
minV∂(V)=Ωgreoup(V)+||XW−Y||2F+Tr(μTV)+ρ2||V−WM||2F
(2)更新μ
梯度下降法更新即可;
μ→μ+ρ(V−WM)
4 小结
此文模型考虑了Tag-Label信息,利用重叠套索组模型构造特征组约束;不管在分类领域还是标签推荐领域都取得了很好的结果;
不足之处:
1. 计算Tag-Label关联时,利用邻接矩阵方式,没有考虑他们共现的频率(Tag-Label之间的关联程度不同);
2. Tag信息的噪音很大,需要数据预处理;
相关文章推荐
- 基于新标注模式的实体和关系联合抽取方法(Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme)
- 从边际投影中重构类别型联合分布的可视分析方法(A Visual Analytics Approach for Categorical Joint Distribution Reconstruction
- 论文笔记:Research and Implementation of a Multi-label Learning Algorithm for Chinese Text Classification
- 通过tag值获得相应的控件 and 在didSeclec方法中获得TableView中得相应cell
- AndrowListView实现(自定义游戏列表)防止屏幕闪烁,设置分割线android中不推荐的方法,要考虑向下兼容,用了推荐的新方法,可能不兼容旧版本系统的手机
- 启动安卓模拟器时The connection to adb is down, and a severe error has occured.解决方法之一
- 推荐一款自动编译工具Visual Build Professional和一本书《Coder To Developer -- Tools and Strategies for Delivering Your Software》
- Android 实现滑动的几种方法(一)onLayout方法 和 offsetLeftAndRight()与offsetTopAndBottom();
- Correction: JSTL and expression language problem: According to TLD or attribute directive in tag file, attribute value does not
- 几何的代数方法(An algebraic approach to geometry by Borceux)勘误
- #370 – 通过绑定显示当前时间(Binding a Label’s Content to the Current Date and Time)
- 车辆2D/3D--Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis
- 移植Qt-4.8.5出现undefined reference to '__sync_sub_and_fetch_4'解决方法
- HOWTO install and setup Android NDK for Linux(Android NDK安装遇到的问题和解决方法)
- Android学习之 The connection to adb is down, and a severe error has occured. 解决方法
- use noscript html tag when user disable the javascript in browser, guide user how to enable the js in different browser and retu
- This site requires JavaScript and Cookies to be enabled的解决方法
- “The connection to adb is down, and a severe error has occured”的解决方法汇总
- 通过HttpHandler和属性用Javascript调用C#方法(Using a HttpHandler and Attributes to call C# methods in Javascript)
- Separate code and data contexts: an architectural approach to virtual text sharing