您的位置：首页 > 其它

论文解读DEC《Unsupervised Deep Embedding for Clustering Analysis》

2022-01-12 20:56 686 查看

Junyuan Xie, Ross B. Girshick, Ali Farhadi
2015, ICML
1243 Citations, 45 References
Code:Download
Paper:Download

Abstract

　　在本文中，我们提出了 Deep Embedded Clustering(DEC)，一种使用深度神经网络同时学习 feature representations 和 cluster assignments 的方法。DEC学习从数据空间到低维特征空间的映射，并在其中迭代地优化聚类目标。

1. Introduction

　　What is Clustering???

　　Some questions for Clustering in unsupervised methods:

[li]What defifines a cluster?
What is the right distance metric?
How to effificiently group instances into clusters?
How to validate clusters?

[/li] 　　DEC的目的：本文希望找到一种方案，可以联合解决特征空间学习与聚类关系判别。本文的 idea 是从一篇 CV 论文中获得的，但是该论文采用的是监督学习的方法，然而 DEC 是无监督方法。　　本文定义了一个从 data space $X$ 到 lower-dimensional feature space $Z$ 的参数化 non-linear mapping ，在其中优化了一个聚类目标。之前的工作主要在数据空间或浅层线性嵌入空间上操作，本文通过在聚类目标上的反向传播使用随机梯度下降(SGD)来学习映射，这是由深度神经网络参数化的。本文将这种聚类算法称为 Deep Embedded Clustering ，或DEC。

　　本文贡献：

[li]joint optimization of deep embedding and clustering;
a novel iterative refifinement via soft assignment;
state-of-the-art clustering results in terms of clustering accuracy and speed.

[/li]

2. Related work

　　聚类在机器学习的 feature selection、distance functions、grouping methods 以及 cluster valida ad8 tion 方面得到了广泛研究。

　　流行的聚类方法的一个分支是 kmeans 和高斯混合模型(GMM)。这些方法速度快，可适用于范围广泛的问题。然而，它们的距离度量仅限于原始数据空间，当输入维数较高时，它们往往会无效。

　　Spectral clustering 及其变体最近得到了受欢迎。它们允许更灵活的距离度量，并且通常比 kmeans 表现得更好。Yang等人已经探索了 spectral clustering 和 embedding 的结合。 Tian 等人提出了一种基于 spectral clustering 的算法，但用深度自编码器代替特征值分解，提高了性能，但进一步增加了内存消耗。

　　Spectral clustering algorithms 需要计算全图的 Laplacian matrix ，因此在数据点的数量上具有二次或超二次复杂度。

　　最小化 data distribution 和 embedded distribution 之间的 KL 差异。

　　我们从参数化的 $t-SNE$ 中获得灵感。我们定义了一个 centroid-based 的概率分布，并最小化其 $KL$ 散度到辅助目标分布，以同时改进聚类分配和特征表示，而不是最小化 $KL$ 散度以产生辅助目标分布，从而产生忠实于原始数据空间中距离的嵌入。基于质心的方法也有将复杂度降低到 $O(nk)$ 的好处，其中 $k$ 是质心的数量。

3. Deep embedded clustering

　　Consider the problem of clustering a set of $n$ points $\left\{x_{i} \in\right. X\}_{i=1}^{n} $ into $k$ clusters, each represented by a centroid $\mu_{j}$, $j=1, \ldots, k $. Instead of clustering directly in the data space $X$ , we propose to first transform the data with a nonlinear mapping $f_{\theta}: X \rightarrow Z$ , where $\theta$ are learnable parameters and $Z $ is the latent feature space. The dimensionality of $Z$ is typically much smaller than $X$ in order to avoid the "curse of dimensionality" (Bellman, 1961). To parametrize $f_{\theta}$ , deep neural networks (DNNs) are a natural choice due to their theoretical function approximation properties (Hornik, 1991) and their demonstrated feature learning capabilities (Bengio et al., 2013). < 56c div>　　The proposed algorithm (DEC) clusters data by simultaneously learning a set of $k$ cluster centers $\left\{\mu_{j} \in Z\right\}_{j=1}^{k}$ in the feature space $Z$ and the parameters $\theta$ of the DNN that maps data points into $Z$ . DEC has two phases: (1) parameter initialization with a deep autoencoder (Vincent et al., 2010) and (2) parameter optimization (i.e., clustering), where we iterate between computing an auxiliary target distribution and minimizing the Kullback-Leibler (KL) divergence to it. We start by describing phase (2) parameter optimization clustering, given an initial estimate of $\theta$ and $\left\{\mu_{j}\right\}_{j=1}^{k} $.

3.1. Clustering with KL divergence

　　给定非线性映射 $f_{\theta}$ 和初始聚类质心 $ \left\{\mu_{j}\right\}_{j=1}^{k}$ 的初始估计，我们建议改进聚类使用在两个步骤之间交替的无监督算法。第一步，我们计算 embedded points 和 cluster centroids 之间的 soft assignment 。第二步，我们更新深度映射 $f_{\theta}$ 并通过使用辅助目标分布从当前的高 ad0 置信度分配中学习来细化集群质心。重复此过程，直到满足收敛标准。

3.1.1. Soft assignment

　　我们使用 Student’s t-distribution 作为核来衡量 embedded point $z_i$ 和质心 $\mu_{j}$ 之间的相似性：

　　　　$q_{i j}=\frac{\left(1+\left\|z_{i}-\mu_{j}\right\|^{2} / \alpha\right)^{-\frac{\alpha+1}{2}}}{\sum_{j^{\prime}}\left(1+\left\|z_{i}-\mu_{j^{\prime}}\right\|^{2} / \alpha\right)^{-\frac{\alpha+1}{2}}} \quad \quad\quad\quad (1)$

　　其中：$z_{i}=f_{\theta}\left(x_{i}\right) \in Z$ 是嵌入后的 $x_{i} \in X$ ，$\alpha$ 是 Student's t distribution 的自由度，$q_{i j}$ 可以解释为将样本 $i$ 分配给聚类 $j$ 的概率（即软分配）。由于我们不能在无监督设置下的验证集上交叉验证 $\alpha $，并且学习它是多余的，我们让 $α=1$ 用于所有实验。

3.1.2. KL Divergence minimization

　　我们建议在 auxiliary target distribution 的帮助下，通过学习 high confidence assignments 来迭代地细化 clusters 。具体来说，我们的模型是通过匹配软分配到目标分布来训练的。为此，我们将我们的目标定义为软分配 $q_i$ 和辅助分布 $p_i$ 之间的KL散度损失如下：

　　　　$L=\mathrm{KL}(P \| Q)=\sum \limits_{i} \sum \limits_{j} p_{i j} \log \frac{p_{i j}}{q_{i j}} \quad \quad\quad\quad (2)$

　　目标分布 $P$ 的选择是 DEC 的性能的关键。一种简单的方法是将超过置信阈值的数据点的每个 $p_i$ 设置为一个 $delta$ 分布（到最近的质心），而忽略其余的。然而，由于 $q_i$ 是软任务，所以使用较软的概率目标更自然和灵活。

　　具体来说，我们希望我们的 target distribution 具有以下特性：

strengthen predictions (i.e., improve cluster purity).
put more emphasis on data points assigned with high confidence.
normalize loss contributio 3ba4 n of each centroid to prevent large clusters from distorting the hidden feature space.

　　在我们的实验中，我们计算 $p_i$，首先将 $q_i$ 提高到二次幂，然后按每个簇的频率归一化：

　　　　${\large p_{i j}=\frac{q_{i j}^{2} / f_{j}}{\sum_{j^{\prime}} q_{i j^{\prime}}^{2} / f_{j^{\prime}}}} \quad \quad\quad\quad (3)$

　　其中 $f_{j}=\sum \limits _{i} q_{i j}$ 是 soft cluster frequencies 。关于L和P的经验性质的讨论，请参考第5.1节。

3.1.3. Optimization

　　我们利用具有动量的随机梯度下降(SGD)联合优化了聚类中心 $\left\{\mu_{j}\right\} $ 和DNN参数 $\theta $。$L$ 对每个数据点 $z_i$ 和每个聚类质心 $\mu_{j}$ 的特征空间嵌入的梯度计算为：

　　　　$\frac{\partial L}{\partial z_{i}}=\frac{\alpha+1}{\alpha} \sum \limits _{j}\left(1+\frac{\left\|z_{i}-\mu_{j}\right\|^{2}}{\alpha}\right)^{-1}\quad \quad\quad\quad (4)$

　　　　$\frac{\partial L}{\partial \mu_{j}}=-\frac{\alpha+1}{\alpha} \sum \limits _{i}\left(1+\frac{\left\|z_{i}-\mu_{j}\right\|^{2}}{\alpha}\right)^{-1}\times\left(p_{i j}-q_{i j}\right)\left(z_{i}-\mu_{j}\right)\quad \quad\quad\quad (5)$

　　梯度 $\partial L / \partial z_{i}$ 然后被传递给DNN，并用于标准的反向传播来计算 DNN 的参数梯度 $\partial L / \partial \theta$。为了发现集群分配，当连续两次迭代之间改变集群分配的点小于 $tol \%$ 时，我们停止我们的过程。

3.2. Parameter initialization

　　到目前为止，我们已经讨论了 DEC 如何处理 DNN 参数$θ$ 和簇质心 ${µ_j}$ 的初始估计。现在我们将讨论参数和质心是如何初始化的。

　　我们使用堆叠自动编码器(SAE)初始化DEC，因为最近的研究表明，它们在真实数据集上始终产生具有语义意义和分离良好的表示。因此，SAE学习到的无监督表示自然地促进了使用DEC进行聚类表示的学习。

　　我们一层一层地初始化SAE网络，每一层都是一个去噪自动编码器，在随机损坏后重建前一层的输出。去噪自动编码器是一种两层神经网络，其定义为：

　　　　$\tilde{x} \sim \operatorname{Dropout}(x) \quad \quad\quad\quad (6)$

　　　　$h=g_{1}\left(W_{1} \tilde{x}+b_{1}\right) \quad \quad\quad\quad (7)$

　　　　$\tilde{h} \sim \operatorname{Dropout}(h) \quad \quad\quad\quad (8)$

　　　　$y=g_{2}\left(W_{2} \tilde{h}+b_{2}\right)\quad \quad\quad\quad (9)$

　　其中，$\operatorname{Dropout}(\cdot)$ 是一个随机映射，它将其输入维度的一部分随机设置为0，$g_{1}$ and $g_{2}$ 分别为编码层和解码层的激活函数，$\theta=\left\{W_{1}, b_{1}, W_{2}, b_{2}\right\}$ 为模型参数。训练是通过最小化最小二乘损失 $\|x-y\|_{2}^{2}$ 来完成的。在训练了一层后，我们使用它的输出有输入来训练下一层。我们在所有编码器/解码器对中使用校正线性单元(ReLUs)，除了第一对的 $g_{2}$ （它需要重建可能有正负值的输入数据，如零均值图像）和最后对的 $g_{1}$ (因此最终数据嵌入保留完整信息)。

　　经过 greedy layer-wise training 后，我们将所有编码器层和所有解码器层，按反向层训练顺序连接起来，形成一个深度自动编码器，然后对其进行微调，使其最小化重构损失。最终的结果是一个中间有一个瓶颈编码层的多层深度自动编码器。然后我们丢弃解码器层，并使用编码器层作为数据空间和特征空间之间的初始映射，如 Fig. 1 所示。

　　为了初始化聚类中心，我们将数据通过初始化的DNN传递，得到嵌入的数据点，然后在特征空间 $Z$ 中执行标准的 $k-means$ 聚类，得到 $k$ 个初始质心 $\left\{\mu_{j}\right\}_{j=1}^{k}$。

4. Experiments

4.1. Datasets

　　我们在一个文本数据集和两个图像数据集上评估了所提出的方法(DEC)，并将其与其他算法包括 $k-means$、$LDGMI$ 和 $SEC$ 进行比较。$LDGMI$ 和$SEC$ 是基于 spectral clustering 的算法，它们使用拉普拉斯矩阵和各种变换来提高聚类性能。

MNIST：MNIST数据集由280000像素大小的70000个手写数字组成。这些数字居中并进行尺寸归一化(LeCun等，1998)。
STL-10: 96 x 96彩色图像的数据集。有10个类别，每个类别有1300个样本。它还包含100000张相同分辨率的无标签图像(Coates等，2011)。训练自动编码器时，我们还使用了无标签的集合。与Doersch等人(2012)相似，我们将HOG特征和8×8色图连接起来，用作所有算法的输入。
REUTERS: REUTERS包含大约810000个以类别树标签的英语新闻报道(Lewis等，2004)。我们使用了四个根类别：公司/工业，政府/社会，市场和经济学作为标签，并进一步修剪了由多个根类别标签的所有文档以得到685071个文章。然后，我们根据2000个最常见的词干计算tf-idf特征。由于某些算法无法扩展到整个Reuters数据集，因此我们还抽样了10000个样本的随机子集，我们将其称为REUTERS-10k，以进行比较。

4.2. Evaluation Metric

　　我们使用标准的无监督评估 metric 和 protocol 来与其他算法进行评估和比较。对于所有的算法，我们将聚类的数量设置为 ground-truth 类别的数量，并以无监督的聚类精度(ACC)来评估性能：

　　　　$A C C=\max _{m} \frac{\sum_{i=1}^{n} 1\left\{l_{i}=m\left(c_{i}\right)\right\}}{n}\quad \quad\quad\quad (10)$

　　其中 $ l_{i}$ 是ground-truth label ，$c_{i}$ 是该算法产生的聚类分配，$m$ 是将 $c_{i}$ 进行聚类映射。

4.3. Implementation

　　实验参数补充，略........

4.4. Experiment results

　　我们定量和定性地评估了我们的算法的性能。在 Table 2 中，我们报告了每种算法的最佳性能，超过9个超参数设置。

　　请注意，DEC的性能优于所有其他方法，有时会有很大的优势。为了证明端到端训练的有效性，我们还展示了在聚类过程中冻结非线性映射 $f_θ$ 的结果。

　　为了研究超参数的影响，我们绘制了每种方法在所有 $9$ 种设置下的准确性（ Fig.2）。

　　我们观察到，与 LDGMI 和 SEC 相比，DEC 在超参数范围内更为一致。对于 DEC，超参数 $λ=40$ 在所有数据集上都给出了接近最优的性能，而对于其他算法，最优超参数变化很大。此外，DEC可以用GPU加速处理整个 REUTERS 数据集，而第二好的算法LDGMI和SEC则需要数月的计算时间和 TB 的内存。事实上，我们不能在完整的 REUTERS 数据集上运行这些方法，并在 Table 2 中报告N/A(这些方法的GPU适应不是重要的)。

　　在 Fig. 3 中，我们显示了 MNIST 和 STL 中每个聚类中10张得分最高的图像。每一行对应一个 cluster，图像根据它们到 cluster center 的距离从左到右进行排序。我们观察到，对于 MNIST，DEC 的 cluster assignment 很好地对应自然集群，除了混淆4和9，而对于STL，DEC对飞机、卡车和汽车大多是正确的，但在动物类别时，部分注意力花在姿势上而不是类别上。

5. Discussion

5.1. Assumptions and Objective

　　DEC的基本假设是，初始分类器的高置信度预测大部分是正确的。为了验证该假设对我们的任务是否成立，以及我们对 $P$ 的选择是否具有所需的属性，我们针对每个嵌入点 $\left|\partial L / \partial z_{i}\right|$ ，对其软分配 $q_{ij}$ ，绘制了 $L$ 的梯度大小到随机选择的 MNIST 聚类 $j$(Fig4)。

　　我们观察到靠近聚类中心(较大 $q_{ij}$ )的点对梯度的贡献更大。我们还显示了按 $q_{ij}$ 排序的每个10个百分位数的10个数据点的原始图像。如相似度更高的实例“ 5”。随着置信度的降低，实例变得更加模棱两可，最终变成错误标签的 ”8”，表明我们的假设是正确的。

5.2. Contribution of Iterative Optimization

　　在 Fig.5 中，我们可视化了训练过程中 MNIST 随机子集的嵌入式表示的进度。为了可视化，我们将 t-SNE应用于嵌入点 $z_i$。显然，聚类之间的隔离度越来越高。 Fig.5(f) 显示了在SGD epoch 相对应的精度如何提高。

5.3. Contribution of Autoencoder Initialization

　　为了更好地理解每个组件的贡献，我们在 Table 3 中展示了所有具有自编码器特征的算法的性能。我们观察到，SEC 和 LDMGI 的表现并没有随 autoencoder feature 而显著变化，而 $k-means$ 有所改善，但仍低于 $DEC$ 。这证明了采用提议的 $KL$ 散度目标进行深度嵌入的能力以及微调的好处。

5.4. Performance on Imbalanced Data

　　为了研究不平衡数据的影响，我们对具有不同保留率的 MNIST 子集进行了采样。对于最小保留率 $r_{\min } $，类别 $0$ 的数据点将以 $r_{\min } $的概率保留，类别 $9$ 将以 $1$ 的概率保留，而其他类别的数据点之间则保持线性关系。结果，最大的簇将是最小簇的 $1 / r_{\min }$ 倍。从 Table 4 中我们可以看到 DEC 对于簇大小的变化具有相当强的鲁棒性。我们还观察到，在自动编码器和 k-means 初始化（显示为AE+k-means）之后，KL散度最小化(DEC)不断提高了聚类精度。

5.5. Number of Clusters

　　到目前为止，我们已经假定给出自然簇的数量是为了简化算法之间的比较。但是，实际上，此数量通常是未知的。因此，需要一种确定最佳簇数的方法。为此，我们定义两个度量：

标准度量，归一化互信息(NMI)，用于评估具有不同聚类数量的聚类结果：

　　　　$N M I(l, c)=\frac{I(l, c)}{\frac{1}{2}[H(l)+H(c)]}$

　　其中 $I$ 是互信息度量，$H$ 是熵。

泛化性(G)定义为训练损失与验证损失之间的比率：

　　　　$G=\frac{L_{\text {train }}}{L_{\text {validation }}}$

　　当训练损失低于验证损失时，$G$ 很小，这表明高度过拟合。

　　 Fig. 6 显示了当簇数从 $9$ 增加到 $10$ 时，泛化性急剧下降，这表明 $9$ 是最优的簇数。我们确实观察到NMI得分最高为 $9$，这表明泛化性是选择簇数的良好指标。 NMI最高是 $9$，而不是 $10$，因为 $9$ 和 $4$ 在文字上相似，DEC认为它们应该组成一个聚类。这与我们在 Fig. 3 中的定性结果非常吻合。

6. Conclusion

　　本文提出了深度嵌入式聚类，即DEC，一种在联合优化的特征空间中聚集一组数据点的算法。DEC的工作原理是迭代优化基于KL散度的聚类目标和自训练目标分布。我们的方法可以看作是半监督自我训练的无监督扩展。我们的框架提供了一种方法来学习专门的 ad8 表示，而没有基本聚类成员标签。

　　实证研究证明了我们所提出的算法的有效性。DEC提供了更好的性能和鲁棒性，这在无监督任务中尤其重要，因为交叉验证是不可能的。DEC还具有数据点数量的线性复杂性的优点，这使得它可以扩展到大型数据集。

『总结不易，加个关注呗！』

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航