您的位置：首页 > 其它

本地化差分隐私保护的实现机制（二）

2019-09-22 12:04 50 查看

下面来谈谈这篇论文提出的新的解决机制：

分段机制：

该篇论文提出的第一个改进机制称为分段机制（PM），将 $t_{i}$ $\in$ $[-1,1]$ 作为输入，并在 $[-C,C]$ 中输出扰动值 $t_{i}^{*}$ ，其中：

$C=\frac{exp(\epsilon /2)+1}{exp(\epsilon /2)-1}$
$t_{i}^{*}$ 的概率密度函数（pdf）是分段常数函数，如下所示：

其中：

令 $pdf(t_{i}^{*})$ 为 $pdf(t_{i}^{*}=x|t_{i})$ 的缩写。下图说明了 $t_{i}$ = 0， $t_{i}$ = 0.5和 $t_{i}$ = 1情况下的 $pdf(t_{i}^{*})$ ：

观察可知：

a. 当 $t_{i}$ = 0时， $pdf(t_{i}^{*})$ 是对称的并且由三“段”组成，其中中心段（即 $t_{i}^{*}$ $\in$ [ $\iota (t_{i}),r(t_{i})$ ]）具有较高的概率（比其他两个要高）；

b. 当 $t_{i}$ 从0增加到1时，中心部分的长度保持不变（因为 $r(t_{i})-\iota (t_{i})=C-1$ ），但是最右边的部分的长度（即 $t_{i}^{*}$ $\in$ $(r(t_{i}),C]$ ）减小；

c. 当 $t_{i}$ = 1时，右边部分减小到0， $t_{i}$ $<$ 0的情况可以用类似的方式说明。

以下算法显示了PM的伪代码：

假设输入域是 $[-1,1]$ 。通常，当输入域为 $t_{i}$ $\in$ $[-r,r]$ ， $r$ $>$ 0时，用户使用PM计算 $t_{i}^{'}=\frac{t_{i}}{r}$ 来扰动 $t_{i}^{'}$ ，所以 $t_{i}^{'}$ $\in$ $[-1,1]$ ，然后按照上述算法计算出 $t_{i}^{*}$ 并将 $r\times t_{i}^{*}$ 提交给服务器，其中 $t_{i}^{*}$ 表示算法输出的噪声值。可以证明 $r\times t_{i}^{*}$ 是 $t_{i}$ 的无偏估计量。上述方法要求用户知道 $r$ 值。

这种方法是先将原始输入域扰动至规定输入域，再将扰动系数 $r$ 和噪声值之积对外发布。
以下引理确保了上述算法理论的可行性：

引理1：该算法算法满足-本地差异隐私。另外，给定输入值 $t_{i}$ ，它会返回一个带有 $E[t_{i}^{*}]$ = $t_{i}$ （期望）的噪声值 $t_{i}^{*}$ ，以及方差：

通过引理1，PM返回一个噪声值 $t_{i}^{*}$ ，其方差最大（即 $t_{i}$ = 1时）为：

下图中的紫色虚线说明了PM作为此函数的最坏情况方差：

通过观察可知：

a. 当 $\epsilon$ ≥ 1.29时，PM的最坏情况方差明显小于Duchi等人的解；

b. 当 $\epsilon$ < 1.29时，PM的最差方差仅略大于后者，其中1.29是Duchi等人解决方案和PM方案在 $x$ 坐标上的交点。

可以证明，不管PM的值如何，PM的最坏方差都严格小于Laplace机制。与Laplace机制和Duchi等人的解决方案相比，PM是更可取的选择。
此外，引理1还表明PM中的 $t_{i}^{*}$ 随着 $|t_{i}|$ 的减少而单调减少，这使得PM在输入数据的分布偏向小幅度值时特别有效。相反，Duchi等人的解决方案产生的噪声方差随 $|t_{i}|$ 的减小而增加，见下方程：

现在来看被数据收集者用来推断所有 $t_{i}$ 的平均值的估计量 $\frac{1}{n}\sum_{i}^{n}t_{i}^{*}$ 。该估计量的方差是 $t_{i}^{*}$ 的平均方差的 $\frac{1}{n}$ 。

基于此，以下引理建立了 $\frac{1}{n}\sum_{i}^{n}t_{i}^{*}$ 的精度保证：

引理2：令 $Z=\frac{1}{n}\sum_{i=1}^{n}t_{i}^{*}$ 和 $X=\frac{1}{n}\sum_{i=1}^{n}t_{i}$ 。至少具有(1-β)概率，。（论文省略了证明）
备注：

a. PM与在上一篇中描述的SCDF和Stairease mechanism具有某些相似之处，因为PM中的附加噪声也像SCDF和Stairease mechanism一样遵循分段恒定分布；

b. 另一方面，PM和SCDF/Stairease mechanism之间存在两个关键差异：

a) SCDF和Staircase机制假定无界输入，并因此产生无界输出（即范围为（ $-\infty ,+\infty$ ））。相反，PM既有边界输入（ $[-1,1]$ ）又有边界输出（ $[-C,C]$ ）；

b) SCDF/Stairease mechanism的噪声分布由无数个独立于数据的“段”组成，而PM的输出分布由三个“段”组成，其长度和位置取决于输入数据。

下一篇讲另一种改动机制。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航