您的位置：首页 > 其它

高维统计学习笔记3——高维数据下的检验

2019-04-07 16:02 113 查看

高维统计学习笔记3——高维数据下的检验：By desparsifying the lasso to construct confidence interval.

主要参考资料：Sara Van De Geer《Estimation and Testing Under Sparsity》
Van de geer, ON ASYMPTOTICALLY OPTIMAL CONFIDENCE REGIONS AND
TESTS FOR HIGH-DIMENSIONAL MODELS, 2014

前言

2014年对高维统计来说是丰收的一年，随着Van de geer(2014)，Zhang&Zhang(2014)，Javanmard(2014)等几篇重量级文章的文章的到来，高维数据下的检验总算是拉开窗帘看到了曙光。

高维数据下的检验

实际上，在低维情况下对LASSO进行检验并不是一件困难的事情，多数情况下我们只要要求Σ^=1nXTX→C\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow CΣ^=n1XTX→C, 这里要求CCC是一个正定阵，那么就可以进行下去。LASSO的定义是β^=β^(λ):=arg⁡min⁡β∈Rp(∥Y−Xβ∥22/n+2λ∥β∥1) \hat{\beta}=\hat{\beta}(\lambda) :=\underset{\beta \in \mathbb{R}^{p}}{\arg \min }\left(\|Y-\mathbf{X} \beta\|_{2}^{2} / n+2 \lambda\|\beta\|_{1}\right) β^=β^(λ):=β∈Rpargmin(∥Y−Xβ∥22/n+2λ∥β∥1)由KKT条件，
−XT(Y−Xβ^)/n+λκ^=0∥κ^∥∞≤1 and κ^j=sign⁡(β^j) if β^j≠0 \begin{aligned}-\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\lambda \hat{\kappa} &=0 \\\|\hat{\kappa}\|_{\infty} \leq 1 & \text { and } \quad \hat{\kappa}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}\right) \quad \text { if } \hat{\beta}_{j} =\not 0 \end{aligned} −XT(Y−Xβ^)/n+λκ^∥κ^∥∞≤1=0 and κ^j=sign(β^j) if β^j≠0若n>p,Σ^=1nXTX→Cn>p,\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow Cn>p,Σ^=n1XTX→C，当nnn很大的时候有
(1)Σ^(β^−β0)=−λXT(Y−Xβ^)/n+XTϵ/n\hat{\Sigma}(\hat{\beta}-\beta^0)=-\lambda\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\mathbf{X}^T\epsilon/n \tag1Σ^(β^−β0)=−λXT(Y−Xβ^)/n+XTϵ/n(1)如果λ=o(n−0.5),ϵ∼Nn(0,σ2I)\lambda=o(n^{-0.5}),\epsilon\sim\mathcal{N}_n(0,\sigma^2I)λ=o(n−0.5),ϵ∼Nn(0,σ2I)，那么显然有
n(β^−β0)→dN(0,σ2C−1).\sqrt{n}(\hat{\beta}-\beta^0)\rightarrow_{d}N(0,\sigma^2C^{-1}).n(β^−β0)→dN(0,σ2C−1).然而，在高维情况下，Σ^\hat{\Sigma}Σ^收敛到一个正定矩阵是不可能做到的，所以我们需要新的思路。Van de geer她们的想法是，既然Σ^\hat{\Sigma}Σ^是奇异的，那么我们可以想办法找到一个矩阵Θ^\hat{\Theta}Θ^，使得Θ^Σ^≈I\hat{\Theta} \hat{\Sigma}\approx IΘ^Σ^≈I，然后再对Θ^Σ^−I\hat{\Theta} \hat{\Sigma}-IΘ^Σ^−I作bound不就行了，这样我们对(1)进行变换易得β^−β0+Θ^λκ^=Θ^XTε/n−Δ/n, \hat{\beta}-\beta^{0}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\Theta} \mathbf{X}^{T} \varepsilon / n-\Delta / \sqrt{n}, β^−β0+Θ^λκ^=Θ^XTε/n−Δ/n,where Δ:=n(Θ^Σ^−I)(β^−β0).\Delta :=\sqrt{n}(\hat{\Theta} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right).Δ:=n(Θ^Σ^−I)(β^−β0).
假如我们有Δ=op(1),ε∼Nn(0,σε2I)\Delta=o_p(1),\varepsilon\sim\mathcal{N}_n(0,\sigma_{\varepsilon}^2I)Δ=op(1),ε∼Nn(0,σε2I)，令W=Θ^XTε/n,b^=β^+Θ^λκ^=β^+Θ^XT(Y−Xβ^)/nW=\hat{\Theta} \mathbf{X}^{T}\varepsilon / n,\hat{b}=\hat{\beta}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta} \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / nW=Θ^XTε/n,b^=β^+Θ^λκ^=β^+Θ^XT(Y−Xβ^)/n，那么
n(b^−β0)=W+oP(1),W∣X∼Np(0,σε2Θ^Σ^Θ^T) \sqrt{n}\left(\hat{b}-\beta^{0}\right)=W+o_{\mathbb{P}}(1), \quad W | \mathbf{X} \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Theta} \hat{\Sigma} \hat{\Theta}^{T}\right) n(b^−β0)=W+oP(1),W∣X∼Np(0,σε2Θ^Σ^Θ^T)也就是说b^\hat{b}b^是渐进正态而且也是渐进无偏的，这样我们就可以利用LASSO进行Inference了。现在的主要问题是，如何构造Θ^\hat{\Theta}Θ^使得Δ=op(1)\Delta=o_p(1)Δ=op(1)。文中提出来的方法是Nodewise regression，也就是
(2)γ^j:=arg⁡min⁡γ∈Rp−1(∥Xj−X−jγ∥22/n+2λj∥γ∥1), \hat{\gamma}_{j} :=\underset{\gamma \in \mathbb{R}^{p-1}}{\arg \min }\left(\left\|X_{j}-\mathbf{X}_{-j} \gamma\right\|_{2}^{2} / n+2 \lambda_{j}\|\gamma\|_{1}\right),\tag2 γ^j:=γ∈Rp−1argmin(∥Xj−X−jγ∥22/n+2λj∥γ∥1),(2)让X\mathbf{X}X自身的某列和其他列之间进行惩罚回归，这里
γ^j={γ^j,k;k=1,…,p,k≠j}. \hat{\gamma}_{j}=\left\{\hat{\gamma}_{j, k} ; k=1, \ldots, p, k=\not j\right\}. γ^j={γ^j,k;k=1,…,p,k≠j}.令C^:=(1−γ^1,2⋯−γ^1,p−γ^2,11⋯−γ^2,p⋮⋮⋱⋮−γ^p,1−γ^p,2⋯1)， \hat{C} :=\left( \begin{array}{cccc}{1} & {-\hat{\gamma}_{1,2}} & {\cdots} & {-\hat{\gamma}_{1, p}} \\ {-\hat{\gamma}_{2,1}} & {1} & {\cdots} & {-\hat{\gamma}_{2, p}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {-\hat{\gamma}_{p, 1}} & {-\hat{\gamma}_{p, 2}} & {\cdots} & {1}\end{array}\right)， C^:=⎝⎜⎜⎜⎛1−γ^2,1⋮−γ^p,1−γ^1,21⋮−γ^p,2⋯⋯⋱⋯−γ^1,p−γ^2,p⋮1⎠⎟⎟⎟⎞， T^2:=diag⁡(τ^12,…,τ^p2)\hat{T}^{2} :=\operatorname{diag}\left(\hat{\tau}_{1}^{2}, \ldots, \hat{\tau}_{p}^{2}\right)T^2:=diag(τ^12,…,τ^p2), where τ^j2:=∥Xj−X−jγ^j∥22/n+λj∥γ^j∥1.\hat{\tau}_{j}^{2} :=\left\|X_{j}-\mathbf{X}_{-j} \hat{\gamma}_{j}\right\|_{2}^{2} / n+\lambda_{j}\left\|\hat{\gamma}_{j}\right\|_{1}.τ^j2:=∥Xj−X−jγ^j∥22/n+λj∥γ^j∥1.
然后我们定义Θ^ Lasso :=T^−2 23ff7 C^.\hat{\Theta}_{\text { Lasso }} :=\hat{T}^{-2} \hat{C}.Θ^ Lasso :=T^−2C^.这样我们就找到了一个Θ^\hat{\Theta}Θ^，我们现在研究一下Θ^ Lasso \hat{\Theta}_{\text { Lasso }}Θ^ Lasso ，看一下他是否满足Δ Lasso :=n(Θ^ Lasso Σ^−I)(β^−β0)=oP(1).\Delta_{\text { Lasso }} :=\sqrt{n}(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right)=o_{\mathbb{P}}(1).Δ Lasso :=n(Θ^ Lasso Σ^−I)(β^−β0)=oP(1).Notation:∣∥A∥∣1:=max⁡j∑k∣Ak,j∣,∥A∥∞=max⁡j,k∣Ak,j∣. |\|A\||_{1} :=\max _{j} \sum_{k}\left|A_{k, j}\right|,\|A\|_\infty=\max_{j,k}|A_{k,j}|. ∣∥A∥∣1:=jmaxk∑∣Ak,j∣,∥A∥∞=j,kmax∣Ak,j∣.我们记Θ^ Lasso,j \hat{\Theta}_{\text { Lasso,j }}Θ^ Lasso,j 是Θ^ Lasso \hat{\Theta}_{\text { Lasso }}Θ^ Lasso 的第jjj行，它是个1×p1\times p1×p的行向量。C^j\hat{C}_jC^j也是相似的定义。注意到XC^jT=Xj−X−jγ^j,Θ^ Lasso,j =C^jτ^j2,\mathbf{X}\hat{C}_j^T=X_j-\mathbf{X}_{-j}\hat{\gamma}_j,\hat{\Theta}_{\text { Lasso,j }}=\frac{\hat{C}_j}{\hat{\tau}_j^2},XC^jT=Xj−X−jγ^j,Θ^ Lasso,j =τ^j2C^j,(2)的KKT条件为
X−jT(Xj−X−jγ^j)/n=λjκ^j.\mathbf{X}_{-j}^T(X_j-\mathbf{X}_{-j}\hat{\gamma}_j)/n=\lambda_j\hat{\kappa}_j.X−jT(Xj−X−jγ^j)/n=λjκ^j.因此(3)XjTXΘ^ Lasso, jTn=1,X−jTXΘ^ Lasso, jTn=λjκ^jτ^j2. \frac{X_{j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{n}=1,\frac{\mathbf{X}_{-j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{ n}=\frac{\lambda_{j} \hat{\kappa}_j}{ \hat{\tau}_{j}^{2}}.\tag3 nXjTXΘ^ Lasso, jT=1,nX−jTXΘ^ Lasso, jT=τ^j2λjκ^j.(3)由(3)，显然有∥Σ^Θ^Lasso,jT−ej∥∞≤λj/τ^j2. \left\|\hat{\Sigma} \hat{\Theta}_{\text{Lasso,j}}^{T}-e_{j}\right\|_{\infty} \leq \lambda_{j} / \hat{\tau}_{j}^{2}. ∥∥∥Σ^Θ^Lasso,jT−ej∥∥∥∞≤λj/τ^j2.所以∥Θ^ Lasso Σ^−I∥∞≤max⁡jλj/τ^j2.\|\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\|_\infty\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}.∥Θ^ Lasso Σ^−I∥∞≤jmaxλj/τ^j2.当然，光这样说是非常抽象而且干瘪的，我们结合Zhang&Zhang(2014)来看一下我们到底在做一件什么事情。记Zj=Xj−X−jγ^jZ_j=X_j-\mathbf{X}_{-j}\hat{\gamma}_jZj=Xj−X−jγ^j，Θ^=Θ^Lasso\hat{\Theta}=\hat{\Theta}_{\text{Lasso}}Θ^=Θ^Lasso，那么b^j=β^j+Θ^jλκ^=β^+Θ^jXT(Y−Xβ^)/n=β^j+ZjT(Y−Xβ^)ZjTXj\hat{b}_j=\hat{\beta}_j+\hat{\Theta}_j \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta}_j \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n=\hat{\beta}_j+\frac{Z_j^T(Y-\mathbf{X} \hat{\beta})}{Z_j^TX_j}b^j=β^j+Θ^jλκ^=β^+Θ^jXT(Y−Xβ^)/n=β^j+ZjTXjZjT(Y−Xβ^)=ZjTYZjTXj−∑k≠jZjTXkβ^kZjTXj=βj+ZjTεZjTXj+∑k≠jZjTXk(β^k−βk)ZjTXj.=\frac{Z_j^TY}{Z_j^TX_j}-\sum_{k=\not j}{\frac{Z_j^TX_k\hat{\beta}_k}{Z_j^TX_j}}=\beta_j+\frac{Z_j^T\varepsilon}{Z_j^TX_j}+\sum_{k=\not j}{\frac{Z_j^TX_k(\hat{\beta}_k-\beta_k)}{Z_j^TX_j}}.=ZjTXjZjTY−k≠j∑ZjTXjZjTXkβ^k=βj+ZjTXjZjTε+k≠j∑ZjTXjZjTXk(β^k−βk).也就是说，这个Debiased Lasso估计实际上是对ZjZ_jZj方向上的线性回归估计做了纠偏后得到的一个估计。

假设Σ^j,j≤M2<∞,∀j\hat{\Sigma}_{j, j} \leq M^{2}<\infty,\forall jΣ^j,j≤M2<∞,∀j，由学习笔记1的内容我们知道取
λ≥2Mσε2(t2+log⁡(p))n\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{\frac{2\left(t^{2}+\log (p)\right)}{n}}λ≥2Mσεn2(t2+log(p))，有至少1−e−t2/21-e^{-t^2/2}1−e−t2/2的概率使得∥β^−β0∥1≤16λs0ϕ02 and ∥X(β^−β0)∥22/n≤16λ2s0ϕ02,\left\|\hat{\beta}-\beta^{0}\right\|_{1} \leq 16 \lambda \frac{s_{0}}{\phi_{0}^{2}} \quad \text { and } \quad\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n \leq 16 \lambda^{2} \frac{s_{0}}{\phi_{0}^{2}},∥∥∥β^−β0∥∥∥1≤16λϕ02s0 and ∥∥∥X(β^−β0)∥∥∥22/n≤16λ2ϕ02s0,于是∥Δ∥∞/n=∥(Θ^ Lasso Σ^−I)(β^−β0)∥∞≤∥(Θ^ Lasso Σ^−I)∥∞∥β^−β0∥1. \begin{aligned}\|\Delta\|_{\infty} / \sqrt{n} &=\|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left(\hat{\beta}-\beta^{0}\right)\left\|_{\infty}\right.\\ & \leq \|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left\|_{\infty}\right\| \hat{\beta}-\beta^{0}\left\|_{1}\right.\end{aligned}. ∥Δ∥∞/n=∥(Θ^ Lasso Σ^−I)(β^−β0)∥∞≤∥(Θ^ Lasso Σ^−I)∥∞∥β^−β0∥1.≤max⁡jλj/τ^j216λs0ϕ02.\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}16 \lambda \frac{s_{0}}{\phi_{0}^{2}}.≤jmaxλj/τ^j216λϕ02s0.所以，当ε∼Nn(0,σε2I),λ≥2Mσε2(t2+log⁡(p))/n\varepsilon \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} I\right),\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{2\left(t^{2}+\log (p)\right) / n}ε∼Nn(0,σε2I),λ≥2Mσε2(t2+log(p))/n时，我们有结果n(b^ Lasso −β0)=W+ΔW=Θ^ Lasso XTε/n∼Nn(0,σε2Ω^),Ω^:=Θ^ Lasso Σ^Θ^ Lasso TP[∥Δ∥∞≥16n(max⁡jλjτ^j2)λs0ϕ02]≤2exp⁡[−t2] \begin{array}{c}{\sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right)=W+\Delta} \\ {W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right), \quad \hat{\Omega} :=\hat{\Theta}_{\text { Lasso }} \hat{\Sigma} \hat{\Theta}_{\text { Lasso }}^T} \\ {\mathbb{P}\left[\|\Delta\|_{\infty} \geq 16 \sqrt{n}\left(\max _{j} \frac{\lambda_{j}}{\hat{\tau}_{j}^{2}}\right) \frac{\lambda s_{0}}{\phi_{0}^{2}}\right] \leq 2 \exp \left[-t^{2}\right]}\end{array} n(b^ Lasso −β0)=W+ΔW=Θ^ Lasso XTε/n∼Nn(0,σε2Ω^),Ω^:=Θ^ Lasso Σ^Θ^ Lasso TP[∥Δ∥∞≥16n(maxjτ^j2λj)ϕ02λs0]≤2exp[−t2]当然，我们这里讨论的是X\mathbf{X}X固定下来的情况，而X\mathbf{X}X具有什么样的形式是非常重要的，也就把X\mathbf{X}X看作是随机阵去进行处理。在这里，假定X\mathbf{X}X是高斯随机阵，每一行独立且来自于同一个Np(0,Σ)\mathcal{N}_p(0,\Sigma)Np(0,Σ)。我们先介绍一个条件——restricted eigenvalue condition:
我们说Σ^=XTX/n\hat{\Sigma}=\mathbf{X}^T\mathbf{X}/nΣ^=XTX/n在集合SSS上满足restricted eigenvalue condition如果存在ϕ0>0\phi_0>0ϕ0>0，使得β⊤Σ^β=∥Xβ∥22/n≥ϕ02∥β∥22,∀β∈C(S,3), \boldsymbol{\beta}^{\top}\hat{ \boldsymbol{\Sigma} }\boldsymbol{\beta}=\|\mathbf{X} \boldsymbol{\beta}\|_{2}^{2} / n \geq \phi_{0}^{2}\|\boldsymbol{\beta}\|_{2}^{2}, \forall \boldsymbol{\beta} \in \mathscr{C}(S, 3), β⊤Σ^β=∥Xβ∥22/n≥ϕ02∥β∥22,∀β∈C(S,3),这里C(S,3):={β∈Rp:∥βSc∥1≤3∥βS∥1}. \mathscr{C}(S, 3) :=\left\{\boldsymbol{\beta} \in \mathbb{R}^{p} :\left\|\boldsymbol{\beta}_{S^{c}}\right\|_{1} \leq 3\left\|\boldsymbol{\beta}_{S}\right\|_{1}\right\}. C(S,3):={β∈Rp:∥βSc∥1≤3∥βS∥1}.这个条件显然是要比compability condition强的。所以说，我们只要能够说明Σ^\hat{\Sigma}Σ^满足这个条件，那么compability的条件也就自然得到满足了。非常幸运的是，Raskutti et al.(2010)证明了在高斯设计下有不等式∥Xβ∥2/n≥∥Σ1/2β∥2/4−9max⁡j∈{1,2,⋯ ,p}Σj,jlog⁡p/n∥β∥1,∀β∈Rp, \|\mathbf{X} \boldsymbol{\beta}\|_{2} / \sqrt{n} \geq\left\|\mathbf{\Sigma}^{1 / 2} \boldsymbol{\beta}\right\|_{2} / 4-9 \sqrt{\max _{j \in\{1,2, \cdots, p\}} \boldsymbol{\Sigma}_{j, j}} \sqrt{\log p / n}\|\boldsymbol{\beta}\|_{1}, \forall \boldsymbol{\beta} \in \mathbb{R}^{p}, ∥Xβ∥2/n≥∥∥∥Σ1/2β∥∥∥2/4−9j∈{1,2,⋯,p}maxΣj,jlogp/n∥β∥1,∀β∈Rp,(4)(4)(4)这个不等式是依概率成立的。这样，我们可以证明如果Σ\SigmaΣ满足restricted eigenvalue condition(of order sss,parameter ϕ0\phi_0ϕ0)，那么当n>C316max⁡j∈{1,2,⋯ ,p}Σj,jϕ02slog⁡p n>C_{3} \frac{16 \max _{j \in\{1,2, \cdots, p\}} \Sigma_{j, j}}{\phi_{0}^{2}} s \log pn>C3ϕ0216maxj∈{1,2,⋯,p}Σj,jslogp时，Σ^\hat{\Sigma}Σ^依概率满足restricted eigenvalue condition。
有了这些我们可以来完成最后的拼图了，假设X∼IIDNp(0,Σ),Σ\mathbf{X}\sim^{IID}\mathcal{N}_p(0,\Sigma),\SigmaX∼IIDNp(0,Σ),Σ有大于0的最小特征值，i.e.,1/Λmin⁡2=O(1)1 / \Lambda_{\min }^{2}=\mathcal{O}(1)1/Λmin2=O(1)，max⁡jΣj,j=O(1)\max _{j} \Sigma_{j, j}=\mathcal{O}(1)maxjΣj,j=O(1)。那么显然Σ\SigmaΣ满足restricted eigenvalue condition，再假设s0=o(nlog⁡p)s_0=o(\frac{n}{\log p})s0=o(logpn)，则Σ^\hat{\Sigma}Σ^依概率满足restricted eigenvalue condition,所以也满足compability condition,所以自然有(5)∥β^−β0∥1=OP(s0log⁡(p)n)∥X(β^−β0)∥22/n=OP(s0log⁡(p)n) \begin{array}{c}{\left\|\hat{\beta}-\beta^{0}\right\|_{1}=\mathcal{O}_{\mathbb{P}}\left(s_{0} \sqrt{\frac{\log (p)}{n}}\right)} \\ {\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n=\mathcal{O}_{\mathbb{P}}\left(\frac{s_{0} \log (p)}{n}\right)}\end{array}\tag5 ∥∥∥β^−β0∥∥∥1=OP(s0nlog(p))∥∥∥X(β^−β0)∥∥∥22/n=OP(ns0log(p))(5)注意到∥Σ1/2(β^−β0)∥22∥β^−β0∥22≥Λmin2, \frac{\left\|\boldsymbol{\Sigma}^{1 / 2}\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)\right\|_{2}^{2}}{\left\|\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right\|_{2}^{2}} \geq \Lambda_{\mathrm{min}}^{2}, ∥∥∥β^−β0∥∥∥22∥∥∥Σ1/2(β^−β0)∥∥∥22≥Λmin2,再结合(4),(5)可以得到∥β^−β0∥2=OP(s0log⁡(p)/n). \left\|\hat{\beta}-\beta^{0}\right\|_{2}=\mathcal{O}_{\mathbb{P}}\left(\sqrt{s_{0} \log (p) / n}\right). ∥∥∥β^−β0∥∥∥2=OP(s0log(p)/n).我们还需要知道1/τ^j21/\hat{\tau}_{j}^{2}1/τ^j2的大小，希望它不要太大。定义row-sparsity为sj:=∣{k≠j:Θj,k≠0}∣s_{j} :=\left|\left\{k =\not j : \Theta_{j, k} =\not 0\right\}\right|sj:=∣{k≠j:Θj,k≠0}∣，这里Θ:=Σ−1\Theta :=\Sigma^{-1}Θ:=Σ−1。我们通过假设max⁡jsj=o(n/log⁡(p))\max _{j} s_{j}=o(n / \log (p))maxjsj=o(n/log(p))，λj≍log⁡(p)/n,for all j .\lambda_{j}\asymp \sqrt{\log (p) / n},\text{for all j }.λj≍log(p)/n,for all j .以及我们上面所做的所有假设去限制它，有max⁡j1/τ^j2=OP(1)\max _{j} 1 / \hat{\tau}_{j}^{2}=\mathcal{O}_{\mathbb{P}}(1)maxj1/τ^j2=OP(1),具体证明就不给了。详见Van de geer(2014)。这样，在这些假设下，若稀疏性满足s0=o(n/log⁡(p))s_{0}=o(\sqrt{n} / \log (p))s0=o(n/log(p))，那么我们有n(b^ Lasso −β0)=W+ΔW∣X∼Np(0,σε2Ω^)∥Δ∥∞=oP(1). \begin{aligned} \sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right) &=W+\Delta \\ W | \mathbf{X} & \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right) \\\|\Delta\|_{\infty} &=o_{\mathbb{P}}(1) \end{aligned}. n(b^ Lasso −β0)W∣X∥Δ∥∞=W+Δ∼Np(0,σε2Ω^)=oP(1).这里∥Ω^−Σ−1∥∞=oP(1), \left\|\hat{\Omega}-\Sigma^{-1}\right\|_{\infty}=o_{\mathbb{P}}(1), ∥∥∥Ω^−Σ−1∥∥∥∞=oP(1),W=Θ^ Lasso XTε/n.W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} . W=Θ^ Lasso XTε/n.最后说一下，Θ^\hat{\Theta}Θ^不一定要通过LASSO nodewise regression去找，也可以通过我们在学习笔记2中所讲的Square Root LASSO的方法去找，这样得到的是Θ^ Lasso\hat{\Theta}_{\sqrt{\text { Lasso}}}Θ^ Lasso，实际上它具有更好的性质，可以自己试着用相同的方法证明一下。

参考文献

[1]Sara van de Geer, Peter Bhlmann, Yaacov Ritov, and Ruben Dezeure. On asymptotically optimal confidence regions and tests for high-dimensional models. The Annals of Statistics, 42(3):1166–1202, 06 2014. doi: 10.1214/14-AOS1221. URL http://dx.doi.org/10.1214/14-AOS1221.
[2] Sara Van De Geer, Estimation and Testing Under Sparsity, 2014.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航