您的位置:首页 > 其它

高维统计学习笔记3——高维数据下的检验

2019-04-07 16:02 113 查看

高维统计学习笔记3——高维数据下的检验:By desparsifying the lasso to construct confidence interval.

主要参考资料:Sara Van De Geer《Estimation and Testing Under Sparsity》
Van de geer, ON ASYMPTOTICALLY OPTIMAL CONFIDENCE REGIONS AND
TESTS FOR HIGH-DIMENSIONAL MODELS, 2014

前言

2014年对高维统计来说是丰收的一年,随着Van de geer(2014),Zhang&Zhang(2014),Javanmard(2014)等几篇重量级文章的文章的到来,高维数据下的检验总算是拉开窗帘看到了曙光。

高维数据下的检验

实际上,在低维情况下对LASSO进行检验并不是一件困难的事情,多数情况下我们只要要求Σ^=1nXTX→C\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow CΣ^=n1​XTX→C, 这里要求CCC是一个正定阵,那么就可以进行下去。LASSO的定义是β^=β^(λ):=arg⁡min⁡β∈Rp(∥Y−Xβ∥22/n+2λ∥β∥1) \hat{\beta}=\hat{\beta}(\lambda) :=\underset{\beta \in \mathbb{R}^{p}}{\arg \min }\left(\|Y-\mathbf{X} \beta\|_{2}^{2} / n+2 \lambda\|\beta\|_{1}\right) β^​=β^​(λ):=β∈Rpargmin​(∥Y−Xβ∥22​/n+2λ∥β∥1​)由KKT条件,
−XT(Y−Xβ^)/n+λκ^=0∥κ^∥∞≤1 and κ^j=sign⁡(β^j) if β^j≠0 \begin{aligned}-\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\lambda \hat{\kappa} &=0 \\\|\hat{\kappa}\|_{\infty} \leq 1 & \text { and } \quad \hat{\kappa}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}\right) \quad \text { if } \hat{\beta}_{j} =\not 0 \end{aligned} −XT(Y−Xβ^​)/n+λκ^∥κ^∥∞​≤1​=0 and κ^j​=sign(β^​j​) if β^​j​≠​0​若n>p,Σ^=1nXTX→Cn>p,\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow Cn>p,Σ^=n1​XTX→C,当nnn很大的时候有
(1)Σ^(β^−β0)=−λXT(Y−Xβ^)/n+XTϵ/n\hat{\Sigma}(\hat{\beta}-\beta^0)=-\lambda\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\mathbf{X}^T\epsilon/n \tag1Σ^(β^​−β0)=−λXT(Y−Xβ^​)/n+XTϵ/n(1)如果λ=o(n−0.5),ϵ∼Nn(0,σ2I)\lambda=o(n^{-0.5}),\epsilon\sim\mathcal{N}_n(0,\sigma^2I)λ=o(n−0.5),ϵ∼Nn​(0,σ2I),那么显然有
n(β^−β0)→dN(0,σ2C−1).\sqrt{n}(\hat{\beta}-\beta^0)\rightarrow_{d}N(0,\sigma^2C^{-1}).n​(β^​−β0)→d​N(0,σ2C−1).然而,在高维情况下,Σ^\hat{\Sigma}Σ^收敛到一个正定矩阵是不可能做到的,所以我们需要新的思路。Van de geer她们的想法是,既然Σ^\hat{\Sigma}Σ^是奇异的,那么我们可以想办法找到一个矩阵Θ^\hat{\Theta}Θ^,使得Θ^Σ^≈I\hat{\Theta} \hat{\Sigma}\approx IΘ^Σ^≈I,然后再对Θ^Σ^−I\hat{\Theta} \hat{\Sigma}-IΘ^Σ^−I作bound不就行了,这样我们对(1)进行变换易得β^−β0+Θ^λκ^=Θ^XTε/n−Δ/n, \hat{\beta}-\beta^{0}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\Theta} \mathbf{X}^{T} \varepsilon / n-\Delta / \sqrt{n}, β^​−β0+Θ^λκ^=Θ^XTε/n−Δ/n​,where Δ:=n(Θ^Σ^−I)(β^−β0).\Delta :=\sqrt{n}(\hat{\Theta} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right).Δ:=n​(Θ^Σ^−I)(β^​−β0).
假如我们有Δ=op(1),ε∼Nn(0,σε2I)\Delta=o_p(1),\varepsilon\sim\mathcal{N}_n(0,\sigma_{\varepsilon}^2I)Δ=op​(1),ε∼Nn​(0,σε2​I),令W=Θ^XTε/n,b^=β^+Θ^λκ^=β^+Θ^XT(Y−Xβ^)/nW=\hat{\Theta} \mathbf{X}^{T}\varepsilon / n,\hat{b}=\hat{\beta}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta} \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / nW=Θ^XTε/n,b^=β^​+Θ^λκ^=β^​+Θ^XT(Y−Xβ^​)/n,那么
n(b^−β0)=W+oP(1),W∣X∼Np(0,σε2Θ^Σ^Θ^T) \sqrt{n}\left(\hat{b}-\beta^{0}\right)=W+o_{\mathbb{P}}(1), \quad W | \mathbf{X} \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Theta} \hat{\Sigma} \hat{\Theta}^{T}\right) n​(b^−β0)=W+oP​(1),W∣X∼Np​(0,σε2​Θ^Σ^Θ^T)也就是说b^\hat{b}b^是渐进正态而且也是渐进无偏的,这样我们就可以利用LASSO进行Inference了。现在的主要问题是,如何构造Θ^\hat{\Theta}Θ^使得Δ=op(1)\Delta=o_p(1)Δ=op​(1)。文中提出来的方法是Nodewise regression,也就是
(2)γ^j:=arg⁡min⁡γ∈Rp−1(∥Xj−X−jγ∥22/n+2λj∥γ∥1), \hat{\gamma}_{j} :=\underset{\gamma \in \mathbb{R}^{p-1}}{\arg \min }\left(\left\|X_{j}-\mathbf{X}_{-j} \gamma\right\|_{2}^{2} / n+2 \lambda_{j}\|\gamma\|_{1}\right),\tag2 γ^​j​:=γ∈Rp−1argmin​(∥Xj​−X−j​γ∥22​/n+2λj​∥γ∥1​),(2)让X\mathbf{X}X自身的某列和其他列之间进行惩罚回归,这里
γ^j={γ^j,k;k=1,…,p,k≠j}. \hat{\gamma}_{j}=\left\{\hat{\gamma}_{j, k} ; k=1, \ldots, p, k=\not j\right\}. γ^​j​={γ^​j,k​;k=1,…,p,k≠​j}.令C^:=(1−γ^1,2⋯−γ^1,p−γ^2,11⋯−γ^2,p⋮⋮⋱⋮−γ^p,1−γ^p,2⋯1), \hat{C} :=\left( \begin{array}{cccc}{1} & {-\hat{\gamma}_{1,2}} & {\cdots} & {-\hat{\gamma}_{1, p}} \\ {-\hat{\gamma}_{2,1}} & {1} & {\cdots} & {-\hat{\gamma}_{2, p}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {-\hat{\gamma}_{p, 1}} & {-\hat{\gamma}_{p, 2}} & {\cdots} & {1}\end{array}\right), C^:=⎝⎜⎜⎜⎛​1−γ^​2,1​⋮−γ^​p,1​​−γ^​1,2​1⋮−γ^​p,2​​⋯⋯⋱⋯​−γ^​1,p​−γ^​2,p​⋮1​⎠⎟⎟⎟⎞​, T^2:=diag⁡(τ^12,…,τ^p2)\hat{T}^{2} :=\operatorname{diag}\left(\hat{\tau}_{1}^{2}, \ldots, \hat{\tau}_{p}^{2}\right)T^2:=diag(τ^12​,…,τ^p2​), where τ^j2:=∥Xj−X−jγ^j∥22/n+λj∥γ^j∥1.\hat{\tau}_{j}^{2} :=\left\|X_{j}-\mathbf{X}_{-j} \hat{\gamma}_{j}\right\|_{2}^{2} / n+\lambda_{j}\left\|\hat{\gamma}_{j}\right\|_{1}.τ^j2​:=∥Xj​−X−j​γ^​j​∥22​/n+λj​∥γ^​j​∥1​.
然后我们定义Θ^ Lasso :=T^−2 23ff7 C^.\hat{\Theta}_{\text { Lasso }} :=\hat{T}^{-2} \hat{C}.Θ^ Lasso ​:=T^−2C^.这样我们就找到了一个Θ^\hat{\Theta}Θ^,我们现在研究一下Θ^ Lasso \hat{\Theta}_{\text { Lasso }}Θ^ Lasso ​,看一下他是否满足Δ Lasso :=n(Θ^ Lasso Σ^−I)(β^−β0)=oP(1).\Delta_{\text { Lasso }} :=\sqrt{n}(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right)=o_{\mathbb{P}}(1).Δ Lasso ​:=n​(Θ^ Lasso ​Σ^−I)(β^​−β0)=oP​(1).Notation:∣∥A∥∣1:=max⁡j∑k∣Ak,j∣,∥A∥∞=max⁡j,k∣Ak,j∣. |\|A\||_{1} :=\max _{j} \sum_{k}\left|A_{k, j}\right|,\|A\|_\infty=\max_{j,k}|A_{k,j}|. ∣∥A∥∣1​:=jmax​k∑​∣Ak,j​∣,∥A∥∞​=j,kmax​∣Ak,j​∣.我们记Θ^ Lasso,j \hat{\Theta}_{\text { Lasso,j }}Θ^ Lasso,j ​是Θ^ Lasso \hat{\Theta}_{\text { Lasso }}Θ^ Lasso ​的第jjj行,它是个1×p1\times p1×p的行向量。C^j\hat{C}_jC^j​也是相似的定义。注意到XC^jT=Xj−X−jγ^j,Θ^ Lasso,j =C^jτ^j2,\mathbf{X}\hat{C}_j^T=X_j-\mathbf{X}_{-j}\hat{\gamma}_j,\hat{\Theta}_{\text { Lasso,j }}=\frac{\hat{C}_j}{\hat{\tau}_j^2},XC^jT​=Xj​−X−j​γ^​j​,Θ^ Lasso,j ​=τ^j2​C^j​​,(2)的KKT条件为
X−jT(Xj−X−jγ^j)/n=λjκ^j.\mathbf{X}_{-j}^T(X_j-\mathbf{X}_{-j}\hat{\gamma}_j)/n=\lambda_j\hat{\kappa}_j.X−jT​(Xj​−X−j​γ^​j​)/n=λj​κ^j​.因此(3)XjTXΘ^ Lasso, jTn=1,X−jTXΘ^ Lasso, jTn=λjκ^jτ^j2. \frac{X_{j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{n}=1,\frac{\mathbf{X}_{-j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{ n}=\frac{\lambda_{j} \hat{\kappa}_j}{ \hat{\tau}_{j}^{2}}.\tag3 nXjT​XΘ^ Lasso, jT​​=1,nX−jT​XΘ^ Lasso, jT​​=τ^j2​λj​κ^j​​.(3)由(3),显然有∥Σ^Θ^Lasso,jT−ej∥∞≤λj/τ^j2. \left\|\hat{\Sigma} \hat{\Theta}_{\text{Lasso,j}}^{T}-e_{j}\right\|_{\infty} \leq \lambda_{j} / \hat{\tau}_{j}^{2}. ∥∥∥​Σ^Θ^Lasso,jT​−ej​∥∥∥​∞​≤λj​/τ^j2​.所以∥Θ^ Lasso Σ^−I∥∞≤max⁡jλj/τ^j2.\|\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\|_\infty\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}.∥Θ^ Lasso ​Σ^−I∥∞​≤jmax​λj​/τ^j2​.当然,光这样说是非常抽象而且干瘪的,我们结合Zhang&Zhang(2014)来看一下我们到底在做一件什么事情。记Zj=Xj−X−jγ^jZ_j=X_j-\mathbf{X}_{-j}\hat{\gamma}_jZj​=Xj​−X−j​γ^​j​,Θ^=Θ^Lasso\hat{\Theta}=\hat{\Theta}_{\text{Lasso}}Θ^=Θ^Lasso​,那么b^j=β^j+Θ^jλκ^=β^+Θ^jXT(Y−Xβ^)/n=β^j+ZjT(Y−Xβ^)ZjTXj\hat{b}_j=\hat{\beta}_j+\hat{\Theta}_j \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta}_j \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n=\hat{\beta}_j+\frac{Z_j^T(Y-\mathbf{X} \hat{\beta})}{Z_j^TX_j}b^j​=β^​j​+Θ^j​λκ^=β^​+Θ^j​XT(Y−Xβ^​)/n=β^​j​+ZjT​Xj​ZjT​(Y−Xβ^​)​=ZjTYZjTXj−∑k≠jZjTXkβ^kZjTXj=βj+ZjTεZjTXj+∑k≠jZjTXk(β^k−βk)ZjTXj.=\frac{Z_j^TY}{Z_j^TX_j}-\sum_{k=\not j}{\frac{Z_j^TX_k\hat{\beta}_k}{Z_j^TX_j}}=\beta_j+\frac{Z_j^T\varepsilon}{Z_j^TX_j}+\sum_{k=\not j}{\frac{Z_j^TX_k(\hat{\beta}_k-\beta_k)}{Z_j^TX_j}}.=ZjT​Xj​ZjT​Y​−k≠​j∑​ZjT​Xj​ZjT​Xk​β^​k​​=βj​+ZjT​Xj​ZjT​ε​+k≠​j∑​ZjT​Xj​ZjT​Xk​(β^​k​−βk​)​.也就是说,这个Debiased Lasso估计实际上是对ZjZ_jZj​方向上的线性回归估计做了纠偏后得到的一个估计。

假设Σ^j,j≤M2&lt;∞,∀j\hat{\Sigma}_{j, j} \leq M^{2}&lt;\infty,\forall jΣ^j,j​≤M2<∞,∀j,由学习笔记1的内容我们知道取
λ≥2Mσε2(t2+log⁡(p))n\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{\frac{2\left(t^{2}+\log (p)\right)}{n}}λ≥2Mσε​n2(t2+log(p))​​,有至少1−e−t2/21-e^{-t^2/2}1−e−t2/2的概率使得∥β^−β0∥1≤16λs0ϕ02 and ∥X(β^−β0)∥22/n≤16λ2s0ϕ02,\left\|\hat{\beta}-\beta^{0}\right\|_{1} \leq 16 \lambda \frac{s_{0}}{\phi_{0}^{2}} \quad \text { and } \quad\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n \leq 16 \lambda^{2} \frac{s_{0}}{\phi_{0}^{2}},∥∥∥​β^​−β0∥∥∥​1​≤16λϕ02​s0​​ and ∥∥∥​X(β^​−β0)∥∥∥​22​/n≤16λ2ϕ02​s0​​,于是∥Δ∥∞/n=∥(Θ^ Lasso Σ^−I)(β^−β0)∥∞≤∥(Θ^ Lasso Σ^−I)∥∞∥β^−β0∥1. \begin{aligned}\|\Delta\|_{\infty} / \sqrt{n} &amp;=\|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left(\hat{\beta}-\beta^{0}\right)\left\|_{\infty}\right.\\ &amp; \leq \|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left\|_{\infty}\right\| \hat{\beta}-\beta^{0}\left\|_{1}\right.\end{aligned}. ∥Δ∥∞​/n​​=∥(Θ^ Lasso ​Σ^−I)(β^​−β0)∥∞​≤∥(Θ^ Lasso ​Σ^−I)∥∞​∥β^​−β0∥1​​.≤max⁡jλj/τ^j216λs0ϕ02.\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}16 \lambda \frac{s_{0}}{\phi_{0}^{2}}.≤jmax​λj​/τ^j2​16λϕ02​s0​​.所以,当ε∼Nn(0,σε2I),λ≥2Mσε2(t2+log⁡(p))/n\varepsilon \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} I\right),\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{2\left(t^{2}+\log (p)\right) / n}ε∼Nn​(0,σε2​I),λ≥2Mσε​2(t2+log(p))/n​时,我们有结果n(b^ Lasso −β0)=W+ΔW=Θ^ Lasso XTε/n∼Nn(0,σε2Ω^),Ω^:=Θ^ Lasso Σ^Θ^ Lasso TP[∥Δ∥∞≥16n(max⁡jλjτ^j2)λs0ϕ02]≤2exp⁡[−t2] \begin{array}{c}{\sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right)=W+\Delta} \\ {W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right), \quad \hat{\Omega} :=\hat{\Theta}_{\text { Lasso }} \hat{\Sigma} \hat{\Theta}_{\text { Lasso }}^T} \\ {\mathbb{P}\left[\|\Delta\|_{\infty} \geq 16 \sqrt{n}\left(\max _{j} \frac{\lambda_{j}}{\hat{\tau}_{j}^{2}}\right) \frac{\lambda s_{0}}{\phi_{0}^{2}}\right] \leq 2 \exp \left[-t^{2}\right]}\end{array} n​(b^ Lasso ​−β0)=W+ΔW=Θ^ Lasso ​XTε/n​∼Nn​(0,σε2​Ω^),Ω^:=Θ^ Lasso ​Σ^Θ^ Lasso T​P[∥Δ∥∞​≥16n​(maxj​τ^j2​λj​​)ϕ02​λs0​​]≤2exp[−t2]​当然,我们这里讨论的是X\mathbf{X}X固定下来的情况,而X\mathbf{X}X具有什么样的形式是非常重要的,也就把X\mathbf{X}X看作是随机阵去进行处理。在这里,假定X\mathbf{X}X是高斯随机阵,每一行独立且来自于同一个Np(0,Σ)\mathcal{N}_p(0,\Sigma)Np​(0,Σ)。我们先介绍一个条件——restricted eigenvalue condition:
我们说Σ^=XTX/n\hat{\Sigma}=\mathbf{X}^T\mathbf{X}/nΣ^=XTX/n在集合SSS上满足restricted eigenvalue condition如果存在ϕ0&gt;0\phi_0&gt;0ϕ0​>0,使得β⊤Σ^β=∥Xβ∥22/n≥ϕ02∥β∥22,∀β∈C(S,3), \boldsymbol{\beta}^{\top}\hat{ \boldsymbol{\Sigma} }\boldsymbol{\beta}=\|\mathbf{X} \boldsymbol{\beta}\|_{2}^{2} / n \geq \phi_{0}^{2}\|\boldsymbol{\beta}\|_{2}^{2}, \forall \boldsymbol{\beta} \in \mathscr{C}(S, 3), β⊤Σ^β=∥Xβ∥22​/n≥ϕ02​∥β∥22​,∀β∈C(S,3),这里C(S,3):={β∈Rp:∥βSc∥1≤3∥βS∥1}. \mathscr{C}(S, 3) :=\left\{\boldsymbol{\beta} \in \mathbb{R}^{p} :\left\|\boldsymbol{\beta}_{S^{c}}\right\|_{1} \leq 3\left\|\boldsymbol{\beta}_{S}\right\|_{1}\right\}. C(S,3):={β∈Rp:∥βSc​∥1​≤3∥βS​∥1​}.这个条件显然是要比compability condition强的。所以说,我们只要能够说明Σ^\hat{\Sigma}Σ^满足这个条件,那么compability的条件也就自然得到满足了。非常幸运的是,Raskutti et al.(2010)证明了在高斯设计下有不等式∥Xβ∥2/n≥∥Σ1/2β∥2/4−9max⁡j∈{1,2,⋯&ThinSpace;,p}Σj,jlog⁡p/n∥β∥1,∀β∈Rp, \|\mathbf{X} \boldsymbol{\beta}\|_{2} / \sqrt{n} \geq\left\|\mathbf{\Sigma}^{1 / 2} \boldsymbol{\beta}\right\|_{2} / 4-9 \sqrt{\max _{j \in\{1,2, \cdots, p\}} \boldsymbol{\Sigma}_{j, j}} \sqrt{\log p / n}\|\boldsymbol{\beta}\|_{1}, \forall \boldsymbol{\beta} \in \mathbb{R}^{p}, ∥Xβ∥2​/n​≥∥∥∥​Σ1/2β∥∥∥​2​/4−9j∈{1,2,⋯,p}max​Σj,j​​logp/n​∥β∥1​,∀β∈Rp,(4)(4)(4)这个不等式是依概率成立的。这样,我们可以证明如果Σ\SigmaΣ满足restricted eigenvalue condition(of order sss,parameter ϕ0\phi_0ϕ0​),那么当n&gt;C316max⁡j∈{1,2,⋯&ThinSpace;,p}Σj,jϕ02slog⁡p n&gt;C_{3} \frac{16 \max _{j \in\{1,2, \cdots, p\}} \Sigma_{j, j}}{\phi_{0}^{2}} s \log pn>C3​ϕ02​16maxj∈{1,2,⋯,p}​Σj,j​​slogp时,Σ^\hat{\Sigma}Σ^依概率满足restricted eigenvalue condition。
有了这些我们可以来完成最后的拼图了,假设X∼IIDNp(0,Σ),Σ\mathbf{X}\sim^{IID}\mathcal{N}_p(0,\Sigma),\SigmaX∼IIDNp​(0,Σ),Σ有大于0的最小特征值,i.e.,1/Λmin⁡2=O(1)1 / \Lambda_{\min }^{2}=\mathcal{O}(1)1/Λmin2​=O(1),max⁡jΣj,j=O(1)\max _{j} \Sigma_{j, j}=\mathcal{O}(1)maxj​Σj,j​=O(1)。那么显然Σ\SigmaΣ满足restricted eigenvalue condition,再假设s0=o(nlog⁡p)s_0=o(\frac{n}{\log p})s0​=o(logpn​),则Σ^\hat{\Sigma}Σ^依概率满足restricted eigenvalue condition,所以也满足compability condition,所以自然有(5)∥β^−β0∥1=OP(s0log⁡(p)n)∥X(β^−β0)∥22/n=OP(s0log⁡(p)n) \begin{array}{c}{\left\|\hat{\beta}-\beta^{0}\right\|_{1}=\mathcal{O}_{\mathbb{P}}\left(s_{0} \sqrt{\frac{\log (p)}{n}}\right)} \\ {\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n=\mathcal{O}_{\mathbb{P}}\left(\frac{s_{0} \log (p)}{n}\right)}\end{array}\tag5 ∥∥∥​β^​−β0∥∥∥​1​=OP​(s0​nlog(p)​​)∥∥∥​X(β^​−β0)∥∥∥​22​/n=OP​(ns0​log(p)​)​(5)注意到∥Σ1/2(β^−β0)∥22∥β^−β0∥22≥Λmin2, \frac{\left\|\boldsymbol{\Sigma}^{1 / 2}\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)\right\|_{2}^{2}}{\left\|\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right\|_{2}^{2}} \geq \Lambda_{\mathrm{min}}^{2}, ∥∥∥​β^​−β0∥∥∥​22​∥∥∥​Σ1/2(β^​−β0)∥∥∥​22​​≥Λmin2​,再结合(4),(5)可以得到∥β^−β0∥2=OP(s0log⁡(p)/n). \left\|\hat{\beta}-\beta^{0}\right\|_{2}=\mathcal{O}_{\mathbb{P}}\left(\sqrt{s_{0} \log (p) / n}\right). ∥∥∥​β^​−β0∥∥∥​2​=OP​(s0​log(p)/n​).我们还需要知道1/τ^j21/\hat{\tau}_{j}^{2}1/τ^j2​的大小,希望它不要太大。定义row-sparsity为sj:=∣{k≠j:Θj,k≠0}∣s_{j} :=\left|\left\{k =\not j : \Theta_{j, k} =\not 0\right\}\right|sj​:=∣{k≠​j:Θj,k​≠​0}∣,这里Θ:=Σ−1\Theta :=\Sigma^{-1}Θ:=Σ−1。我们通过假设max⁡jsj=o(n/log⁡(p))\max _{j} s_{j}=o(n / \log (p))maxj​sj​=o(n/log(p)),λj≍log⁡(p)/n,for all j .\lambda_{j}\asymp \sqrt{\log (p) / n},\text{for all j }.λj​≍log(p)/n​,for all j .以及我们上面所做的所有假设去限制它,有max⁡j1/τ^j2=OP(1)\max _{j} 1 / \hat{\tau}_{j}^{2}=\mathcal{O}_{\mathbb{P}}(1)maxj​1/τ^j2​=OP​(1),具体证明就不给了。详见Van de geer(2014)。这样,在这些假设下,若稀疏性满足s0=o(n/log⁡(p))s_{0}=o(\sqrt{n} / \log (p))s0​=o(n​/log(p)),那么我们有n(b^ Lasso −β0)=W+ΔW∣X∼Np(0,σε2Ω^)∥Δ∥∞=oP(1). \begin{aligned} \sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right) &amp;=W+\Delta \\ W | \mathbf{X} &amp; \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right) \\\|\Delta\|_{\infty} &amp;=o_{\mathbb{P}}(1) \end{aligned}. n​(b^ Lasso ​−β0)W∣X∥Δ∥∞​​=W+Δ∼Np​(0,σε2​Ω^)=oP​(1)​.这里∥Ω^−Σ−1∥∞=oP(1), \left\|\hat{\Omega}-\Sigma^{-1}\right\|_{\infty}=o_{\mathbb{P}}(1), ∥∥∥​Ω^−Σ−1∥∥∥​∞​=oP​(1),W=Θ^ Lasso XTε/n.W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} . W=Θ^ Lasso ​XTε/n​.最后说一下,Θ^\hat{\Theta}Θ^不一定要通过LASSO nodewise regression去找,也可以通过我们在学习笔记2中所讲的Square Root LASSO的方法去找,这样得到的是Θ^ Lasso\hat{\Theta}_{\sqrt{\text { Lasso}}}Θ^ Lasso​​,实际上它具有更好的性质,可以自己试着用相同的方法证明一下。

参考文献

[1]Sara van de Geer, Peter Bhlmann, Yaacov Ritov, and Ruben Dezeure. On asymptotically optimal confidence regions and tests for high-dimensional models. The Annals of Statistics, 42(3):1166–1202, 06 2014. doi: 10.1214/14-AOS1221. URL http://dx.doi.org/10.1214/14-AOS1221.
[2] Sara Van De Geer, Estimation and Testing Under Sparsity, 2014.

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: