高维统计学习笔记3——高维数据下的检验
高维统计学习笔记3——高维数据下的检验:By desparsifying the lasso to construct confidence interval.
主要参考资料:Sara Van De Geer《Estimation and Testing Under Sparsity》
Van de geer, ON ASYMPTOTICALLY OPTIMAL CONFIDENCE REGIONS AND
TESTS FOR HIGH-DIMENSIONAL MODELS, 2014
前言
2014年对高维统计来说是丰收的一年,随着Van de geer(2014),Zhang&Zhang(2014),Javanmard(2014)等几篇重量级文章的文章的到来,高维数据下的检验总算是拉开窗帘看到了曙光。
高维数据下的检验
实际上,在低维情况下对LASSO进行检验并不是一件困难的事情,多数情况下我们只要要求Σ^=1nXTX→C\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow CΣ^=n1XTX→C, 这里要求CCC是一个正定阵,那么就可以进行下去。LASSO的定义是β^=β^(λ):=argminβ∈Rp(∥Y−Xβ∥22/n+2λ∥β∥1)
\hat{\beta}=\hat{\beta}(\lambda) :=\underset{\beta \in \mathbb{R}^{p}}{\arg \min }\left(\|Y-\mathbf{X} \beta\|_{2}^{2} / n+2 \lambda\|\beta\|_{1}\right)
β^=β^(λ):=β∈Rpargmin(∥Y−Xβ∥22/n+2λ∥β∥1)由KKT条件,
−XT(Y−Xβ^)/n+λκ^=0∥κ^∥∞≤1 and κ^j=sign(β^j) if β^j≠0
\begin{aligned}-\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\lambda \hat{\kappa} &=0 \\\|\hat{\kappa}\|_{\infty} \leq 1 & \text { and } \quad \hat{\kappa}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}\right) \quad \text { if } \hat{\beta}_{j} =\not 0 \end{aligned}
−XT(Y−Xβ^)/n+λκ^∥κ^∥∞≤1=0 and κ^j=sign(β^j) if β^j≠0若n>p,Σ^=1nXTX→Cn>p,\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow Cn>p,Σ^=n1XTX→C,当nnn很大的时候有
(1)Σ^(β^−β0)=−λXT(Y−Xβ^)/n+XTϵ/n\hat{\Sigma}(\hat{\beta}-\beta^0)=-\lambda\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\mathbf{X}^T\epsilon/n \tag1Σ^(β^−β0)=−λXT(Y−Xβ^)/n+XTϵ/n(1)如果λ=o(n−0.5),ϵ∼Nn(0,σ2I)\lambda=o(n^{-0.5}),\epsilon\sim\mathcal{N}_n(0,\sigma^2I)λ=o(n−0.5),ϵ∼Nn(0,σ2I),那么显然有
n(β^−β0)→dN(0,σ2C−1).\sqrt{n}(\hat{\beta}-\beta^0)\rightarrow_{d}N(0,\sigma^2C^{-1}).n(β^−β0)→dN(0,σ2C−1).然而,在高维情况下,Σ^\hat{\Sigma}Σ^收敛到一个正定矩阵是不可能做到的,所以我们需要新的思路。Van de geer她们的想法是,既然Σ^\hat{\Sigma}Σ^是奇异的,那么我们可以想办法找到一个矩阵Θ^\hat{\Theta}Θ^,使得Θ^Σ^≈I\hat{\Theta} \hat{\Sigma}\approx IΘ^Σ^≈I,然后再对Θ^Σ^−I\hat{\Theta} \hat{\Sigma}-IΘ^Σ^−I作bound不就行了,这样我们对(1)进行变换易得β^−β0+Θ^λκ^=Θ^XTε/n−Δ/n,
\hat{\beta}-\beta^{0}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\Theta} \mathbf{X}^{T} \varepsilon / n-\Delta / \sqrt{n},
β^−β0+Θ^λκ^=Θ^XTε/n−Δ/n,where Δ:=n(Θ^Σ^−I)(β^−β0).\Delta :=\sqrt{n}(\hat{\Theta} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right).Δ:=n(Θ^Σ^−I)(β^−β0).
假如我们有Δ=op(1),ε∼Nn(0,σε2I)\Delta=o_p(1),\varepsilon\sim\mathcal{N}_n(0,\sigma_{\varepsilon}^2I)Δ=op(1),ε∼Nn(0,σε2I),令W=Θ^XTε/n,b^=β^+Θ^λκ^=β^+Θ^XT(Y−Xβ^)/nW=\hat{\Theta} \mathbf{X}^{T}\varepsilon / n,\hat{b}=\hat{\beta}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta} \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / nW=Θ^XTε/n,b^=β^+Θ^λκ^=β^+Θ^XT(Y−Xβ^)/n,那么
n(b^−β0)=W+oP(1),W∣X∼Np(0,σε2Θ^Σ^Θ^T)
\sqrt{n}\left(\hat{b}-\beta^{0}\right)=W+o_{\mathbb{P}}(1), \quad W | \mathbf{X} \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Theta} \hat{\Sigma} \hat{\Theta}^{T}\right)
n(b^−β0)=W+oP(1),W∣X∼Np(0,σε2Θ^Σ^Θ^T)也就是说b^\hat{b}b^是渐进正态而且也是渐进无偏的,这样我们就可以利用LASSO进行Inference了。现在的主要问题是,如何构造Θ^\hat{\Theta}Θ^使得Δ=op(1)\Delta=o_p(1)Δ=op(1)。文中提出来的方法是Nodewise regression,也就是
(2)γ^j:=argminγ∈Rp−1(∥Xj−X−jγ∥22/n+2λj∥γ∥1),
\hat{\gamma}_{j} :=\underset{\gamma \in \mathbb{R}^{p-1}}{\arg \min }\left(\left\|X_{j}-\mathbf{X}_{-j} \gamma\right\|_{2}^{2} / n+2 \lambda_{j}\|\gamma\|_{1}\right),\tag2
γ^j:=γ∈Rp−1argmin(∥Xj−X−jγ∥22/n+2λj∥γ∥1),(2)让X\mathbf{X}X自身的某列和其他列之间进行惩罚回归,这里
γ^j={γ^j,k;k=1,…,p,k≠j}.
\hat{\gamma}_{j}=\left\{\hat{\gamma}_{j, k} ; k=1, \ldots, p, k=\not j\right\}.
γ^j={γ^j,k;k=1,…,p,k≠j}.令C^:=(1−γ^1,2⋯−γ^1,p−γ^2,11⋯−γ^2,p⋮⋮⋱⋮−γ^p,1−γ^p,2⋯1),
\hat{C} :=\left( \begin{array}{cccc}{1} & {-\hat{\gamma}_{1,2}} & {\cdots} & {-\hat{\gamma}_{1, p}} \\ {-\hat{\gamma}_{2,1}} & {1} & {\cdots} & {-\hat{\gamma}_{2, p}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {-\hat{\gamma}_{p, 1}} & {-\hat{\gamma}_{p, 2}} & {\cdots} & {1}\end{array}\right),
C^:=⎝⎜⎜⎜⎛1−γ^2,1⋮−γ^p,1−γ^1,21⋮−γ^p,2⋯⋯⋱⋯−γ^1,p−γ^2,p⋮1⎠⎟⎟⎟⎞, T^2:=diag(τ^12,…,τ^p2)\hat{T}^{2} :=\operatorname{diag}\left(\hat{\tau}_{1}^{2}, \ldots, \hat{\tau}_{p}^{2}\right)T^2:=diag(τ^12,…,τ^p2), where τ^j2:=∥Xj−X−jγ^j∥22/n+λj∥γ^j∥1.\hat{\tau}_{j}^{2} :=\left\|X_{j}-\mathbf{X}_{-j} \hat{\gamma}_{j}\right\|_{2}^{2} / n+\lambda_{j}\left\|\hat{\gamma}_{j}\right\|_{1}.τ^j2:=∥Xj−X−jγ^j∥22/n+λj∥γ^j∥1.
然后我们定义Θ^ Lasso :=T^−2
23ff7
C^.\hat{\Theta}_{\text { Lasso }} :=\hat{T}^{-2} \hat{C}.Θ^ Lasso :=T^−2C^.这样我们就找到了一个Θ^\hat{\Theta}Θ^,我们现在研究一下Θ^ Lasso \hat{\Theta}_{\text { Lasso }}Θ^ Lasso ,看一下他是否满足Δ Lasso :=n(Θ^ Lasso Σ^−I)(β^−β0)=oP(1).\Delta_{\text { Lasso }} :=\sqrt{n}(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right)=o_{\mathbb{P}}(1).Δ Lasso :=n(Θ^ Lasso Σ^−I)(β^−β0)=oP(1).Notation:∣∥A∥∣1:=maxj∑k∣Ak,j∣,∥A∥∞=maxj,k∣Ak,j∣.
|\|A\||_{1} :=\max _{j} \sum_{k}\left|A_{k, j}\right|,\|A\|_\infty=\max_{j,k}|A_{k,j}|.
∣∥A∥∣1:=jmaxk∑∣Ak,j∣,∥A∥∞=j,kmax∣Ak,j∣.我们记Θ^ Lasso,j \hat{\Theta}_{\text { Lasso,j }}Θ^ Lasso,j 是Θ^ Lasso \hat{\Theta}_{\text { Lasso }}Θ^ Lasso 的第jjj行,它是个1×p1\times p1×p的行向量。C^j\hat{C}_jC^j也是相似的定义。注意到XC^jT=Xj−X−jγ^j,Θ^ Lasso,j =C^jτ^j2,\mathbf{X}\hat{C}_j^T=X_j-\mathbf{X}_{-j}\hat{\gamma}_j,\hat{\Theta}_{\text { Lasso,j }}=\frac{\hat{C}_j}{\hat{\tau}_j^2},XC^jT=Xj−X−jγ^j,Θ^ Lasso,j =τ^j2C^j,(2)的KKT条件为
X−jT(Xj−X−jγ^j)/n=λjκ^j.\mathbf{X}_{-j}^T(X_j-\mathbf{X}_{-j}\hat{\gamma}_j)/n=\lambda_j\hat{\kappa}_j.X−jT(Xj−X−jγ^j)/n=λjκ^j.因此(3)XjTXΘ^ Lasso, jTn=1,X−jTXΘ^ Lasso, jTn=λjκ^jτ^j2.
\frac{X_{j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{n}=1,\frac{\mathbf{X}_{-j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{ n}=\frac{\lambda_{j} \hat{\kappa}_j}{ \hat{\tau}_{j}^{2}}.\tag3
nXjTXΘ^ Lasso, jT=1,nX−jTXΘ^ Lasso, jT=τ^j2λjκ^j.(3)由(3),显然有∥Σ^Θ^Lasso,jT−ej∥∞≤λj/τ^j2.
\left\|\hat{\Sigma} \hat{\Theta}_{\text{Lasso,j}}^{T}-e_{j}\right\|_{\infty} \leq \lambda_{j} / \hat{\tau}_{j}^{2}.
∥∥∥Σ^Θ^Lasso,jT−ej∥∥∥∞≤λj/τ^j2.所以∥Θ^ Lasso Σ^−I∥∞≤maxjλj/τ^j2.\|\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\|_\infty\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}.∥Θ^ Lasso Σ^−I∥∞≤jmaxλj/τ^j2.当然,光这样说是非常抽象而且干瘪的,我们结合Zhang&Zhang(2014)来看一下我们到底在做一件什么事情。记Zj=Xj−X−jγ^jZ_j=X_j-\mathbf{X}_{-j}\hat{\gamma}_jZj=Xj−X−jγ^j,Θ^=Θ^Lasso\hat{\Theta}=\hat{\Theta}_{\text{Lasso}}Θ^=Θ^Lasso,那么b^j=β^j+Θ^jλκ^=β^+Θ^jXT(Y−Xβ^)/n=β^j+ZjT(Y−Xβ^)ZjTXj\hat{b}_j=\hat{\beta}_j+\hat{\Theta}_j \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta}_j \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n=\hat{\beta}_j+\frac{Z_j^T(Y-\mathbf{X} \hat{\beta})}{Z_j^TX_j}b^j=β^j+Θ^jλκ^=β^+Θ^jXT(Y−Xβ^)/n=β^j+ZjTXjZjT(Y−Xβ^)=ZjTYZjTXj−∑k≠jZjTXkβ^kZjTXj=βj+ZjTεZjTXj+∑k≠jZjTXk(β^k−βk)ZjTXj.=\frac{Z_j^TY}{Z_j^TX_j}-\sum_{k=\not j}{\frac{Z_j^TX_k\hat{\beta}_k}{Z_j^TX_j}}=\beta_j+\frac{Z_j^T\varepsilon}{Z_j^TX_j}+\sum_{k=\not j}{\frac{Z_j^TX_k(\hat{\beta}_k-\beta_k)}{Z_j^TX_j}}.=ZjTXjZjTY−k≠j∑ZjTXjZjTXkβ^k=βj+ZjTXjZjTε+k≠j∑ZjTXjZjTXk(β^k−βk).也就是说,这个Debiased Lasso估计实际上是对ZjZ_jZj方向上的线性回归估计做了纠偏后得到的一个估计。
假设Σ^j,j≤M2<∞,∀j\hat{\Sigma}_{j, j} \leq M^{2}<\infty,\forall jΣ^j,j≤M2<∞,∀j,由学习笔记1的内容我们知道取
λ≥2Mσε2(t2+log(p))n\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{\frac{2\left(t^{2}+\log (p)\right)}{n}}λ≥2Mσεn2(t2+log(p)),有至少1−e−t2/21-e^{-t^2/2}1−e−t2/2的概率使得∥β^−β0∥1≤16λs0ϕ02 and ∥X(β^−β0)∥22/n≤16λ2s0ϕ02,\left\|\hat{\beta}-\beta^{0}\right\|_{1} \leq 16 \lambda \frac{s_{0}}{\phi_{0}^{2}} \quad \text { and } \quad\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n \leq 16 \lambda^{2} \frac{s_{0}}{\phi_{0}^{2}},∥∥∥β^−β0∥∥∥1≤16λϕ02s0 and ∥∥∥X(β^−β0)∥∥∥22/n≤16λ2ϕ02s0,于是∥Δ∥∞/n=∥(Θ^ Lasso Σ^−I)(β^−β0)∥∞≤∥(Θ^ Lasso Σ^−I)∥∞∥β^−β0∥1.
\begin{aligned}\|\Delta\|_{\infty} / \sqrt{n} &=\|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left(\hat{\beta}-\beta^{0}\right)\left\|_{\infty}\right.\\ & \leq \|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left\|_{\infty}\right\| \hat{\beta}-\beta^{0}\left\|_{1}\right.\end{aligned}.
∥Δ∥∞/n=∥(Θ^ Lasso Σ^−I)(β^−β0)∥∞≤∥(Θ^ Lasso Σ^−I)∥∞∥β^−β0∥1.≤maxjλj/τ^j216λs0ϕ02.\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}16 \lambda \frac{s_{0}}{\phi_{0}^{2}}.≤jmaxλj/τ^j216λϕ02s0.所以,当ε∼Nn(0,σε2I),λ≥2Mσε2(t2+log(p))/n\varepsilon \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} I\right),\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{2\left(t^{2}+\log (p)\right) / n}ε∼Nn(0,σε2I),λ≥2Mσε2(t2+log(p))/n时,我们有结果n(b^ Lasso −β0)=W+ΔW=Θ^ Lasso XTε/n∼Nn(0,σε2Ω^),Ω^:=Θ^ Lasso Σ^Θ^ Lasso TP[∥Δ∥∞≥16n(maxjλjτ^j2)λs0ϕ02]≤2exp[−t2]
\begin{array}{c}{\sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right)=W+\Delta} \\ {W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right), \quad \hat{\Omega} :=\hat{\Theta}_{\text { Lasso }} \hat{\Sigma} \hat{\Theta}_{\text { Lasso }}^T} \\ {\mathbb{P}\left[\|\Delta\|_{\infty} \geq 16 \sqrt{n}\left(\max _{j} \frac{\lambda_{j}}{\hat{\tau}_{j}^{2}}\right) \frac{\lambda s_{0}}{\phi_{0}^{2}}\right] \leq 2 \exp \left[-t^{2}\right]}\end{array}
n(b^ Lasso −β0)=W+ΔW=Θ^ Lasso XTε/n∼Nn(0,σε2Ω^),Ω^:=Θ^ Lasso Σ^Θ^ Lasso TP[∥Δ∥∞≥16n(maxjτ^j2λj)ϕ02λs0]≤2exp[−t2]当然,我们这里讨论的是X\mathbf{X}X固定下来的情况,而X\mathbf{X}X具有什么样的形式是非常重要的,也就把X\mathbf{X}X看作是随机阵去进行处理。在这里,假定X\mathbf{X}X是高斯随机阵,每一行独立且来自于同一个Np(0,Σ)\mathcal{N}_p(0,\Sigma)Np(0,Σ)。我们先介绍一个条件——restricted eigenvalue condition:
我们说Σ^=XTX/n\hat{\Sigma}=\mathbf{X}^T\mathbf{X}/nΣ^=XTX/n在集合SSS上满足restricted eigenvalue condition如果存在ϕ0>0\phi_0>0ϕ0>0,使得β⊤Σ^β=∥Xβ∥22/n≥ϕ02∥β∥22,∀β∈C(S,3),
\boldsymbol{\beta}^{\top}\hat{ \boldsymbol{\Sigma} }\boldsymbol{\beta}=\|\mathbf{X} \boldsymbol{\beta}\|_{2}^{2} / n \geq \phi_{0}^{2}\|\boldsymbol{\beta}\|_{2}^{2}, \forall \boldsymbol{\beta} \in \mathscr{C}(S, 3),
β⊤Σ^β=∥Xβ∥22/n≥ϕ02∥β∥22,∀β∈C(S,3),这里C(S,3):={β∈Rp:∥βSc∥1≤3∥βS∥1}.
\mathscr{C}(S, 3) :=\left\{\boldsymbol{\beta} \in \mathbb{R}^{p} :\left\|\boldsymbol{\beta}_{S^{c}}\right\|_{1} \leq 3\left\|\boldsymbol{\beta}_{S}\right\|_{1}\right\}.
C(S,3):={β∈Rp:∥βSc∥1≤3∥βS∥1}.这个条件显然是要比compability condition强的。所以说,我们只要能够说明Σ^\hat{\Sigma}Σ^满足这个条件,那么compability的条件也就自然得到满足了。非常幸运的是,Raskutti et al.(2010)证明了在高斯设计下有不等式∥Xβ∥2/n≥∥Σ1/2β∥2/4−9maxj∈{1,2,⋯ ,p}Σj,jlogp/n∥β∥1,∀β∈Rp,
\|\mathbf{X} \boldsymbol{\beta}\|_{2} / \sqrt{n} \geq\left\|\mathbf{\Sigma}^{1 / 2} \boldsymbol{\beta}\right\|_{2} / 4-9 \sqrt{\max _{j \in\{1,2, \cdots, p\}} \boldsymbol{\Sigma}_{j, j}} \sqrt{\log p / n}\|\boldsymbol{\beta}\|_{1}, \forall \boldsymbol{\beta} \in \mathbb{R}^{p},
∥Xβ∥2/n≥∥∥∥Σ1/2β∥∥∥2/4−9j∈{1,2,⋯,p}maxΣj,jlogp/n∥β∥1,∀β∈Rp,(4)(4)(4)这个不等式是依概率成立的。这样,我们可以证明如果Σ\SigmaΣ满足restricted eigenvalue condition(of order sss,parameter ϕ0\phi_0ϕ0),那么当n>C316maxj∈{1,2,⋯ ,p}Σj,jϕ02slogp
n>C_{3} \frac{16 \max _{j \in\{1,2, \cdots, p\}} \Sigma_{j, j}}{\phi_{0}^{2}} s \log pn>C3ϕ0216maxj∈{1,2,⋯,p}Σj,jslogp时,Σ^\hat{\Sigma}Σ^依概率满足restricted eigenvalue condition。
有了这些我们可以来完成最后的拼图了,假设X∼IIDNp(0,Σ),Σ\mathbf{X}\sim^{IID}\mathcal{N}_p(0,\Sigma),\SigmaX∼IIDNp(0,Σ),Σ有大于0的最小特征值,i.e.,1/Λmin2=O(1)1 / \Lambda_{\min }^{2}=\mathcal{O}(1)1/Λmin2=O(1),maxjΣj,j=O(1)\max _{j} \Sigma_{j, j}=\mathcal{O}(1)maxjΣj,j=O(1)。那么显然Σ\SigmaΣ满足restricted eigenvalue condition,再假设s0=o(nlogp)s_0=o(\frac{n}{\log p})s0=o(logpn),则Σ^\hat{\Sigma}Σ^依概率满足restricted eigenvalue condition,所以也满足compability condition,所以自然有(5)∥β^−β0∥1=OP(s0log(p)n)∥X(β^−β0)∥22/n=OP(s0log(p)n)
\begin{array}{c}{\left\|\hat{\beta}-\beta^{0}\right\|_{1}=\mathcal{O}_{\mathbb{P}}\left(s_{0} \sqrt{\frac{\log (p)}{n}}\right)} \\ {\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n=\mathcal{O}_{\mathbb{P}}\left(\frac{s_{0} \log (p)}{n}\right)}\end{array}\tag5
∥∥∥β^−β0∥∥∥1=OP(s0nlog(p))∥∥∥X(β^−β0)∥∥∥22/n=OP(ns0log(p))(5)注意到∥Σ1/2(β^−β0)∥22∥β^−β0∥22≥Λmin2,
\frac{\left\|\boldsymbol{\Sigma}^{1 / 2}\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)\right\|_{2}^{2}}{\left\|\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right\|_{2}^{2}} \geq \Lambda_{\mathrm{min}}^{2},
∥∥∥β^−β0∥∥∥22∥∥∥Σ1/2(β^−β0)∥∥∥22≥Λmin2,再结合(4),(5)可以得到∥β^−β0∥2=OP(s0log(p)/n).
\left\|\hat{\beta}-\beta^{0}\right\|_{2}=\mathcal{O}_{\mathbb{P}}\left(\sqrt{s_{0} \log (p) / n}\right).
∥∥∥β^−β0∥∥∥2=OP(s0log(p)/n).我们还需要知道1/τ^j21/\hat{\tau}_{j}^{2}1/τ^j2的大小,希望它不要太大。定义row-sparsity为sj:=∣{k≠j:Θj,k≠0}∣s_{j} :=\left|\left\{k =\not j : \Theta_{j, k} =\not 0\right\}\right|sj:=∣{k≠j:Θj,k≠0}∣,这里Θ:=Σ−1\Theta :=\Sigma^{-1}Θ:=Σ−1。我们通过假设maxjsj=o(n/log(p))\max _{j} s_{j}=o(n / \log (p))maxjsj=o(n/log(p)),λj≍log(p)/n,for all j .\lambda_{j}\asymp \sqrt{\log (p) / n},\text{for all j }.λj≍log(p)/n,for all j .以及我们上面所做的所有假设去限制它,有maxj1/τ^j2=OP(1)\max _{j} 1 / \hat{\tau}_{j}^{2}=\mathcal{O}_{\mathbb{P}}(1)maxj1/τ^j2=OP(1),具体证明就不给了。详见Van de geer(2014)。这样,在这些假设下,若稀疏性满足s0=o(n/log(p))s_{0}=o(\sqrt{n} / \log (p))s0=o(n/log(p)),那么我们有n(b^ Lasso −β0)=W+ΔW∣X∼Np(0,σε2Ω^)∥Δ∥∞=oP(1).
\begin{aligned} \sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right) &=W+\Delta \\ W | \mathbf{X} & \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right) \\\|\Delta\|_{\infty} &=o_{\mathbb{P}}(1) \end{aligned}.
n(b^ Lasso −β0)W∣X∥Δ∥∞=W+Δ∼Np(0,σε2Ω^)=oP(1).这里∥Ω^−Σ−1∥∞=oP(1),
\left\|\hat{\Omega}-\Sigma^{-1}\right\|_{\infty}=o_{\mathbb{P}}(1),
∥∥∥Ω^−Σ−1∥∥∥∞=oP(1),W=Θ^ Lasso XTε/n.W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} .
W=Θ^ Lasso XTε/n.最后说一下,Θ^\hat{\Theta}Θ^不一定要通过LASSO nodewise regression去找,也可以通过我们在学习笔记2中所讲的Square Root LASSO的方法去找,这样得到的是Θ^ Lasso\hat{\Theta}_{\sqrt{\text { Lasso}}}Θ^ Lasso,实际上它具有更好的性质,可以自己试着用相同的方法证明一下。
参考文献
[1]Sara van de Geer, Peter Bhlmann, Yaacov Ritov, and Ruben Dezeure. On asymptotically optimal confidence regions and tests for high-dimensional models. The Annals of Statistics, 42(3):1166–1202, 06 2014. doi: 10.1214/14-AOS1221. URL http://dx.doi.org/10.1214/14-AOS1221.
[2] Sara Van De Geer, Estimation and Testing Under Sparsity, 2014.
- Pandas学习笔记之重复数据统计
- hadoop学习笔记之mapreduce 基于hbase日志数据的最频繁访问ip统计
- Django学习笔记六:form表单实现评论(检验数据合法性)
- 全栈数据工程师养成攻略学习笔记——python实现西游记用字情况统计
- 数据挖掘学习笔记:分类、统计学习
- 10.Oracle深度学习笔记——Oracle统计数据自动采集脚本
- Spark学习笔记——Spark上数据的获取、处理和准备
- ArcGIS Mobile 9.4学习笔记九之数据篇
- Python学习笔记(1)--数据结构
- React Native 学习笔记十四(原生模块之数据回调)
- 大数据算法学习笔记(七):外存算法
- 大数据学习笔记-------------------(8)
- SilverLight学习笔记--本地(客户端)数据存储
- TinyOS学习笔记8-简单发送接收数据
- 大数据学习笔记-------------------(5)
- 大数据学习笔记(七)-Spark的图形化工具的使用
- 【SQL Server学习笔记】变更数据捕获(Change Data Capture)
- 【python学习笔记02】python的数据类型2
- 学习springboot笔记(四)数据访问之JPA
- 1Java学习笔记之数据结构——单链表