Algorithms for Detecting Significantly Mutated Pathways in Cancer
2016-07-24 18:52
477 查看
本文是对《Algorithms for Detecting Significantly Mutated Pathways in Cancer》(2011年)的学习笔记
摘要:
近期基因组测序的研究表明导致癌症发展的体细胞突变分布在大量的基因中。这种变异的异质性使得努力从分散的乘客突变区分功能性突变变得复杂。假如癌症变异目标在细胞信号相对少且正常的路径上,则常规做法是估计是否已知路径涵盖了突变基因。我们介绍一种可供选择的方法在全基因组范围的基因相互作用网络中去检测突变基因。我们介绍一种计算高效的策略,该策略重新定义了在统计显著的患者中突变的交互网络的子网络。这个框架包含了两个主要成分。第一,我们使用在交互网络中的扩散过程去定义网络中每个突变基因的"局部影响邻居";第二,我们导出一个两阶段多假设检验约束错误发生率(FDR)来定义子网络。我们在庞大的人类蛋白质-蛋白质交互网络上使用来自胶质母细胞瘤和肺腺癌样本的体细胞突变数据测试这些算法。我们成功地恢复了这些癌症中已知的重要路径,并且定义了那些与其他癌症有牵连但不是以前报道的突变的额外路径。我们希望,我们会发现越来越多地使用使得癌症基因组研究的规模和范围不断增加。
一、数学模型(模型准备)
1.G = ( V,E )表示交互信息图
其中,顶点V表示个体患者(或相对应的基因),边E表示蛋白质-蛋白质关系或蛋白质-DNA关系。
2.Τ⊆V,表示Τ是在V中已经检测到的或是鉴定过的基因子集。(此处V表示患者对应的基因组集)
3.S为样本集。
4.g表示单个基因,对于每一个g,要么是突变的(mutated),要么是正常的(normal)。
5.Mi表示第 i 位患者在基因子集T中的突变基因子集,i = 1...|S|。
注:区分T与Mi,T为已知基因子集,Mi为在T中突变基因子集,Mi⊆Τ⊆V。
6.Sj是突变基因gj⊆T所归属的所有样本集(gj表示在基因子集T中的第j个基因),j
= 1...|T|。
注:换句话说,Sj表示该样本集中的所有样本在基因子集T中第j个基因都发生突变。
7.m=Σi |Mi|,表示所有样本中可以观察到的变异基因总数。
8.路径(pathway)与子网络(subnetwork)是G的链接子图。
9.如果路径中任何一个基因是突变的,则都认为路径是突变的。
注:任何(any而不是every),指如果有一个或一个以上的突变,则认为路径是突变的
二、影响力图(Influence graph)
目的:识别样本中关于突变基因有效的子网络
有效性来源:(1).在网络基因中突变样本的个数 (2).在整个网络拓扑结构子网络基因的交互关系。
影响力(influence)计算:通过流动过程(diffusion process)测量结点s与其他所有结点的影响力。
1.流体以恒定速率被泵送如源结点s,通过图中的边进行流动。
2.流体以一个恒定的一阶速率γ从每一个结点流失。
3.
表示在时间t时结点v中流体的总量(源结点为s)
4.
表示在所有结点中流体的列向量
5.
表示图的拉普拉斯矩阵,
,其中A是图的邻接矩阵,D是对角阵
则,
(表示在恒定一阶速率γ下的图的拉普拉斯矩阵)
6.
这个矩阵等式规定了持续时间动态过程。
其中
是基本单位向量,在
第s个位置(源结点位置)是1,其余位置是0
是单位阶跃函数(unit step functon),即t>0时u(t)=1,t<0时u(t)=0。
当
时,系统达到稳定。
7.
是图中的流体密度平衡分布(equilibrium distribution)
-------以上为准备过程,是前人已有的结论-------
-------以下为作者的影响力模型-----------------------
8.
解释为基因gs对基因gi的影响。
9.
表示gj对gk的影响,gj,gk∈T。
注意这并不一定是对称的,例如,
。
10.
为影响力图(
就是上文中的T)
其中,边(gj,gk)为w(gj,gk) = min[ i(gk,gj) , i(gj,gk) ]。
11.n为交互网络结点的总数,则计算G1的花费主要来自于
矩阵(n×n)。
三、结合模型发现有效子网络
发现有效子网络的方法是在给定的影响力图G1中识别结点集合,这就对图G1有两个要求
(1)通过高影响力的边缘连接;
(2)对应于一个有显着数量的样品中的突变基因
1.固定阈值δ,并得出一个移除权值w(gi,gj)<δ的边并且移除对应基因没有突变的结点的简化影响力图G1(δ)。
于是,发现有效子网络的问题被简化成了在G1(δ)识别连通子图。
在最大样本数中发现拥有k个突变基因的连通子图等价于下面的问题:连通最大覆盖问题(connected maximum coverage)
连通最大覆盖问题:
给定图G定义在n个顶点集
,有一个集合
,一个子集族
,且
与
是一一映
射的。
一个值k,在G中找到拥有k个结点的连通子图
且拥有最大的
。
注:
表示幂集,即
中所有子集的集合。
表示
的长度,但因为
也表示的是集合,则这个并集长度实际上表示的
中是集合
中元素的个数。
[b][u]连通最大覆盖问题[/u][/b]的实际解释:
接下来将上面的计算问题具体化。
用简化影响力图
表示G;用
中突变的子集表示
;用所有的样本集S表示
,则
(突变基因gi⊆T所归属的所有样本集)与gi是一一对应
的。在
找出k个结点(突变基因)的连通子图,在这些突变基因所对应的样本集的并集合中样本种类最多的情况下。
注:这里是样本种类最多,并不是样本个数最多。例如A={a b c d} B={a a a b b b b b},则A的样本种类为4,样本个数为4,B的样本种类为2,样本个数为8。
这个连通最大覆盖问题与最大覆盖问题是有关的。
最大覆盖问题:(也是一个NP-hard问题)
给定元素的集合
,
为子集族,一个值k,需要在
中找到k个集合来覆盖最多的
中的元素个数。
注意:这里的定义会与上面的定义有所分别,但大体解决的问题是一样的,只是连通最大覆盖问题把集合
映射成了
而已。
由于以上两个问题说的是相同的事情,则连通最大覆盖问题也是一个NP-hard问题,就算是在简单的星状图中求解仍旧困难。
定理1 连通最大覆盖问题在星状图上是一个NP-hard问题。
因此,该问题转换为得到近似解。构建一个替代多项式时间算法,当最优解
的半径为 r 时,该算法时间复杂度大约为
。
结合算法([u]替代多项式时间算法)如下:[/u]
为了获得一个解
(即一个连通子图),开始于每一个结点
,到返回最好的解。
Step1 探测阶段
对每一个结点
,找到一个从v到u的最短路径
,
表示在
中结点的集合(v到u最短路径上的所有结点集合),
表示
中
被
所覆盖的元素
Step2 初始状态
算法从v结点建立连通图
,开始有
。
表示当前连通子图
所覆盖的元素集合
Step3 引入新结点
当
时,算法选择结点
,
(argmax(f(x)):形成f(x)最大值的参数x)且
。
于是有新的解
。
其中:
的含义是选出一个结点u,使
中在u到v最短路径上的结点没有被选入
的个数较多;且这条u到v的最短
路径上的结点没被选入
的个数较小。前半句也就是在说明
在u到v路径上存在的结点比其他结点到v路径上存在的结点要多,后半句在说明大部
分u到v的路径上的结点已经被选入
中了。
定理2 结合算法给予一个近似
规模的解决连通最大覆盖问题的方法,这里
,
表示G的最优解的半径。
四、增强的影响力模型发现有效子网络
通过观察到的每一个突变基因的数量以及之后将相关增强影响力网络分解为连通分量,增强的影响力模型基于增强基因间的影响力测度。
Step1 定义增强的影响力图H;
是H的顶点集,表示数据中所有至少含有一个突变的基因gj;(gj,gk)的权值通过增强的影响力给定:
其中,
是所有gj基因发生突变的样本集;
是通过可观察到的突变数据定义的。
Step2 移除所有权值比阈值
要小的边,从而得到图
。
于是得到了图
中的连通子图作为关于突变数据的有效子图。
五、统计分析
分析发现的连通图的有效性。
设计一个估计有效性的方法,通过使用在突变的基因分布上的任何一个空假设(null hypothesis)。
特别地,我们考虑在突变基因随机坐落在网络中的空假设分布(null hypothesis distributions),也就是当突变在网络拓扑中是独立发生的。
而其他发生在网络拓扑中非独立的突变分布也应该注意。
我们使用两个空假设分布:
1.第一个空假设分布
在
中,总计
的突变均匀随机地分布在对应
个测试基因的结点上。
但无法解释在观察到的数据中,大量的突变都集中在少数基因上的情况。
2.第二个空假设分布
通过置换在网络中测试基因的分身实现。
选择一个
集合的随机置换δ,将在样本集
中发生突变的基因gj分配到基因
在原始网络中的位置。
3.两阶段多假设检验(two-stage multi-hypothesis test)
一类错误:原假设是正确的,但却拒绝原假设。
二类错误:原假设是错误的,但却接受原假设。
令
表示个体检测中一类错误的数量,
表示多假设检验中拒绝的空假设总数。
定义
在所有拒绝中被错误拒绝率的期望(当
时,
)。
令
表示假设检验的总数。
应用以上两张方法解决问题,发现的子网络被标记为统计有效的当且仅当p值是
,但在问题规模下是不切实际的。
于是,发展一个两阶段多假设检验,用来标记数据中一些拥有较小的FDR值的统计有效的子网络。
令
表示在增强影响力图
中发现的连通分量集合。
检测这些发现的有效性等价于同时检测
个假设,为了减少假设数量,我们关注一个替换的统计:给定规模的发现连通子网络的个数。
令
表示在图
中发现的且规模
≥s 的连通子图个数。令
表示在对应空假设(
或
)下的随机变量。
现在只检测
个样本假设,对于
,
服从
分布的
(即Es恒=发现的规模≥s的连通子图个数)。
检测每一个置信水平在
的假设,检测的第一阶段是识别最小的规模s下,这样假设的置信水平是为
,于是拒绝这个
服从
分布的假设。
事实上规模大于s的连通子图个数统计上有意义并不意味着每一个连通子图有意义。因此加入第二个情况检测确保FDR上的上界。
定理3给定
使
。令
为使
成立的第一个
。如果我们将所有返回的规模
的连通子图看做是有效的,则检测的FDR是被β所规定的有界。
检测中,对于第i个最大的s,是使用
来检测的(对于最小的s,使用
)。
4.估计空假设的分布
增强影响模型:
假设
个检测基因在
的
个结点上随机排列,来生成随机的图
。
令M为观察到突变的基因个数,
表示任何一个基因最大突变数。
δ将图划分为一些连通子图,选择最大的δ,使任何图
中的结点gi,其有权且满足
的邻边个数不超过
,
。
对于δ的这个选择,在
中规模为k的连通子图个数的期望被
所限制。
摘要:
近期基因组测序的研究表明导致癌症发展的体细胞突变分布在大量的基因中。这种变异的异质性使得努力从分散的乘客突变区分功能性突变变得复杂。假如癌症变异目标在细胞信号相对少且正常的路径上,则常规做法是估计是否已知路径涵盖了突变基因。我们介绍一种可供选择的方法在全基因组范围的基因相互作用网络中去检测突变基因。我们介绍一种计算高效的策略,该策略重新定义了在统计显著的患者中突变的交互网络的子网络。这个框架包含了两个主要成分。第一,我们使用在交互网络中的扩散过程去定义网络中每个突变基因的"局部影响邻居";第二,我们导出一个两阶段多假设检验约束错误发生率(FDR)来定义子网络。我们在庞大的人类蛋白质-蛋白质交互网络上使用来自胶质母细胞瘤和肺腺癌样本的体细胞突变数据测试这些算法。我们成功地恢复了这些癌症中已知的重要路径,并且定义了那些与其他癌症有牵连但不是以前报道的突变的额外路径。我们希望,我们会发现越来越多地使用使得癌症基因组研究的规模和范围不断增加。
一、数学模型(模型准备)
1.G = ( V,E )表示交互信息图
其中,顶点V表示个体患者(或相对应的基因),边E表示蛋白质-蛋白质关系或蛋白质-DNA关系。
2.Τ⊆V,表示Τ是在V中已经检测到的或是鉴定过的基因子集。(此处V表示患者对应的基因组集)
3.S为样本集。
4.g表示单个基因,对于每一个g,要么是突变的(mutated),要么是正常的(normal)。
5.Mi表示第 i 位患者在基因子集T中的突变基因子集,i = 1...|S|。
注:区分T与Mi,T为已知基因子集,Mi为在T中突变基因子集,Mi⊆Τ⊆V。
6.Sj是突变基因gj⊆T所归属的所有样本集(gj表示在基因子集T中的第j个基因),j
= 1...|T|。
注:换句话说,Sj表示该样本集中的所有样本在基因子集T中第j个基因都发生突变。
7.m=Σi |Mi|,表示所有样本中可以观察到的变异基因总数。
8.路径(pathway)与子网络(subnetwork)是G的链接子图。
9.如果路径中任何一个基因是突变的,则都认为路径是突变的。
注:任何(any而不是every),指如果有一个或一个以上的突变,则认为路径是突变的
二、影响力图(Influence graph)
目的:识别样本中关于突变基因有效的子网络
有效性来源:(1).在网络基因中突变样本的个数 (2).在整个网络拓扑结构子网络基因的交互关系。
影响力(influence)计算:通过流动过程(diffusion process)测量结点s与其他所有结点的影响力。
1.流体以恒定速率被泵送如源结点s,通过图中的边进行流动。
2.流体以一个恒定的一阶速率γ从每一个结点流失。
3.
表示在时间t时结点v中流体的总量(源结点为s)
4.
表示在所有结点中流体的列向量
5.
表示图的拉普拉斯矩阵,
,其中A是图的邻接矩阵,D是对角阵
则,
(表示在恒定一阶速率γ下的图的拉普拉斯矩阵)
6.
这个矩阵等式规定了持续时间动态过程。
其中
是基本单位向量,在
第s个位置(源结点位置)是1,其余位置是0
是单位阶跃函数(unit step functon),即t>0时u(t)=1,t<0时u(t)=0。
当
时,系统达到稳定。
7.
是图中的流体密度平衡分布(equilibrium distribution)
-------以上为准备过程,是前人已有的结论-------
-------以下为作者的影响力模型-----------------------
8.
解释为基因gs对基因gi的影响。
9.
表示gj对gk的影响,gj,gk∈T。
注意这并不一定是对称的,例如,
。
10.
为影响力图(
就是上文中的T)
其中,边(gj,gk)为w(gj,gk) = min[ i(gk,gj) , i(gj,gk) ]。
11.n为交互网络结点的总数,则计算G1的花费主要来自于
矩阵(n×n)。
三、结合模型发现有效子网络
发现有效子网络的方法是在给定的影响力图G1中识别结点集合,这就对图G1有两个要求
(1)通过高影响力的边缘连接;
(2)对应于一个有显着数量的样品中的突变基因
1.固定阈值δ,并得出一个移除权值w(gi,gj)<δ的边并且移除对应基因没有突变的结点的简化影响力图G1(δ)。
于是,发现有效子网络的问题被简化成了在G1(δ)识别连通子图。
在最大样本数中发现拥有k个突变基因的连通子图等价于下面的问题:连通最大覆盖问题(connected maximum coverage)
连通最大覆盖问题:
给定图G定义在n个顶点集
,有一个集合
,一个子集族
,且
与
是一一映
射的。
一个值k,在G中找到拥有k个结点的连通子图
且拥有最大的
。
注:
表示幂集,即
中所有子集的集合。
表示
的长度,但因为
也表示的是集合,则这个并集长度实际上表示的
中是集合
中元素的个数。
[b][u]连通最大覆盖问题[/u][/b]的实际解释:
接下来将上面的计算问题具体化。
用简化影响力图
表示G;用
中突变的子集表示
;用所有的样本集S表示
,则
(突变基因gi⊆T所归属的所有样本集)与gi是一一对应
的。在
找出k个结点(突变基因)的连通子图,在这些突变基因所对应的样本集的并集合中样本种类最多的情况下。
注:这里是样本种类最多,并不是样本个数最多。例如A={a b c d} B={a a a b b b b b},则A的样本种类为4,样本个数为4,B的样本种类为2,样本个数为8。
这个连通最大覆盖问题与最大覆盖问题是有关的。
最大覆盖问题:(也是一个NP-hard问题)
给定元素的集合
,
为子集族,一个值k,需要在
中找到k个集合来覆盖最多的
中的元素个数。
注意:这里的定义会与上面的定义有所分别,但大体解决的问题是一样的,只是连通最大覆盖问题把集合
映射成了
而已。
由于以上两个问题说的是相同的事情,则连通最大覆盖问题也是一个NP-hard问题,就算是在简单的星状图中求解仍旧困难。
定理1 连通最大覆盖问题在星状图上是一个NP-hard问题。
因此,该问题转换为得到近似解。构建一个替代多项式时间算法,当最优解
的半径为 r 时,该算法时间复杂度大约为
。
结合算法([u]替代多项式时间算法)如下:[/u]
为了获得一个解
(即一个连通子图),开始于每一个结点
,到返回最好的解。
Step1 探测阶段
对每一个结点
,找到一个从v到u的最短路径
,
表示在
中结点的集合(v到u最短路径上的所有结点集合),
表示
中
被
所覆盖的元素
Step2 初始状态
算法从v结点建立连通图
,开始有
。
表示当前连通子图
所覆盖的元素集合
Step3 引入新结点
当
时,算法选择结点
,
(argmax(f(x)):形成f(x)最大值的参数x)且
。
于是有新的解
。
其中:
的含义是选出一个结点u,使
中在u到v最短路径上的结点没有被选入
的个数较多;且这条u到v的最短
路径上的结点没被选入
的个数较小。前半句也就是在说明
在u到v路径上存在的结点比其他结点到v路径上存在的结点要多,后半句在说明大部
分u到v的路径上的结点已经被选入
中了。
定理2 结合算法给予一个近似
规模的解决连通最大覆盖问题的方法,这里
,
表示G的最优解的半径。
四、增强的影响力模型发现有效子网络
通过观察到的每一个突变基因的数量以及之后将相关增强影响力网络分解为连通分量,增强的影响力模型基于增强基因间的影响力测度。
Step1 定义增强的影响力图H;
是H的顶点集,表示数据中所有至少含有一个突变的基因gj;(gj,gk)的权值通过增强的影响力给定:
其中,
是所有gj基因发生突变的样本集;
是通过可观察到的突变数据定义的。
Step2 移除所有权值比阈值
要小的边,从而得到图
。
于是得到了图
中的连通子图作为关于突变数据的有效子图。
五、统计分析
分析发现的连通图的有效性。
设计一个估计有效性的方法,通过使用在突变的基因分布上的任何一个空假设(null hypothesis)。
特别地,我们考虑在突变基因随机坐落在网络中的空假设分布(null hypothesis distributions),也就是当突变在网络拓扑中是独立发生的。
而其他发生在网络拓扑中非独立的突变分布也应该注意。
我们使用两个空假设分布:
1.第一个空假设分布
在
中,总计
的突变均匀随机地分布在对应
个测试基因的结点上。
但无法解释在观察到的数据中,大量的突变都集中在少数基因上的情况。
2.第二个空假设分布
通过置换在网络中测试基因的分身实现。
选择一个
集合的随机置换δ,将在样本集
中发生突变的基因gj分配到基因
在原始网络中的位置。
3.两阶段多假设检验(two-stage multi-hypothesis test)
一类错误:原假设是正确的,但却拒绝原假设。
二类错误:原假设是错误的,但却接受原假设。
令
表示个体检测中一类错误的数量,
表示多假设检验中拒绝的空假设总数。
定义
在所有拒绝中被错误拒绝率的期望(当
时,
)。
令
表示假设检验的总数。
应用以上两张方法解决问题,发现的子网络被标记为统计有效的当且仅当p值是
,但在问题规模下是不切实际的。
于是,发展一个两阶段多假设检验,用来标记数据中一些拥有较小的FDR值的统计有效的子网络。
令
表示在增强影响力图
中发现的连通分量集合。
检测这些发现的有效性等价于同时检测
个假设,为了减少假设数量,我们关注一个替换的统计:给定规模的发现连通子网络的个数。
令
表示在图
中发现的且规模
≥s 的连通子图个数。令
表示在对应空假设(
或
)下的随机变量。
现在只检测
个样本假设,对于
,
服从
分布的
(即Es恒=发现的规模≥s的连通子图个数)。
检测每一个置信水平在
的假设,检测的第一阶段是识别最小的规模s下,这样假设的置信水平是为
,于是拒绝这个
服从
分布的假设。
事实上规模大于s的连通子图个数统计上有意义并不意味着每一个连通子图有意义。因此加入第二个情况检测确保FDR上的上界。
定理3给定
使
。令
为使
成立的第一个
。如果我们将所有返回的规模
的连通子图看做是有效的,则检测的FDR是被β所规定的有界。
检测中,对于第i个最大的s,是使用
来检测的(对于最小的s,使用
)。
4.估计空假设的分布
增强影响模型:
假设
个检测基因在
的
个结点上随机排列,来生成随机的图
。
令M为观察到突变的基因个数,
表示任何一个基因最大突变数。
δ将图划分为一些连通子图,选择最大的δ,使任何图
中的结点gi,其有权且满足
的邻边个数不超过
,
。
对于δ的这个选择,在
中规模为k的连通子图个数的期望被
所限制。
相关文章推荐
- 康诺云推出三款智能硬件产品,为健康管理业务搭建数据池
- MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程
- php+ajax导入大数据时产生的问题处理
- C# 大数据导出word的假死报错的处理方法
- 用Python实现协同过滤的教程
- Python利用多进程将大量数据放入有限内存的教程
- mongodb常遇到的错误。
- Stack数据结构的特点后进先出的应用:大数据运算
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- Spark机器学习(二) 局部向量 Local-- Data Types - MLlib
- Spark机器学习(三) Labeled point-- Data Types
- YARN或将成为Hadoop新发力点
- Hadoop 1.x版本伪单机配置
- Glusterfs的编译选项 #pragma GCC poison system popen
- Python 大数据思维导图
- Spark HA部署方案
- Spark HA原理架构图
- HADOOP的HA部署方案