您的位置：首页 > 编程语言 > Go语言

Algorithms for Detecting Significantly Mutated Pathways in Cancer

2016-07-24 18:52 477 查看

本文是对《Algorithms for Detecting Significantly Mutated Pathways in Cancer》（2011年）的学习笔记

摘要：

近期基因组测序的研究表明导致癌症发展的体细胞突变分布在大量的基因中。这种变异的异质性使得努力从分散的乘客突变区分功能性突变变得复杂。假如癌症变异目标在细胞信号相对少且正常的路径上，则常规做法是估计是否已知路径涵盖了突变基因。我们介绍一种可供选择的方法在全基因组范围的基因相互作用网络中去检测突变基因。我们介绍一种计算高效的策略，该策略重新定义了在统计显著的患者中突变的交互网络的子网络。这个框架包含了两个主要成分。第一，我们使用在交互网络中的扩散过程去定义网络中每个突变基因的"局部影响邻居"；第二，我们导出一个两阶段多假设检验约束错误发生率(FDR)来定义子网络。我们在庞大的人类蛋白质-蛋白质交互网络上使用来自胶质母细胞瘤和肺腺癌样本的体细胞突变数据测试这些算法。我们成功地恢复了这些癌症中已知的重要路径，并且定义了那些与其他癌症有牵连但不是以前报道的突变的额外路径。我们希望，我们会发现越来越多地使用使得癌症基因组研究的规模和范围不断增加。

一、数学模型（模型准备）

1.G = ( V,E )表示交互信息图

其中，顶点V表示个体患者（或相对应的基因），边E表示蛋白质-蛋白质关系或蛋白质-DNA关系。

2.Τ⊆V，表示Τ是在V中已经检测到的或是鉴定过的基因子集。（此处V表示患者对应的基因组集）

3.S为样本集。

4.g表示单个基因，对于每一个g，要么是突变的(mutated)，要么是正常的(normal)。

5.Mi表示第 i 位患者在基因子集T中的突变基因子集，i = 1...|S|。

注：区分T与Mi，T为已知基因子集，Mi为在T中突变基因子集，Mi⊆Τ⊆V。

6.Sj是突变基因gj⊆T所归属的所有样本集（gj表示在基因子集T中的第j个基因），j
= 1...|T|。

注：换句话说，Sj表示该样本集中的所有样本在基因子集T中第j个基因都发生突变。

7.m=Σi |Mi|，表示所有样本中可以观察到的变异基因总数。

8.路径（pathway）与子网络（subnetwork）是G的链接子图。

9.如果路径中任何一个基因是突变的，则都认为路径是突变的。

注：任何（any而不是every），指如果有一个或一个以上的突变，则认为路径是突变的

二、影响力图(Influence graph)

目的：识别样本中关于突变基因有效的子网络

有效性来源：(1).在网络基因中突变样本的个数 (2).在整个网络拓扑结构子网络基因的交互关系。

影响力(influence)计算：通过流动过程(diffusion process)测量结点s与其他所有结点的影响力。

1.流体以恒定速率被泵送如源结点s，通过图中的边进行流动。

2.流体以一个恒定的一阶速率γ从每一个结点流失。

3.

表示在时间t时结点v中流体的总量（源结点为s）

4.

表示在所有结点中流体的列向量

5.

表示图的拉普拉斯矩阵，

，其中A是图的邻接矩阵，D是对角阵

则，

（表示在恒定一阶速率γ下的图的拉普拉斯矩阵）

6.

这个矩阵等式规定了持续时间动态过程。

其中

是基本单位向量，在

第s个位置（源结点位置）是1，其余位置是0

是单位阶跃函数(unit step functon)，即t>0时u(t)=1，t<0时u(t)=0。

当

时，系统达到稳定。

7.

是图中的流体密度平衡分布(equilibrium distribution)

-------以上为准备过程，是前人已有的结论-------

-------以下为作者的影响力模型-----------------------

8.

解释为基因gs对基因gi的影响。

9.

表示gj对gk的影响，gj,gk∈T。

注意这并不一定是对称的，例如，

。

10.

为影响力图(

就是上文中的T)

其中，边(gj,gk)为w(gj,gk) = min[ i(gk,gj) , i(gj,gk) ]。

11.n为交互网络结点的总数，则计算G1的花费主要来自于

矩阵（n×n）。

三、结合模型发现有效子网络

发现有效子网络的方法是在给定的影响力图G1中识别结点集合，这就对图G1有两个要求

（1）通过高影响力的边缘连接；

（2）对应于一个有显着数量的样品中的突变基因

1.固定阈值δ，并得出一个移除权值w(gi,gj)<δ的边并且移除对应基因没有突变的结点的简化影响力图G1(δ)。

于是，发现有效子网络的问题被简化成了在G1(δ)识别连通子图。

在最大样本数中发现拥有k个突变基因的连通子图等价于下面的问题：连通最大覆盖问题(connected maximum coverage)

连通最大覆盖问题：

给定图G定义在n个顶点集

，有一个集合

，一个子集族

，且

与

是一一映
射的。

一个值k，在G中找到拥有k个结点的连通子图

且拥有最大的

。

注：

表示幂集，即

中所有子集的集合。

表示

的长度，但因为

也表示的是集合，则这个并集长度实际上表示的

中是集合

中元素的个数。

[b][u]连通最大覆盖问题[/u][/b]的实际解释：

接下来将上面的计算问题具体化。

用简化影响力图

表示G；用

中突变的子集表示

；用所有的样本集S表示

，则

（突变基因gi⊆T所归属的所有样本集）与gi是一一对应
的。在

找出k个结点(突变基因)的连通子图，在这些突变基因所对应的样本集的并集合中样本种类最多的情况下。

注：这里是样本种类最多，并不是样本个数最多。例如A={a b c d} B={a a a b b b b b}，则A的样本种类为4，样本个数为4，B的样本种类为2，样本个数为8。

这个连通最大覆盖问题与最大覆盖问题是有关的。

最大覆盖问题：（也是一个NP-hard问题）

给定元素的集合

，

为子集族，一个值k，需要在

中找到k个集合来覆盖最多的

中的元素个数。

注意：这里的定义会与上面的定义有所分别，但大体解决的问题是一样的，只是连通最大覆盖问题把集合

映射成了

而已。

由于以上两个问题说的是相同的事情，则连通最大覆盖问题也是一个NP-hard问题，就算是在简单的星状图中求解仍旧困难。

定理1 连通最大覆盖问题在星状图上是一个NP-hard问题。

因此，该问题转换为得到近似解。构建一个替代多项式时间算法，当最优解

的半径为 r 时，该算法时间复杂度大约为

。

结合算法（[u]替代多项式时间算法）如下：[/u]

为了获得一个解

（即一个连通子图），开始于每一个结点

，到返回最好的解。

Step1 探测阶段

对每一个结点

，找到一个从v到u的最短路径

，

表示在

中结点的集合（v到u最短路径上的所有结点集合），

表示

中

被

所覆盖的元素

Step2 初始状态

算法从v结点建立连通图

，开始有

。

表示当前连通子图

所覆盖的元素集合

Step3 引入新结点

当

时，算法选择结点

，

（argmax（f(x)）：形成f(x)最大值的参数x）且

。

于是有新的解

。

其中：

的含义是选出一个结点u，使

中在u到v最短路径上的结点没有被选入

的个数较多；且这条u到v的最短
路径上的结点没被选入

的个数较小。前半句也就是在说明

在u到v路径上存在的结点比其他结点到v路径上存在的结点要多，后半句在说明大部
分u到v的路径上的结点已经被选入

中了。

定理2 结合算法给予一个近似

规模的解决连通最大覆盖问题的方法，这里

，

表示G的最优解的半径。

四、增强的影响力模型发现有效子网络

通过观察到的每一个突变基因的数量以及之后将相关增强影响力网络分解为连通分量，增强的影响力模型基于增强基因间的影响力测度。

Step1 定义增强的影响力图H；

是H的顶点集，表示数据中所有至少含有一个突变的基因gj；（gj，gk）的权值通过增强的影响力给定：

其中，

是所有gj基因发生突变的样本集；

是通过可观察到的突变数据定义的。

Step2 移除所有权值比阈值

要小的边，从而得到图

。

于是得到了图

中的连通子图作为关于突变数据的有效子图。

五、统计分析

分析发现的连通图的有效性。

设计一个估计有效性的方法，通过使用在突变的基因分布上的任何一个空假设（null hypothesis）。

特别地，我们考虑在突变基因随机坐落在网络中的空假设分布（null hypothesis distributions），也就是当突变在网络拓扑中是独立发生的。

而其他发生在网络拓扑中非独立的突变分布也应该注意。

我们使用两个空假设分布：

1.第一个空假设分布