您的位置:首页 > 数据库

有参转录组常用数据库

2016-01-04 11:47 267 查看

NR(non-redundant,非冗余)数据库

文献:Deng YY, Li JQ, Wu S F, Zhu YP, et al. Integrated NR Database in Protein Annotation System and Its Localization. Computer Engineering 2006.,32(5):71-74.

特点:

  1、对已知的或者可能的编码序列,给出相应的氨基酸序列,其中部分提供蛋白数据库的序列号;

  2、可以用blast软件做比对连接。

Swiss-Prot数据库

文献:Apweiler R, Bairoch A, Wu CH, Barker WC, et al. UniProt: the Universal Protein knowledgebase. Nucleic Acids Research 2004 Jan 1;32(Database issue):D115-9.

特点:

SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。

GO数据库

文献:Ashburner M, Ball C A, Blake J A, Botstein D, et al. Gene ontology: tool for the unification of biology. Nature Genetics 2000, 25(1): 25-29.

特点:

  1. GO 不是基因序列或基因产物数据库,相反的,GO强调基因产物在细胞中的功能。
  2. GO不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:
    a. 更新速度较慢
    b. 由于每个人对数据定义的方式不同,标准难以达到一致。
    c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D结构、进化等。
  3.GO 是对基因功能的注解,但是有其局限性。比如说,GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面,但是支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)

COG数据库(Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇))

文献:Tatusov RL, Galperin MY, Natale DA. The COG database: a tool for genome scale analysis of protein functions and evolution. Nucleic Acids Research 2000, 28(1):33-36.

特点:

  1、蛋白的注解。COG的一个蛋白成员的已知功能(以及二维或三维结构)可以直接应用到COG的其他成员上去。然而,这里也要警告,因为有些COG含有paralogs,它们的功能并非对应与那些已知蛋白。

  2、种系发生图谱。这给出在一个特定的COG中一个给定物种是否存在某些蛋白。系统使用,这些图谱可以用来确定在一个物种中是否一个特定的代谢途径。

  3、多重对齐。每一个COG页面包括了一个链接到COG成员的一个多重对齐,那可以被用来确定保守序列残基和分析成员蛋白的进化关系。

KOG数据库

文献链接:Koonin EV, Fedorova ND, Jackson JD, et al. A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes. Genome biology, 2004, 5(2): R7.

可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。

Pfam

文献链接:Finn RD, Bateman A, Clements J, et al. Pfam: the protein families database. Nucleic Acids Research, 2013: gkt1223.

蛋白质家族数据库,根据多重序列比对和突变谱HMM构建

KEGG数据库

文献链接: Kanehisa M, Goto S, Kawashima S, Okuno Y, et al. The KEGG resource for deciphering the genome. Nucleic Acids Research 2004, 32(Database issue):D277-D280.

KEGG(京都基因与基因组百科全书)是基因组破译方面的数据库。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测。 KEGG 的PATHWAY 数据库整合当前在分子互动网络(比如通道,联合体)的知识,KEGG 的GENES/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识,KEGG 的COMPOUND/GLYCAN/REACTION数据库提供生化复合物及反应方面的知识。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: