gene_ontology(GO基因注释)

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标 准.GO 是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.

基因本体论(gene ontology)的建立 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些 随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的 和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质 合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD) 。 从那开始,GO 不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。 GO 的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举 例来说,GO 可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产 物特性的认识。

GO 发展了具有三级结构的标准语言(ontologies ),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。 本体论内容分子功能本体论基因 产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体 论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等

基本来说,GO 工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展 相关工具,使本体论的标准语言的产生和维持更为便捷。

本体论(The ontologies)

GO 的结构包括三个方面?D?D 分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们可能在每一个方面都有多种性质。如细胞色素C, 在分子功 能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别说明GO 的具体定义 情况。

基因产物

基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf 管里的基因产物,也表明了它的功能。但是这之间其实是存在差别

的?D?D 一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不 是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在GO 中,很重要的一点 在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。

许多基因产物会形成复合物后执行功能。这些“基因复合物”有些非常简单(如血红蛋白由血红蛋白基因产物α-球蛋白、β-球蛋白和小分子的亚血红素组成), 有些非常复杂(如核糖体)。现在,小分子的描述还没有包括在GO 中。在未来,这个问题可望由和现在的Klotho 和LIGAND 等小分子数据库联合而解 决。 分子功能

分子功能描述在分子生物学上的活性,如催化活性或结合活性。GO 分子功能定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大 部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺 苷酸环化酶活性或钟形受体结合活性等。

生物学途径

生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为 宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO 并 不涉及到通路中复杂的机制和所依赖的因素。

细胞组件

细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。

GO 的形式

GO 定义的术语有着直接非循环式(directed acyclic graphs (DAGs)的特点,而并非是传统的等级制(hierarchy )定义方式(随着代数增加,下一级比上一级更为具体)。举个例子来说,生物学途径中有一个 定义是己糖合成,它的上一级为己糖代谢和单糖合成。当某个基因被注解为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。因为在GO 中,每个 术语必须遵循“真途径“法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。

GO 的注释(Annotation )

那么,GO 中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用GO 的定义方法,对它们所包含的基因产物进行注解,并且 提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的GO 术语。每个数据库都会给出这些基因产物和GO 术语的联系数据库,并 且也可以在GO 的ftp 站点上和WEB 方式查询到。

并且,GO 联合会提供了简化的本体论术语(GO slim ),这样,可以在更高级的层面上研究基因组的功能。比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。

GO 对基因和蛋白的注释阐明了基因产物和用于定义他们的GO 术语之间的关系。基因产物指一个基因编码的RNA 或蛋白产物。因为一个基因可能编码多个具有很 不相同性质的产物,所以GO 推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。

一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状 态下的情况。GO 联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一. 所有的注释都需要有来源, 可以是文字、另一个数据库 或是计算机分析结果;二. 注释必须提供支持这种基因产物和GO 术语之间联系的证据。

GO 文件格式

GO 的所有数据都是免费获得的。GO 数据有三种格式:flat (每日更新)、XML(每月更新) 和MySQL (每月更新)。 这些数据格式都可以在GO ftp 的站点上下载。XML 和 MySQL 文件是被储存于独立的GO 数据库中。

如果需要找到与某一个GO 术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文 件。

GO 浏览器和修改器(browser and editor)

GO 术语和注释使用了多种不同的工具软件,它们都可以在web 方式的“GO 浏览器”下“GO software page”中找到。大多数GO 浏览器都是web 模式的,允许你直观的看到术语和其相关信息,如定义、同义词和数据库参考等。有些GO 浏览器如AmiGO 和 QuickGO,可以看到每个术语的注释。而可下载的DAG-Edit 编辑器,一样可以离线地显示注释和所有本体论定义的信息。对于每一个浏览器来说,都 可以选择最适用于你要求的工具软件。

常见的三种浏览器

AmiGO from BDGP在 AmiGO 中,可以通过查询一个GO 术语而得到所有具有这个注释的基因产物,或查询一 个基因产物而得到它所有的注释关系。还可以浏览本体论,得到术语之间的关系和术语对应的基因产物数目。AmiGO 直接连接GO 下的MySQL 。 MGI GO BrowserMGI GO的功能类似于AmiGO, 所不同的在于它所得到的基因为小鼠基因。MGI GO浏览器直接连接GO 下的MGI 数据库。QuickGO at EBI QuickGO , 整合在EBI 下的InterPro 中,可以通过查询一个GO 术语而得到 它的定义与关系描述、在SWISS-PROT 中的定位、在酶分类学(EC )和转运分类学(TC )中的定位和InterPro 中的定位等。

其他还有一些特殊的浏览GO 的浏览器,其中括号中为建立机构和主要特色: EP GO Browser (EBI, 基因表达情况), 、GoFish (Harvard,Boolean 查询、GenNav (NLM, 图像化展示)、GeneOntology@RZPD (RZPD ,UniGene )、ProToGO (Hebrew University ,GO 的亚图像化)、CGAP GO Browser (癌症基因组解剖工程,癌症)、GOBrowser (Illuminae ,perl. 、TAIR Keyword Browser (TAIR ,拟南芥)、PANDORA (Hebrew University,非一致化蛋白)。

修改器

GO 术语和本体论结构可以由任何可以读入GO 平板文件的文本修改器进行编辑,但是这需要对平板文件非常熟悉。因此,DAG-Edit 是被推荐使用的,它是为 GO

特别设计的,能够保证文件的句法正确。GO 注释可以被多种数据库特异性的工具所编辑,如TIGR 的Manatee 和EBI 的Talisman tool 。但是GO 数据库中写入新的注释是需要通过GO 认证的管理员方可进行的,如果想提出新的注释或对本体论的建议,可以联系GO 。

主要修改器为DAG-Edit 和COBrA 。DAG-Edit 基于Java 语言,提供了能浏览、查询、编辑具 有DAG 数据格式的GO 数据界面。在SourceForge 可以免费下载,伴随着帮助文件。COBrA 能够编辑和定位GO 和OBO 本体论。 它一次显示两个本体论,因此可以在不同的水平相应定位。(如组织和细胞类型水平)优点在于可以综合几种本体论,支持的文件格式多,包括GO 平板文件、GO RDF 和OWL 格式等。

如图为DAG-Edit 的界面,可以分为四个部分:

1) 定义编辑面板(term editor panel)

显示当下的本体论。也是主要的编辑本体论结构的工具,可以通过点击和拖动术语来修改本体论的从属关系。

2) 文本编辑面板(text editor panel)

修改术语中的内容。在修改多个术语时,会出现一个选择菜单,可以选中后逐个修改。

3) DAG浏览器

DAG 浏览器是一个插件,能够以图形的方式展示具有复杂的从属关系的术语。

4) 搜寻/屏蔽面板

可搜寻术语、术语类型和术语间关系。可自定义屏蔽条件,限制得出的搜寻结果。

GO 数据库的查找和浏览FAQ

1. 如何搜寻注释?

使用AmiGO 浏览器,可以在所有参与的数据库中搜寻一个特定的注解。AmiGO 允许使用GO 术语或基因产物的搜寻。搜寻结果包括GO 对这个术语的等级分 级情况,定义和近义结构,外部链接,所有相联系的基因产物和它的下一级术语。

2. 如何得到全部的GO 注释?

在GO 网站上,基因产物与GO 联系的组信息都有提供。这些文件储存了基因/基因产物的ID 和引用文献等支持证据(如FlyBase 基因ID, SWISS-PROT 蛋白ID), 在ftp 站点上都可以获得。

3. 在一些模式生物中, 一个基因通常有多个与之相关的核苷酸序列, 如EST 、蛋白序列等。要查询到这些序列,可以从该模式生物数据库中通过基因联系(gene association )查询到基因获得ID(gene accession ID),或是分别在Compugen 中查询大的转录产物(transcipt )和SWISS-PROT/TrEMBL中查询蛋白。

4. 如何得到由GO 术语注解的蛋白序列?

在GO 网页上选择能查询到所有数据库的Amigo 浏览器,键入GO 术语(如“线粒体”),在结果中显示了被注释的基因。然后选择你所需基因,在网页的最低 端把选项拖至“get fasta sequence”区域,再确定即可。

5. 如何能够找到所有和一个特定的GO 术语相关的人类基因呢?

GO 术语是和SWISS-PROT/TrEMBL/InterPro and Ensembl中的蛋白序列无赘余地对应的。这些注释在EBI 上的GOA-Human 文件中,GO 的FTP 站点上,Ensembl ,EMBL -Bank 上都可找到。

6.可以直接使用GenBank 的gi 获取码在GO 数据库中进行查询吗?

GO 数据库中除了Compugen 所提供的GenBank 获取码之外,没有包含其他GenBank 获取码的信息,但是在EBI 的GOA(GO Annotation)中,有一个综合的对GenBank/EMBL/DDBJ进行查询的方式,详细请见:ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/HUMAN/xrefs.goa.

GO 与其他分类系统的定位关系(Mapping to GO)

GO 并不只是希望为基因组建立一个标准化的、结构清晰的注释语言。GO 致力于各种基因组数据库的标准化。GO 为各种基因组分类系统和GO 注释之间的转化提供了 转化表,见http://www.geneontology.org/GO.indices.html

数据库索引文件来源UniProt Knowledgebasespkw2go Evelyn Camon (Note: spkw2go used to be called swp2go, all files remain the same.)Enzyme Commission ec2go Michael Ashburner EGADegad2go Michael Ashburner GenProtEC genprotec2go Heather Butler and Michael AshburnerTIGR role tigr2go Michael Ashburner TIGR Families tigrfams2go TIGR Staff

InterPro interpro2go Nicola MulderMIPS Funcat mips2go Michael Ashburner and Midori HarrisMetaCyc Pathwaysmetacyc2go Michael Ashburner and Midori HarrisMultiFun Classificationsmultifun2go Michael Ashburner, Jane Lomax and Margrethe Hauge SerresPfam Domains pfam2go Nicola MulderProdom Domains

prodom2go Nicola MulderPrints Domainsprints2go Nicola MulderProSite

Domains prosite2go Nicola MulderSmart Domains smart2go Nicola Mulder README

需要注意的是,这些转化不是完全而精确的。其中的一个原因可能是GO 有一套完整的定义系统,而很多数据库并不具有。

GO 的应用

GO 的局限性

1. GO 不是基因序列或基因产物数据库,相反的,GO 强调基因产物在细胞中的功能。

2. GO 不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:

a. 更新速度较慢

b. 由于每个人对数据定义的方式不同,标准难以达到一致。 c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D 结构、进化等。

3.GO 是对基因功能的注解,但是有其局限性。比如说,GO 不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO 虽然 不涉及这些方面,但是支持其他的OBO(open biology ontologies) 成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)

用于基因组分析

基因组和全长cDNA 序列工程通常会根据序列的相似性,推测基因与已注释的基因功能类似。现在最常用的手段是在SWISS-PROT 序列中设定一个相似性 的域值,使用计算机化的方法来判断。因此,根据这一原理,也可以得到新的GO 注释(被标记为“根据电子注释推测”)。一个GO 的重要应用方面是对于一个 GO术语,能形成一个相联系的基因产物组。举例来说,某一基因产物可以被精确地注释为在碳水化合物代谢的一个特定的功能,如葡萄糖代谢,而在总结碳水化合 物代谢时,所有这些基因产物都会聚集到一起。GO 计划为每一个高频出现的术语建立文档总汇,现在有些已经在“GO Slim”中实现了。

用于基因表达分析

如在芯片数据中引入GO 注释,通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。共表达的基因可能编码在同一个生物过程中出现的基因产物,或定位 于同一个细胞部位的。如果未知基因和一些已被GO 过程术语相似地注释了的基因共表达,那么这个未知基因很有可能在同一个过程中发挥功能。分析和操作基因表 达芯片数据,并且又能结合GO 注释的软件已产生。EBI 提供的Expression Profiler,和EP:GO都具有此功能。

GO 可能的应用

GO 的应用前景很广阔,不可能一一列出,现在已用到的包括:

1. 整合来自于不同生物的蛋白组信息。

2. 判定蛋白结构域的功能。

3. 找到在疾病/衰老中异常表达的基因的功能类似性。

4. 预测与一种疾病相关的基因

5. 分析在发育中同时表达的基因

6. 建立起自动的能从文献中获取基因功能信息的工具。

GO 规模

如上所述,GO 的三层结构是分子功能、生化途径和细胞组件。GO 包含的大部分为平板格式文件(GO flat file),由每一种本体论中定义的文件为文本文件,而包含本体论和定义两种格式的是OBO 格式的平板文件,XML 作为可以用于三种本体论和所有定义的文 件格式也有提供。这些文件都在每月的1日更新,GO 每月将给出月份更新报告。

GO 的使用和引用

GO 的使用

基因本体论联合会是由国家人类基因组研究所 (NHGRI) 的R1拨款所赞助,此外还有欧盟RTD 项目“生活质量和生活资源管理”拨款。Gene OntologyTM 由AstraZeneca 公司提供资金赞助,而SGD 小组得到了IncyteGenomics 的赞助。

GO 数据库中的术语、注释等都属于公共范畴。GO 的资源是免费的,但是必须在以下三种情况下使用:

1. 必需引用基因本体论联合会。

2. 所使用的GO 文件必需标明GO 的版本号和日期。(GO 处于不断更新中)

3. GO文件的内容和内在的逻辑关系不得被更改。

引用GO

当使用GO 资源时,请引用以下文献:

Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium (2000) Nature Genet. 25: 25-29.

当引用亚数据库资源时,请参考GO 的 publication list

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标 准.GO 是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.

基因本体论(gene ontology)的建立 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些 随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的 和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质 合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD) 。 从那开始,GO 不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。 GO 的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举 例来说,GO 可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产 物特性的认识。

GO 发展了具有三级结构的标准语言(ontologies ),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。 本体论内容分子功能本体论基因 产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体 论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等

基本来说,GO 工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展 相关工具,使本体论的标准语言的产生和维持更为便捷。

本体论(The ontologies)

GO 的结构包括三个方面?D?D 分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们可能在每一个方面都有多种性质。如细胞色素C, 在分子功 能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别说明GO 的具体定义 情况。

基因产物

基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf 管里的基因产物,也表明了它的功能。但是这之间其实是存在差别

的?D?D 一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不 是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在GO 中,很重要的一点 在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。

许多基因产物会形成复合物后执行功能。这些“基因复合物”有些非常简单(如血红蛋白由血红蛋白基因产物α-球蛋白、β-球蛋白和小分子的亚血红素组成), 有些非常复杂(如核糖体)。现在,小分子的描述还没有包括在GO 中。在未来,这个问题可望由和现在的Klotho 和LIGAND 等小分子数据库联合而解 决。 分子功能

分子功能描述在分子生物学上的活性,如催化活性或结合活性。GO 分子功能定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大 部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺 苷酸环化酶活性或钟形受体结合活性等。

生物学途径

生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为 宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO 并 不涉及到通路中复杂的机制和所依赖的因素。

细胞组件

细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。

GO 的形式

GO 定义的术语有着直接非循环式(directed acyclic graphs (DAGs)的特点,而并非是传统的等级制(hierarchy )定义方式(随着代数增加,下一级比上一级更为具体)。举个例子来说,生物学途径中有一个 定义是己糖合成,它的上一级为己糖代谢和单糖合成。当某个基因被注解为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。因为在GO 中,每个 术语必须遵循“真途径“法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。

GO 的注释(Annotation )

那么,GO 中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用GO 的定义方法,对它们所包含的基因产物进行注解,并且 提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的GO 术语。每个数据库都会给出这些基因产物和GO 术语的联系数据库,并 且也可以在GO 的ftp 站点上和WEB 方式查询到。

并且,GO 联合会提供了简化的本体论术语(GO slim ),这样,可以在更高级的层面上研究基因组的功能。比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。

GO 对基因和蛋白的注释阐明了基因产物和用于定义他们的GO 术语之间的关系。基因产物指一个基因编码的RNA 或蛋白产物。因为一个基因可能编码多个具有很 不相同性质的产物,所以GO 推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。

一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状 态下的情况。GO 联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一. 所有的注释都需要有来源, 可以是文字、另一个数据库 或是计算机分析结果;二. 注释必须提供支持这种基因产物和GO 术语之间联系的证据。

GO 文件格式

GO 的所有数据都是免费获得的。GO 数据有三种格式:flat (每日更新)、XML(每月更新) 和MySQL (每月更新)。 这些数据格式都可以在GO ftp 的站点上下载。XML 和 MySQL 文件是被储存于独立的GO 数据库中。

如果需要找到与某一个GO 术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文 件。

GO 浏览器和修改器(browser and editor)

GO 术语和注释使用了多种不同的工具软件,它们都可以在web 方式的“GO 浏览器”下“GO software page”中找到。大多数GO 浏览器都是web 模式的,允许你直观的看到术语和其相关信息,如定义、同义词和数据库参考等。有些GO 浏览器如AmiGO 和 QuickGO,可以看到每个术语的注释。而可下载的DAG-Edit 编辑器,一样可以离线地显示注释和所有本体论定义的信息。对于每一个浏览器来说,都 可以选择最适用于你要求的工具软件。

常见的三种浏览器

AmiGO from BDGP在 AmiGO 中,可以通过查询一个GO 术语而得到所有具有这个注释的基因产物,或查询一 个基因产物而得到它所有的注释关系。还可以浏览本体论,得到术语之间的关系和术语对应的基因产物数目。AmiGO 直接连接GO 下的MySQL 。 MGI GO BrowserMGI GO的功能类似于AmiGO, 所不同的在于它所得到的基因为小鼠基因。MGI GO浏览器直接连接GO 下的MGI 数据库。QuickGO at EBI QuickGO , 整合在EBI 下的InterPro 中,可以通过查询一个GO 术语而得到 它的定义与关系描述、在SWISS-PROT 中的定位、在酶分类学(EC )和转运分类学(TC )中的定位和InterPro 中的定位等。

其他还有一些特殊的浏览GO 的浏览器,其中括号中为建立机构和主要特色: EP GO Browser (EBI, 基因表达情况), 、GoFish (Harvard,Boolean 查询、GenNav (NLM, 图像化展示)、GeneOntology@RZPD (RZPD ,UniGene )、ProToGO (Hebrew University ,GO 的亚图像化)、CGAP GO Browser (癌症基因组解剖工程,癌症)、GOBrowser (Illuminae ,perl. 、TAIR Keyword Browser (TAIR ,拟南芥)、PANDORA (Hebrew University,非一致化蛋白)。

修改器

GO 术语和本体论结构可以由任何可以读入GO 平板文件的文本修改器进行编辑,但是这需要对平板文件非常熟悉。因此,DAG-Edit 是被推荐使用的,它是为 GO

特别设计的,能够保证文件的句法正确。GO 注释可以被多种数据库特异性的工具所编辑,如TIGR 的Manatee 和EBI 的Talisman tool 。但是GO 数据库中写入新的注释是需要通过GO 认证的管理员方可进行的,如果想提出新的注释或对本体论的建议,可以联系GO 。

主要修改器为DAG-Edit 和COBrA 。DAG-Edit 基于Java 语言,提供了能浏览、查询、编辑具 有DAG 数据格式的GO 数据界面。在SourceForge 可以免费下载,伴随着帮助文件。COBrA 能够编辑和定位GO 和OBO 本体论。 它一次显示两个本体论,因此可以在不同的水平相应定位。(如组织和细胞类型水平)优点在于可以综合几种本体论,支持的文件格式多,包括GO 平板文件、GO RDF 和OWL 格式等。

如图为DAG-Edit 的界面,可以分为四个部分:

1) 定义编辑面板(term editor panel)

显示当下的本体论。也是主要的编辑本体论结构的工具,可以通过点击和拖动术语来修改本体论的从属关系。

2) 文本编辑面板(text editor panel)

修改术语中的内容。在修改多个术语时,会出现一个选择菜单,可以选中后逐个修改。

3) DAG浏览器

DAG 浏览器是一个插件,能够以图形的方式展示具有复杂的从属关系的术语。

4) 搜寻/屏蔽面板

可搜寻术语、术语类型和术语间关系。可自定义屏蔽条件,限制得出的搜寻结果。

GO 数据库的查找和浏览FAQ

1. 如何搜寻注释?

使用AmiGO 浏览器,可以在所有参与的数据库中搜寻一个特定的注解。AmiGO 允许使用GO 术语或基因产物的搜寻。搜寻结果包括GO 对这个术语的等级分 级情况,定义和近义结构,外部链接,所有相联系的基因产物和它的下一级术语。

2. 如何得到全部的GO 注释?

在GO 网站上,基因产物与GO 联系的组信息都有提供。这些文件储存了基因/基因产物的ID 和引用文献等支持证据(如FlyBase 基因ID, SWISS-PROT 蛋白ID), 在ftp 站点上都可以获得。

3. 在一些模式生物中, 一个基因通常有多个与之相关的核苷酸序列, 如EST 、蛋白序列等。要查询到这些序列,可以从该模式生物数据库中通过基因联系(gene association )查询到基因获得ID(gene accession ID),或是分别在Compugen 中查询大的转录产物(transcipt )和SWISS-PROT/TrEMBL中查询蛋白。

4. 如何得到由GO 术语注解的蛋白序列?

在GO 网页上选择能查询到所有数据库的Amigo 浏览器,键入GO 术语(如“线粒体”),在结果中显示了被注释的基因。然后选择你所需基因,在网页的最低 端把选项拖至“get fasta sequence”区域,再确定即可。

5. 如何能够找到所有和一个特定的GO 术语相关的人类基因呢?

GO 术语是和SWISS-PROT/TrEMBL/InterPro and Ensembl中的蛋白序列无赘余地对应的。这些注释在EBI 上的GOA-Human 文件中,GO 的FTP 站点上,Ensembl ,EMBL -Bank 上都可找到。

6.可以直接使用GenBank 的gi 获取码在GO 数据库中进行查询吗?

GO 数据库中除了Compugen 所提供的GenBank 获取码之外,没有包含其他GenBank 获取码的信息,但是在EBI 的GOA(GO Annotation)中,有一个综合的对GenBank/EMBL/DDBJ进行查询的方式,详细请见:ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/HUMAN/xrefs.goa.

GO 与其他分类系统的定位关系(Mapping to GO)

GO 并不只是希望为基因组建立一个标准化的、结构清晰的注释语言。GO 致力于各种基因组数据库的标准化。GO 为各种基因组分类系统和GO 注释之间的转化提供了 转化表,见http://www.geneontology.org/GO.indices.html

数据库索引文件来源UniProt Knowledgebasespkw2go Evelyn Camon (Note: spkw2go used to be called swp2go, all files remain the same.)Enzyme Commission ec2go Michael Ashburner EGADegad2go Michael Ashburner GenProtEC genprotec2go Heather Butler and Michael AshburnerTIGR role tigr2go Michael Ashburner TIGR Families tigrfams2go TIGR Staff

InterPro interpro2go Nicola MulderMIPS Funcat mips2go Michael Ashburner and Midori HarrisMetaCyc Pathwaysmetacyc2go Michael Ashburner and Midori HarrisMultiFun Classificationsmultifun2go Michael Ashburner, Jane Lomax and Margrethe Hauge SerresPfam Domains pfam2go Nicola MulderProdom Domains

prodom2go Nicola MulderPrints Domainsprints2go Nicola MulderProSite

Domains prosite2go Nicola MulderSmart Domains smart2go Nicola Mulder README

需要注意的是,这些转化不是完全而精确的。其中的一个原因可能是GO 有一套完整的定义系统,而很多数据库并不具有。

GO 的应用

GO 的局限性

1. GO 不是基因序列或基因产物数据库,相反的,GO 强调基因产物在细胞中的功能。

2. GO 不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:

a. 更新速度较慢

b. 由于每个人对数据定义的方式不同,标准难以达到一致。 c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D 结构、进化等。

3.GO 是对基因功能的注解,但是有其局限性。比如说,GO 不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO 虽然 不涉及这些方面,但是支持其他的OBO(open biology ontologies) 成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)

用于基因组分析

基因组和全长cDNA 序列工程通常会根据序列的相似性,推测基因与已注释的基因功能类似。现在最常用的手段是在SWISS-PROT 序列中设定一个相似性 的域值,使用计算机化的方法来判断。因此,根据这一原理,也可以得到新的GO 注释(被标记为“根据电子注释推测”)。一个GO 的重要应用方面是对于一个 GO术语,能形成一个相联系的基因产物组。举例来说,某一基因产物可以被精确地注释为在碳水化合物代谢的一个特定的功能,如葡萄糖代谢,而在总结碳水化合 物代谢时,所有这些基因产物都会聚集到一起。GO 计划为每一个高频出现的术语建立文档总汇,现在有些已经在“GO Slim”中实现了。

用于基因表达分析

如在芯片数据中引入GO 注释,通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。共表达的基因可能编码在同一个生物过程中出现的基因产物,或定位 于同一个细胞部位的。如果未知基因和一些已被GO 过程术语相似地注释了的基因共表达,那么这个未知基因很有可能在同一个过程中发挥功能。分析和操作基因表 达芯片数据,并且又能结合GO 注释的软件已产生。EBI 提供的Expression Profiler,和EP:GO都具有此功能。

GO 可能的应用

GO 的应用前景很广阔,不可能一一列出,现在已用到的包括:

1. 整合来自于不同生物的蛋白组信息。

2. 判定蛋白结构域的功能。

3. 找到在疾病/衰老中异常表达的基因的功能类似性。

4. 预测与一种疾病相关的基因

5. 分析在发育中同时表达的基因

6. 建立起自动的能从文献中获取基因功能信息的工具。

GO 规模

如上所述,GO 的三层结构是分子功能、生化途径和细胞组件。GO 包含的大部分为平板格式文件(GO flat file),由每一种本体论中定义的文件为文本文件,而包含本体论和定义两种格式的是OBO 格式的平板文件,XML 作为可以用于三种本体论和所有定义的文 件格式也有提供。这些文件都在每月的1日更新,GO 每月将给出月份更新报告。

GO 的使用和引用

GO 的使用

基因本体论联合会是由国家人类基因组研究所 (NHGRI) 的R1拨款所赞助,此外还有欧盟RTD 项目“生活质量和生活资源管理”拨款。Gene OntologyTM 由AstraZeneca 公司提供资金赞助,而SGD 小组得到了IncyteGenomics 的赞助。

GO 数据库中的术语、注释等都属于公共范畴。GO 的资源是免费的,但是必须在以下三种情况下使用:

1. 必需引用基因本体论联合会。

2. 所使用的GO 文件必需标明GO 的版本号和日期。(GO 处于不断更新中)

3. GO文件的内容和内在的逻辑关系不得被更改。

引用GO

当使用GO 资源时,请引用以下文献:

Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium (2000) Nature Genet. 25: 25-29.

当引用亚数据库资源时,请参考GO 的 publication list


    相关文章

    数据分析报告2016

    数据分析报告 2016年3月9日 21:02 项目名称:Sus scrofa蛋白组学无标试验 客户名称: 完成时间: 项目编号: 一共3个猪的脑脊液样品677,635,658,分别为:677是空白组:635是脑膜炎链球菌感染:658是关节炎 ...

    蛋白质注释及功能分析

    蛋白质注释及功能分析 利用基因本体GO (gene ontology )或者其它的功能注释系统(工具)来分析蛋白质的功能.然后提供蛋白质功能注释的统计分布情况.(如表1和图1 所示) 该分析结果可以给出差异表达蛋白质总体的功能分布,从而使研 ...

    外源基因导入对马铃薯农艺性状的影响

    2012,29(8):915-916农技服务,责任编辑胡先祥责任校对胡先祥 外源基因导入对马铃薯农艺性状的影响 黄团,李丽,雷尊国,邓宽平,李云 * (贵州省生物技术研究所,贵州省农业生物技术重点实验室,贵州贵阳550006) 摘要为了探索 ...

    基于第二代测序技术的细菌基因组与转录组研究策略简介

    微生物学通报 Microbiology China tongbao@im.ac.cn NOV 20, 2011, 38(11): 1705−1714 2011 by Institute of Microbiology, CAS 摘 要: 随 ...

    全基因组重测序数据分析

    全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic 和germ line 突变,结构变异-SNV ,包括重排突变(deletioin, duplication 以及copy ...

    动植物基因组de novo常见问题

    动植物基因组de novo常见问题 基础知识 1.什么是基因组de novo测序? 答:对某一物种进行高通量测序,利用高性能计算平台和生物信息学方法,在不依赖于参考基因组的情况下进行组装,从而绘制该物种的全基因组序列图谱. 2.普通基因组的 ...

    自动批处理文件基础教程

    自动批处理文件基础教程 DOS下的批处理概述: 所谓的批处理就是说把所有要执行的指令,放到一个档中成批的执行,不用再一个指令一个指令的逐句输入,这样做的好处是提高了执行效率,而且可以反复使用,可以拷贝. 在DOS下批处理文件的默认文件后缀名 ...

    生物信息学主要内容

    第二章:生物分子数据库 1.生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库.初(一)级数据库贮存原始的生物数据,如DNA 序列,由晶体衍射(Crystallography)获得的蛋白质结构等.二级数据(衍生数据库)是在初级数据 ...

    十年过去了,离「生命编辑」这个宏大梦想越来越近

    最近十年,遗传学(包括基因组学)有哪些实质性的突破? Juntao Yu,Biosciences, Junior@USTC 呼,借此机会回顾一下最近看的和做的一些东西. 这十年 Genomics 的主要变化就是定量化和可编辑,这段时间基因组 ...