第七章 基因注释与功能分类



《第七章 基因注释与功能分类》由会员分享,可在线阅读,更多相关《第七章 基因注释与功能分类(81页珍藏版)》请在文档大全上搜索。
1、生物信息学生物信息学第七章第七章 基因注释与功能分类基因注释与功能分类哈尔滨医科大学哈尔滨医科大学 李亦学、宁尚伟李亦学、宁尚伟 生物信息学生物信息学第一节第一节 引言引言背景背景 随着随着后基因组(后基因组(post-genomics)时代研究的不断深)时代研究的不断深入,基因组学的研究任务已由最开始的基因组序列入,基因组学的研究任务已由最开始的基因组序列识别,渐渐转移到在整体分子水平对功能进行研究。识别,渐渐转移到在整体分子水平对功能进行研究。一个重要标志是一个重要标志是功能基因组学(功能基因组学(functional genomics)的不断发展。的不断发展。任务任务 功能基因组学的主要
2、任务之一是进行基因组功能基因组学的主要任务之一是进行基因组功能注功能注释(释(genome annotation),),了解基因的功能,认识了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。动中的作用等。意义意义 快速有效的基因注释对进一步识别基因,研究基因快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,地位,分析基因、基因产物之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进化等预测和
3、发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。具有重要的意义。 第二节第二节 基因注释数据库基因注释数据库 Gene Annotation Database一、研究人员已经掌握了大量的一、研究人员已经掌握了大量的全基因组数据全基因组数据,同时,同时关于基因、基因产物以及关于基因、基因产物以及生物学通路生物学通路的数据也越来越的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。要系统的方法。二、在基因组范围内描述蛋白质功能十分复杂,最好二、在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的
4、生物学的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求。统研究基因及其产物的一项基本需求。 基因注释数据库产生的原因基因注释数据库产生的原因 一、基因本体(一、基因本体(gene ontology,GOgene ontology,GO)数据库)数据库 基因本体数据库是基因本体数据库是GO组织(组织(Gene Ontology Consortium)在)在2000年构建的一个结构化的标准生年构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇物学模型,旨在建立
5、基因及其产物知识的标准词汇体系,涵盖了基因的体系,涵盖了基因的细胞组分(细胞组分(cellular component)、分子功能()、分子功能(molecular function)、生)、生物学过程(物学过程(biological process)。 GO数据库主页数据库主页 GO数据库最初收录的基因信息来源于数据库最初收录的基因信息来源于3个模式生物个模式生物数据库:数据库:果蝇、酵母和小鼠果蝇、酵母和小鼠,随后相继收录了更多,随后相继收录了更多数据,其中包括国际上主要的植物,动物和微生物数据,其中包括国际上主要的植物,动物和微生物基因组数据库。基因组数据库。 GO术语在多个合作数据库中
6、的统一使用,促进了术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性。各类数据库对基因描述的一致性。 GOGO数据库收录的基因组数据列表数据库收录的基因组数据列表 GO数据库收录的基因组数据列表数据库收录的基因组数据列表GOGO注释体系特点注释体系特点 GO通过控制注释词汇的层次结构使得研究人员能够通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息。从不同层面查询和使用基因注释信息。 从整体上来看从整体上来看GO注释系统是一个有向无环图注释系统是一个有向无环图(directed acyclic graphs),包含三个分支包含三个分支,即即: 生物生物
7、学过程(学过程(biological process),分子功能(),分子功能(molecular function)和细胞组分()和细胞组分(cellular component)。 注释系统中每一个结点(注释系统中每一个结点(node)都是基因或蛋白的)都是基因或蛋白的一种描述一种描述,结点之间保持严格的关系结点之间保持严格的关系,即即“is a”或或“part of”。GO中生物学过程的中生物学过程的DNA代谢部分功能类示意图代谢部分功能类示意图1. 用关键词检索用关键词检索GO数据库数据库 检索检索GO数据库通常先进入数据库通常先进入AmiGO 2.0的首页。在的首页。在GO数据库中,
8、每条记录都有一个数据库中,每条记录都有一个数据标识号数据标识号GO:XXXXXX和对应的术语。因此检索时需要知道和对应的术语。因此检索时需要知道待查基因的数字标识号或术语,将它们直接输入框待查基因的数字标识号或术语,将它们直接输入框中检索即可。如果检索的基因或蛋白质存在别名,中检索即可。如果检索的基因或蛋白质存在别名,可在检索框下勾选可在检索框下勾选“gene or proteins”,并在检索框中并在检索框中输入别名检索;输入别名检索;“exact match”表示是否完全匹配,表示是否完全匹配,可供选择。可供选择。二、使用二、使用GOGO数据库数据库 AmiGO 2检索网页检索网页 这里以
9、检索这里以检索神经细胞分化因子神经细胞分化因子6(NEUROD6)为例,为例,选择选择“Advanced Search”下的下的“Genes and gene products”选项,在检索框中输入选项,在检索框中输入“NEUROD6”,运,运行后所得基因产物检索结果如图所示。行后所得基因产物检索结果如图所示。举例举例 AmiGO 2检索结果示例检索结果示例 检索得到的六个记录分别是不同物种中的神经源性分检索得到的六个记录分别是不同物种中的神经源性分化因子化因子6,点击物种为人类,点击物种为人类“Homo sapiens”的的“NEUROD6”记录,得到结果如图所示,显示了该基记录,得到结果如
10、图所示,显示了该基因的基本信息,包括类型、物种、名称来源等信息。因的基本信息,包括类型、物种、名称来源等信息。 AmiGO 2基因描述示例基因描述示例1 检索下方还显示了该基因产物的关联(检索下方还显示了该基因产物的关联(gene product associations)图,要查看该基因的分子功能,可点击)图,要查看该基因的分子功能,可点击“direct annotation”中的记录查看,如点击中的记录查看,如点击“protein dimerization activity”的结果如图所示。的结果如图所示。 此外,还列举了该功能的详细注释,包括此外,还列举了该功能的详细注释,包括“Asso
11、ciations”、“Graph Views”、“Inferred Tree View”、“Ancestors and Children”和和“Mappings”等。如点击可视化视图等。如点击可视化视图“Graph Views”就可清晰地显示该分子功能构成的复杂功能就可清晰地显示该分子功能构成的复杂功能网状结构,既有上下隶属关系,也存在平行关系。网状结构,既有上下隶属关系,也存在平行关系。 AmiGO 2查询查询结果图形视图结果图形视图2. 用序列检索用序列检索GO数据库数据库 在在AmiGO 1.8 版本中,对于未知基因名的序列,版本中,对于未知基因名的序列,还可以用序列直接检索还可以用序列