-
基因组注释 编辑
111 开发环境
本系统基于PC 微机,操作系统为Linux。测试系统为PIII 550 双CPU 微机,内存1GB ,运行RedHat 710 Linux 系统。数据库管理系统使用MySQL ,Web 服务器程序使用Apache ,应用程序接口用Perl 脚本语言编写。本系统也可在单CPU 微机上运行,内存不小于512MB。所有系统软件和应用软件均可以从Internet 网上免费获得。
112 测试数据
本系统用蓝细菌( Synechococcus sp. ) PCC7002 基因组初步拼接所得最大重叠连续群(Contig) 作测试数据,共3 03247bp 。
113 MGAP 的基因组注释系统
基因组注释系统是MGAP 的核心,整合了许多常用的基因识别和蛋白质功能预测软件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多个数据库,如非冗余蛋白质序列数据库(Non redundant , NR) 、已知三维空间结构的蛋白质序列数据库(PDBSeq) 、国际蛋白质资源信息系统( InterPro) 和直系同源蛋白质家族数据库(Cluster of orthologousgroups ,COG) 等,编写了相应的模块进行自动操作,并把每一步注释结果导入数据库中。MGAP 整合的一般模块,可以被其他任何一种微生物基因组直接使用。不同实验室可根据实际研究需要,增加相应模块或数据,如蓝细菌Anabaena sp. strain PCC 7120 的蛋白质序列库等。
基因识别是MGAP 的第一步,本系统采用微生物基因组基因识别最为权威的Gene2Marks 软件进行基因预测,通过http :PPopal .biology.gatech.eduPGeneMarkPgenemarks. cgi 网站提交重叠连续群测试序列(3 03247bp) ,使用GeneMarks 缺省参数,预测得到279 个基因。
然后用MGAP 的数据加载模块(Loaddata) 将预测结果导入ORF 表中。
114 MGAP 的用户接口
用户接口用于展示注释结果,提供易于操作和分析平台。本系统用户接口基于Web设计开发,用户可通过浏览器访问基因组注释系统,包括基因组环状图展示、基因和ORF在染色体上分布图,并对注释信息进行检索。基因组环状基因分布图构建基于如下信息:预测所得基因的起始位置、长度,编码基因的正负链信息,以及预测的基因功能分类。
2 结果
MGAP 系统对PCC7002 基因组重叠连续群测试序列注释结果。A 为基因展示图,B 为ORF 显示页面。A 中由外向内依次为: (1) 正链编码基因; (2) 负链编码基因; (3)GC 含量统计; (4) GC 偏离量统计。该系统构建的环状基因组,可显示正负链上的编码基因,用相应颜色表示功能类别。本系统沿用经典蛋白质功能分类方法 ,即把微生物基因组所有基因按功能分为16 大类,进而细分为113 个子类。此外,还增加了统计GC 含量和GC 偏离量(GC Bias) 功能。计算GC 含量时以200bp 为滑动窗口,计算GC 偏离量时以13kb 为滑动窗口。GC 偏离量表示G和C 含量的差别,定义为: (G2C)P(G+ C) 。点击A图中环状基因组展示图,则可得到B 图基因组局部ORF 显示页面。点击图中某个ORF ,即可调出其所有注释信息,包括该ORF 在基因组中的位置、长度、正负链信息、核酸和蛋白序列,以及对NR 蛋白库、COG数据库、InterPro 、PDBseq 数据库的搜索结果。所有结果都有相对应的连接可以直接连到原始数据库。
3 讨论
新基因组功能注释是基因组研究的重要方面,MGAP 把注释所用软件和公共数据库进行有机集成,使注释过程自动进行并把结果存储到数据库系统中,最终提供友好的界面,可为中小实验室提供方便实用的微生物基因组注释系统,减少人工参与,提高注释效率。该系统考虑到国内一般中小实验室的实际情况,基于廉价的PC 微机和免费Linux、MySQL 、Apache 和Perl 等软件系统开发。
必须指出,所有计算机注释信息,均不能保证完全准确。MGAP 在一定程度上依赖于现有数据库中的注释信息。由于各种原因,这些注释信息必然有一些错误。显然,这些错误信息将不可避免地引入新的注释系统。为此,MGAP 综合了多种注释方法,并互为补充。例如,一个ORF 既有BLASTP从NR 数据库搜索到的相似序列,又在InterPro 蛋白质模体库中找到相应功能位点,也可找到高分匹配的COGs ,那么该注释结果就比较可靠。此外,必要的人工注释,可以避免或纠正自动注释的错误。例如,由于测序错误产生的读码框移位或是缺失,会导致一个基因被拆分成两段,这种错误只能由手工纠正。基因组注释是一个复杂、繁琐的过程,需要大量的生物学知识。详尽、准确的注释需要经过严格的生物学实验才能获得。本系统对测试序列的注释结果仍有许多未知功能基因,需不断扩充新数据而逐步更新。MGAP 的新版本将增加交互式用户注释模块,进一步扩充和增强该系统注释功能。