-
组蛋白基因 编辑
基因组中存在大量重复序列用以编码组蛋白是有其重要意义的。DNA复制时,组蛋白也要成倍增加,而且往往在DNA合成一小段后,组蛋白马上就要与其相结合,这要求在较短的时间内合成大量的组蛋白,因而需要有大量的组蛋白基因存在。
人体基因组中还有几个大的基因簇,也属于中度重复顺序长的分散片段型。在一个基因簇内含有几百个功能相关的基因,这些基因簇又称为超基因(Super gene),如人类主要组织相容性抗原复合体HLA和免疫球蛋白重链及轻链基因都属于超基因。超基因可能是由于基因扩增后又经过功能和结构上的轻微改变而产生的,但仍保留了原始基因的结构及功能的完整性。
人体蛋白质编码基因数量最早估计有10万个左右,人类基因组计划将其数量减少到了2万个左右,而最新研究再次将这一数量减少到了1.9万。研究负责人、西班牙国立癌症研究中心的Alfonso Valencia说,几年前无人会想到,如此少的基因会创造出人类这样如此复杂的物体。
鸡的基因组中组蛋白基因有10个拷贝,在哺乳动物中为20拷贝,非洲爪蟾为40拷贝,而海胆的每种组蛋白的基因达300-600拷贝。不同生物中组蛋白基因在基因组中的排列不一样,组蛋白基因没有一定的排列方式,而在拷贝数高的基因组中(>100拷贝),大部份组蛋白基因串联重复形成基因簇。
海胆发育早期五种组蛋白基形成一个重复单位,每种组蛋白基因之间是非转录间隔区,5个间隔区均不相同。这样的重复单位在整个基因组中重复300次以上,而且这些重复单位基本上是相同的。在海胆中,5种组蛋白基因的转录方向都是相同的,每种组蛋白基因独立的产生自己的mRNA。
非洲爪蟾卵细胞5S基因重复单位包括一个基因和一个假基因。在三种不同的海胆中,其组蛋白基因重复单位中非转录间隔区在长度和序列上差异是很大的,尽管它们的组蛋白基因的长度和序列相差不多。实际上,在同一种海胆内不同的组蛋白基因重复单位之间,相应的非转录间隔区也不是完全相同的。另外,在海胆胚胎发育晚期,要由晚期组蛋白基因来编码组蛋白,该基因与上述的早期组蛋白基因有轻微的差异,但该组蛋白基因不成簇排列,整个基因组仅有10个拷贝,呈散在分布。
在果蝇和非洲爪蟾中,5种组蛋白也排成一个重复单位,也存在间隔区,而且组蛋白基因的转录方向不一样。多个重复单位也形成串联重复排列。进化到哺乳动物,组蛋白基因一般不再形成重复单位,而呈散在分布或集成一小群。尽管组蛋白基因在基因组中的排列和分布在不同生物之间相差甚大,但是所有组蛋白基因都不含内含子,而且在序列上相应的组蛋白基因都很相似,从而编码的组蛋白在结构上和功能上也极为相似。