第七章 人之书(共23卷)
人难道不过就是这样吗?好好想想他吧。
——威廉·莎士比亚,《李尔王》第三幕第四场
山外有山。
——海地谚语
人类基因组由3 088 286 401个碱基对组成(该数字前后出入不大,而最新的估算结果是32亿个碱基对)。
·假如将人类基因组比作以标准字体印刷的图书,那么该书的内容将仅由ATGC这四个字母循环往复组成:……AGCTTGCAGGGG……它们会按照碱基配对的原则无限延伸下去,而本书的页数也将达到150万页以上,是《大英百科全书》的66倍。
·人体大多数细胞具有23对(46条)染色体。大猩猩、黑猩猩与猩猩等类人猿细胞则具有24对染色体。当人类进化到达某个节点时,猿类祖先体内两条中等大小的染色体会发生互相融合。几百万年前,人类基因组彻底从猿类基因组中分离出来,它们随着时间推移获得了新的突变与变异。虽然人类少了一对染色体,但是却从此脱颖而出。
·人类基因组共编码大约20 687个基因,其数量仅比蠕虫多1 796个,比玉米少12 000个,比水稻或小麦少25 000个。当然“人类”与“早餐谷物”之间的区别不在于基因数量多少,而在于其细胞内部基因网络的复杂性。1也许我们在数量上不占优势,但是却懂得发挥到极致。
·人类基因组极具创新性。它可以把复杂问题简单化。它能在特定的时间与空间内激活或抑制某些基因,并且根据时空变化为每个基因匹配独特的环境与搭档,从而利用有限的基因库演化出无限的功能。此外,在外显子的作用下,单个基因可以获得比基因谱系本身更为复杂的多样性。对于基因调控与基因剪接这两种方法来说,它们在人类基因组中的应用要远比其他物种广泛得多。基因具有数量庞大、类型多样以及功能繁杂的特征,因此诠释人类复杂性奥秘的关键就在于基因组的创新性。
·人类基因组时刻处于动态变化中。在某些细胞中,基因通过对自身序列进行重排来构建新型突变体。免疫系统细胞可以分泌“抗体”,而这些像导弹一样的蛋白质将附着在入侵的病原微生物上。但是由于病原体在不断变化,因此抗体也必须随之改变,而这些变化多端的病原体需要机体做出及时调整。基因组可以通过对遗传物质进行重排获得令人惊奇的多样性(例如,利用s...tru...c... t...ure与g...en...ome可以重排出c...ome...t这个新词)。而经过重排后的基因能够产生抗体多样性。在这些细胞中,基因组可以通过重排生成完全不同的基因组。
·某些基因的功能着实无懈可击。例如,在第11号染色体上,有一条专门用于嗅觉感知的通路。该基因簇由155个基因组成,其编码的蛋白质受体就是嗅觉传感器。每个受体都会与某种结构独特的配体结合,而它们之间的关系可以用锁和钥匙的关系来形容,并且最终在大脑中生成各种各样的嗅觉,例如,薄荷、柠檬、香菜、茉莉、香草、姜或是辣椒的味道。这是一种精密的基因调控方式,它将确保从上述基因簇中选择某个气味受体基因,然后使该基因在位于鼻子的嗅觉神经元中表达,于是我们就可以区分出成千上万种不同气味。
·然而令人不解的是,基因在基因组中所占的比例非常小。基因组序列的绝大部分(98%)是由大量散布在基因之间(基因间DNA)或者基因内部(内含子)的DNA片段组成。这些长段的间插DNA序列并不编码RNA或蛋白质:它们存在于基因组中的意义可能与调控基因表达有关,当然还可能有某些我们尚不了解的原因,或者说它们本身没有任何作用(也就是所谓的“垃圾DNA”)。假如把基因组比喻成为横跨大西洋连接北美洲与欧洲之间的交通线,那么基因就是散落在狭长幽暗水域中星罗棋布的小岛。而即便它们首尾相连也无法与加拉帕戈斯群岛中最大的岛屿相媲美,更不用说日本东京市内蜿蜒曲折的地铁路线了。
·人类基因组铭刻着历史。在很久以前,某些特殊的DNA片段就已经嵌入人类基因组,而它们中的部分成员来自古代病毒,并且自那时起已经被动地传承了成千上万年。其中某些DNA片段曾经能够在基因与生物体之间灵活地“跳跃”,但是现在大多数此类片段已经失活或者沉默。它们就像生活中无处不在的旅行推销员,永远藏在我们的基因组里无法移动或剔除。这些DNA片段的规模要远远超过基因的数量,从而产生了人类基因组的另一个重要特征:人类基因组中的大多数DNA片段并非人类特有。
·人类基因组中的DNA序列具有高度重复性。例如,Alu是一个由300个碱基对组成的重复序列,虽然它在基因组中的拷贝数可能达到数百万份,但是这个神秘序列的起源、功能及意义仍然不得而知。
·人类基因组中包含有数量庞大的“基因家族”,这些基因在结构与功能上具有相似性,它们紧密排列在一起形成基因簇。某些染色体上200个密切相关的基因可以形成基因岛,它们可以编码“同源基因”家族成员,并且在决定胚胎的命运、身份与结构、体节形成以及器官分化中起着重要作用。
·人类基因组中还存在成千上万的“假”基因,这些曾经发挥作用的基因现在已经丧失功能,也就是说它们现在并不能编码蛋白质或者RNA。这些灭活基因的序列散落在基因组中,看上去就像海滩上饱经风霜的石子。
·正是基因组携带的海量信息造就了人类的千姿百态。虽然人类与黑猩猩和倭黑猩猩的基因组一致性高达96%,但是人类与这些灵长目动物相比却有着天壤之别。
·1号染色体上的第一个基因可以编码鼻子中的嗅觉蛋白(又是那些无处不在的嗅觉基因)。而基因组中最后一个基因位于X染色体上,它可以编码某种用来调节免疫系统细胞间交互作用的蛋白。(染色体编号只是人为设定的结果,而1号染色体因其长度独占鳌头而得名。)
·染色体的末端存在“端粒”这种结构。端粒就像是鞋带末端的塑料绳花,这些DNA序列可以保护染色体免于磨损与退化。
·尽管我们已经掌握了遗传密码(即单个基因携带的信息如何构建蛋白质)的奥秘,但是我们对于基因组密码(即基因组中的多个基因如何根据时空变化来协调基因表达,然后实现构建、维护以及修复人体的功能)几乎一无所知。遗传密码的作用机制一目了然:DNA经转录后生成RNA,随后RNA通过翻译来合成蛋白质,同时DNA中的三个连续碱基对可以对应蛋白质中的某个氨基酸。相比之下,基因组密码的作用机制十分复杂——附着在基因上的调控序列携带有决定基因表达的时空信息。我们并不了解某些基因位于基因组特定位点的原因,也不清楚基因间DNA片段如何调控基因的生理功能。因此我们可以用山外有山来形容这种错综复杂的关系。
·人类基因组能够根据环境变化产生化学标记,并且构建出某种特殊的细胞“记忆”模式(该理论尚需要进行深入研究)。
·虽然神秘莫测的人类基因组容易受到外界影响,但是它却具有强大的适应性与重复性,从而令其在遗传学研究中傲视群雄。
·人类基因组进化的脚步从未停歇,我们可以从中发现历史遗留的蛛丝马迹。
·人类基因组的功能以生存为导向。
·人类基因组就是我们自身的写照。