第七章 “变幻莫测的难解之谜”
自然界已经为蛋白质分子设计了某种装置,它可以通过某种简明扼要的途径来诠释其灵活性与多样性。只有充分把握这种特殊的优势组合,我们才能以正确的视角来认识分子生物学。1
——弗朗西斯·克里克
“代码”这个词在拉丁语中是植物茎基的意思,而这种也被称为木髓的材料曾经用于早期记录。对于代码这个词来说,它从形态到功能演变的过程不免令人深思。其实DNA又何尝不是如此,沃森与克里克意识到,分子形态与其功能之间存在着某种内在联系,遗传密码已经被写入组成DNA的材料中,它就像刻入木髓的符号一样清晰可见。
然而遗传密码到底是什么呢?A、C、G、T四种碱基如何串联形成DNA分子(RNA中的碱基由A、C、G、U组成),并且决定毛发质地、眼睛颜色、细菌荚膜的性质(或者结合前述案例来说,家族性精神病或血友病的易感倾向)呢?孟德尔提出的抽象“遗传单位”概念如何通过物理性状表达呢?
※※※
乔治·比德尔(George Beadle)与爱德华·塔特姆(Edward Tatum)是两位来自斯坦福大学的科学家,他们于1941年在位于地下隧道中的实验室里发现了连接基因与物理性状之间的缺失环节,并且比埃弗里完成的肺炎球菌转化实验还提前了3年。2比德尔的同事更喜欢称他为“比茨”,而他在就读于加州理工学院时曾是托马斯·摩尔根的学生。3比德尔曾经对红眼果蝇与白眼果蝇变异体的产生困惑不解。他明白“红眼基因”是一种遗传信息单位,它通过DNA(位于染色体上的基因中)以某种不可分割的形式由亲代传递给子代。相比之下,“红眼”这种物理性状则是直接源自果蝇眼内的某种化学颜料。可是遗传微粒是如何转变成眼内色素的呢?对于“红眼基因”与“红眼”来说,它们的遗传信息与相应的物理或解剖形态之间存在什么联系呢?
果蝇凭借这些罕见突变体改变了遗传学发展。就像摩尔根描述的那样,这些罕见突变体像黑夜里的明灯一样,指引着生物学家代际追踪“基因行为”。比德尔对于这种虚无缥缈的基因“行为”十分着迷。4 20世纪30年代末期,比德尔与塔特姆推断,分离出果蝇眼内现有的色素可能会破解基因行为的谜题。但是由于基因与色素的关系过于复杂,他们无法提出一个切实可行的方案,因此这项工作始终停滞不前。1937年,比德尔与塔特姆在斯坦福大学期间将研究对象进行了调整,而这种名为粗糙链孢菌(Neurospora crassa)的生物体结构更为简单,人们最初在巴黎某家面包店发现它的时候以为这只是一种污染物。现在比德尔与塔特姆打算用粗糙链孢菌来破解基因与性状之间的联系。
日常生活中随处可见的面包霉菌具有顽强的生命力。它们可以在皮氏培养皿营养丰富的培养基里生长,不过实际上此类霉菌不需要太多营养便可生存下去。比德尔发现,当霉菌菌株将培养基中的绝大部分营养成分消耗殆尽后,它们依然能够在仅含有糖与生物素的基本培养基上生长。显而易见,此类霉菌细胞可以利用基本化学物质合成其生存所需的全部分子,它们将葡萄糖合成脂质,用前体化学物质合成DNA与RNA,并且把单糖合成为复杂的碳水化合物,而这就是“神奇面包”创造的奇迹。
比德尔明白,上述合成能力由细胞内的酶类控制。这些具有催化功能的蛋白质在细胞内扮演着建筑大师的角色,它们能够利用初级前体化学物质合成复杂的生物大分子。如果希望面包霉菌能在基本培养基中顺利繁殖,那么必须保证其新陈代谢与分子合成功能完整。即使某种突变只导致了某一项功能失活,那么这株霉菌也将无法继续繁殖下去,除非通过人为手段在培养基中补充那些缺失的组分才能逆转。因此,比德尔与塔特姆可以利用这项技术来追踪每个突变体中缺失的代谢功能:如果某种突变体需要物质X才能在基本培养基中生长,那么它必然从一开始就缺少合成物质X的酶。尽管这种方法费力不讨好,但是比德尔的优点就是极具耐心。他曾经用整整一下午的时间来指导研究生腌制牛排,并且在此过程中严格按照预设时间间隔放各种调料。
“组分缺失”实验促使比德尔与塔特姆对基因有了新的认识。他们指出,缺少某种代谢功能的突变体将表现为相应的蛋白酶活性障碍。遗传杂交结果显示,每种突变体中仅有一个基因存在缺陷。
但是如果基因突变破坏了酶的功能,那么该基因在正常状态下必定携带合成正常酶的信息。而那些执行代谢或者细胞功能的蛋白质则由遗传单位所编码。比德尔于1945年写道:“基因可以指导蛋白质分子折叠形成最终构象。”5其实这就是一代生物学家始终梦寐以求的“基因行为”:基因通过编码信息来合成蛋白质,然后由蛋白质来实现生物体的形态或功能。[1]
或者以信息流来表示:
1958年,比德尔与塔特姆凭借上述发现获得了诺贝尔奖。但是他们在实验中提出的一个关键问题仍然悬而未决:基因如何通过编码信息来合成蛋白质呢?蛋白质是由20种名为氨基酸(甲硫氨酸、甘氨酸、亮氨酸等)的简单化合物串联形成的链状结构。它们与DNA的不同之处在于,DNA链主要以双螺旋形式存在,而蛋白质链则可以扭转形成各种特殊的空间构象,看起来就像是被折叠成特殊形状的电线。这种变形能力可以让蛋白质在细胞中执行不同的功能。它们在肌肉(肌球蛋白)中表现为细长且柔韧的纤维,也可以化身为球形(例如,酶类中的DNA聚合酶)然后促进化学反应发生,还能够与产生颜色的化学物质结合,合成眼睛或者花朵内的色素。它们在扭曲形成搭扣状构象后可以充当其他分子的搬运工(血红蛋白),此外还可以指定神经细胞之间的信息传递方式,并对正常状态下的认知功能与神经系统发育起决定作用。
但是DNA序列(例如ATGCCCC……)是如何携带合成蛋白质的指令呢?沃森始终感觉DNA首先会转换成为某种携带信息的中间体,于是他将其称作“信使分子”,而这些分子上携带有基因密码发出的合成蛋白质指令。1953年,沃森写道:“我在最近一年多总在跟弗朗西斯(克里克)念叨,DNA链携带的遗传信息必定先复制到与其互补的RNA分子中。”6然后RNA分子将作为合成蛋白质的“信使”发挥作用。
1954年,为了破解蛋白质的合成机制,俄裔物理学及生物学家乔治·伽莫夫(George Gamow)与沃森合作成立了一个科学家“俱乐部”。同年,伽莫夫用蹩脚的英语致信莱纳斯·鲍林:“亲爱的鲍林,我正在研究复杂的有机分子(我从未接触过这些!),并且得到了(原文将getting写为geting)一些有趣的结果,希望能听听你的意见(原文将opinion写为opinnion)。”7
伽莫夫将其称为RNA领带俱乐部。8克里克后来回忆说:“俱乐部并非某种实体,它的存在显得虚无缥缈。”9俱乐部从来没有举行过会议或制定过章程,甚至连最基本的组织原则都不具备。与传统的学术组织不同,俱乐部主办的活动都是松散的非正式会谈。他们想起来就开个会,想不起来就不开。成员之间在内部传阅的函件中会提出某些胆大妄为的想法,他们还经常给这些未经发表的观点配上潦草的手绘插图,而这种形式俨然就是那个年代的博客。沃森在洛杉矶找到一个裁缝,然后请他在绿色羊毛领带上绣出一条金色的RNA链,伽莫夫则亲自在朋友圈中挑选俱乐部成员,并为他们送上特制的领带与领夹。他还将自己的座右铭印刷在信笺抬头上:“勇往直前,时不再来。”10
※※※
雅克·莫诺(Jacques Monod)与弗朗索瓦·雅各布(François Jacob)是两位在巴黎工作的细菌遗传学家,他们在20世纪50年代中期也开展了相关实验,其结果也隐约暗示DNA在蛋白质翻译过程中需要某种中间体分子作为信使来发挥作用。11他们提出,基因并不能直接发出指导蛋白质合成的指令。确切地说,DNA中的遗传信息需要先转换成软拷贝(草稿),然后蛋白质翻译将以该软拷贝为模板,而不是直接采用原始DNA的序列。
1960年4月,弗朗西斯·克里克与雅各布在悉尼·布伦纳(Sydney Brenner)位于剑桥的狭小公寓内会面,他们共同讨论了这种神秘中间体分子的身份。布伦纳是一位南非鞋匠的儿子,他在获得奖学金后来到英国学习生物学。就像沃森与克里克一样,他也对沃森的“基因信仰”和DNA功能十分着迷。这三位科学家甚至来不及品味刚刚入口的午餐就意识到,此类中间体分子必须能够往来于细胞核与细胞质之间,其中前者是基因的存储地点,而后者是蛋白质的合成场所。
然而这种基因“信使”的化学成分是什么呢?蛋白质?核酸?还是某种其他类型的分子?它与基因序列之间存在什么关系?尽管缺乏确凿证据,但是布伦纳与克里克仍旧怀疑这种中间体分子就是RNA(DNA的分子“表兄弟”)。1959年,克里克为“RNA领带俱乐部”赋诗一首:
遗传RNA的特点是什么,
它究竟是天使还是恶魔?
这变幻莫测的难解之谜。12
※※※
1960年早春,雅各布飞抵加州理工学院与马修·梅塞尔森(Matthew Meselson)共同联手,他们打算破解这个“变幻莫测的难解之谜”。几周之后的6月初,布伦纳也加入了他们的团队。
布伦纳与雅各布知道,蛋白质是由细胞内一种名为核糖体的特殊细胞器合成的,而纯化信使中间体最有效的方法就是突然中止蛋白质合成。这种过程相当于生化版本的冷水浴,当那些冻得发抖的分子连同核糖体一起被提纯后,就可以揭开这个“难解之谜”。
虽然上述理论看似简单易行,但是在实际操作中却举步维艰。布伦纳在汇报的时候说,他最初在实验中一无所获,满眼皆是“潮湿阴冷的加州浓雾”。他们花费了数周时间来完善烦琐的生化实验步骤,然而每当成功捕获到核糖体后,这些细胞器就会旋即崩解。核糖体在细胞内似乎非常稳定地粘连在一起。那么它们为何在离开细胞后就发生变性,就像划过指尖的浓雾一般稍纵即逝呢?
其实答案就隐藏在迷雾背后。某天清晨,当布伦纳与雅各布正坐在海滩上小憩时,布伦纳突然从基础生物化学课本中获得了启示,他意识到一个极其简单的事实:他们的解决方案必定遗漏了某种重要化学因子,而它可以保证核糖体在细胞内保持完整。但是这种因子是什么呢?它应该普遍存在于细胞内,同时具备体积小巧的特点,其角色就像某种微量的分子胶。雅各布猛然从沙滩上蹦了起来,完全不顾凌乱的头发以及从口袋中滑落的细沙,他兴奋地大声尖叫道:“是镁离子!是镁离子!”13
细胞内使核糖体保持完整性的化学因子就是镁离子。镁离子的作用至关重要:当我们在溶液中补充镁离子后,核糖体将会保持彼此黏合的状态,布伦纳与雅各布终于从细菌细胞中提纯出微量的信使分子。果不其然,这种分子就是RNA,但是其类型却异乎寻常。[2]当基因启动翻译时,信使分子随之生成。与DNA相似,RNA分子也由四种碱基串联而成,它们分别是A、G、C、U(请注意,在基因的RNA拷贝里,U将取代DNA中的T)。14值得关注的是,布伦纳与雅各布后来发现信使RNA与原始DNA呈互补关系。当基因的RNA拷贝从细胞核转移到细胞质时,其携带的信息将被解码并指导蛋白质合成。信使RNA既不是天使也不是恶魔,它只是一个专业的中介。基因生成RNA拷贝的过程被称为转录,仿佛它们在以原始语言为模板对单词或句子进行重写。最终基因密码(ATGGGCC……)被转录为RNA密码(AUGGGCC……)。
这个过程类似于对珍本图书馆内的藏书进行翻译。信息的原版拷贝(例如基因)被永久尘封在幽深的密室或者金库里。当细胞发出“翻译请求”时,RNA作为DNA的拷贝接受指令从细胞核转移到细胞质。基因的副本(例如RNA)将被作为蛋白质翻译的源代码。上述过程允许多拷贝基因同时流通,此外RNA拷贝的数量可根据需求增减,而该事实很快就被证明在理解基因的活性与功能中起到至关重要的作用。
※※※
然而转录只解决了蛋白质合成的一半问题。剩下的另一半问题依然存在:信使RNA是如何解码并合成蛋白质的呢?在生成基因的RNA拷贝时,细胞采取了一种非常简易的转位方式:基因中的A、C、T和G序列在复制到信使RNA后其对应的序列为A、C、U和G(即ACT CCT GGG→ACU CCU GGG)。基因的原始序列与RNA拷贝之间的唯一区别就是胸腺嘧啶被尿嘧啶所取代(T→U)。可是一旦DNA转录生成RNA,那么基因中的“信息”是如何解码并合成蛋白质的呢?
在沃森与克里克看来,单个碱基(A、C、T或G)携带的遗传信息非常有限,根本无法承担合成蛋白质的重任。生物体内的蛋白质由20种氨基酸构成,而仅凭上述四种碱基不可能生成20种选项。秘密应该就隐藏在碱基组合之中。他们写道:“似乎那些鳞次栉比的碱基序列才是携带遗传信息的密码。”15
我们可以运用自然语言进行类比来说明这一点。字母A、C与T自身携带的信息量微乎其微,但是它们在经过多种方式组合后就可以产生纷繁复杂的信息。同样还是这些字母,当它们的序列改变后其反映的信息也大相径庭:例如,行为(act)、战术(tac)以及猫(cat),尽管这些单词由相同的字母组成,但是它们代表的含义却存在天壤之别。解决遗传密码的关键是将RNA链中的序列原件映射到蛋白质链的序列中。而这就像破译遗传学界的罗塞塔石碑:哪种RNA碱基序列可以决定蛋白质中氨基酸的组合呢?或者从概念层面来讲:
克里克与布伦纳通过大量设计精妙的实验证实,遗传密码必定以某种“三联体”的形式存在:也就是说,DNA上三个碱基(例如ACT)只对应蛋白质中一个氨基酸[3]。
然而三联体密码与氨基酸之间存在何种关系呢?到了1961年,来自世界各地的几个实验室相继加入破译遗传密码的竞赛中。在位于贝塞斯达的美国国立卫生研究院中,马歇尔·尼伦伯格(Marshall Nirenberg)、海因里希·马特哈伊(Heinrich Matthaei)与菲利普·里德(Philip Leder)曾经试图采用某种生物化学的方法来破解三联体密码。哈尔·科拉纳(Har Khorana)是一位出生于印度的化学家,正是他提供的关键化学试剂使得破解密码成为可能。与此同时,在纽约工作的西班牙生物化学家塞韦罗·奥乔亚(Severo Ochoa)也在着手展开一项平行研究,他希望能够发现三联体密码映射到对应氨基酸的规律。
就像所有的密码破译工作一样,这项研究在推进过程中也是举步维艰。起初,人们感觉三联体之间似乎会彼此重叠,而这也让寻找简码的努力前途渺茫。之后又有一段时间,实验结果证实某些三联体似乎根本不起作用。但到了1965年,所有这些研究(尤其是尼伦伯格的团队)成功地将每个DNA三联体映射到与其对应的氨基酸上。例如,ACT对应苏氨酸,CAT对应的则是功能与结构完全不同的组氨酸。此外,CGT对应的是精氨酸。假设某段特定的DNA序列为ACT—GAC—CAC—GTG,那么细胞可以通过碱基互补的原则生成RNA链,然后RNA链经过翻译后形成氨基酸链,并且最终合成某种蛋白质。其中,三联体密码(ATG)是合成蛋白质的起始密码子,而另外三个三联体密码(TAA,TAG,TGA)是合成蛋白质的终止密码子。至此,我们已经掌握了遗传密码的基本规律。
遗传信息流动可以简述如下:
或者从概念层面表示为:
或者:
弗朗西斯·克里克将这种信息流称为生物信息的“中心法则”(the central dogma)。尽管“法则”一词令人费解(克里克后来承认,他从未理解“法则”的深层含义,而实际上法则意味着固定不变的信条),但是“中心”一词却精准无误地反映了这种规律的本质。[4]克里克以此来说明遗传信息流在生物学中具有普遍性。[5]无论是细菌、大象、红眼果蝇还是王公贵族,生物信息始终以某种原始的方式在生命体系中有条不紊地流动:其中DNA经过转录形成RNA,然后RNA通过翻译合成蛋白质,并且最终由蛋白质构建结构并且执行功能,从而让基因展现出无穷无尽的生命力。
※※※
镰刀形红细胞贫血症是一种血红蛋白分子结构异常的遗传病,也许没有哪种疾病比它更能反映这种信息流的本质以及对生理功能的影响。早在公元前6世纪,印度阿育吠陀医师就已经注意到了贫血(血液中红细胞数目不足)患者的常见症状,他们的嘴唇、皮肤与手指会表现为特征性的苍白。贫血在梵文中被称为潘杜罗加(pandu roga),它可以分为许多类型,其中就包括营养缺乏与大量失血。镰刀形红细胞贫血症与其他类型的贫血迥然不同,它是一种表现为间歇发作的遗传病,同时会伴有骨骼、关节以及胸部的突发性剧痛。西非的加族(Ga)部落将这种疼痛称为身体跳动(chwechweechwe),而埃维人(Ewe)则把它叫作身体扭曲(nuiduidui)。这些词语形象地抓住了躯体疼痛的残酷本质,仿佛有人将利器深深刺入他们的骨髓。
1904年,某张在显微镜下拍摄的画面为这些貌似无关的症状找到了答案。16沃尔特·诺埃尔(Walter Noel)是一位在芝加哥求学的年轻口腔专业学生,他于同年因急性贫血危象伴随胸部与骨骼疼痛前来就诊。来自加勒比海地区的诺埃尔具有西非血统,而他在过去几年里曾经出现过数次类似发作。心脏病专家詹姆斯·赫里克(James Herrick)在排除了心脏病发作以后,就漫不经心地把诺埃尔交给一位名叫欧内斯特·艾恩斯(Ernest Irons)的年轻医生。艾恩斯灵机一动,决定在显微镜下看看诺埃尔的血细胞形态。
艾恩斯发现红细胞产生的变化令人困惑。正常红细胞呈扁平圆盘状,这种形状有利于红细胞之间相互堆叠,从而顺利通过动脉和毛细血管网,并将氧气运至肝脏、心脏以及大脑。但在诺埃尔的血液中,红细胞不可思议地皱缩成镰刀状的新月形,后来艾恩斯将其描述为“镰刀形红细胞”。
但是为什么红细胞会变成镰刀形?为什么这种疾病会遗传?其实该病的罪魁祸首在于编码血红蛋白的基因发生异常,而红细胞的主要成分就是这种具有携氧功能的蛋白质。1951年,在加州理工学院哈维·伊塔诺(Harvey Itano)的协助下,莱纳斯·鲍林发现镰刀形红细胞中血红蛋白变异体与正常红细胞中的血红蛋白完全不同。17 5年以后,来自剑桥的科学家指出,正常与异常血红蛋白链的区别在于单个氨基酸发生了改变。[6]
※※※
如果蛋白质链上恰好有某个氨基酸发生了改变,那么基因上的某处三联体(“三联体编码氨基酸”)肯定与原来不同。而实际情况与预测结果完全吻合,在鉴定与测序镰刀形红细胞贫血症患者体内编码血红蛋白B链的基因之后,人们终于发现DNA上某处三联体由GAG变成了GTG,并进一步导致血红蛋白B链中的谷氨酸被缬氨酸替换。这种改变影响了血红蛋白链的折叠,同时大量血红蛋白突变体在红细胞中积聚成团,再也无法盘绕形成正常状态下整齐的钩状结构。这些团块的体积随着缺氧程度加深而增大,同时红细胞的细胞膜也在牵拉下从正常的圆盘状变为新月形,也就是显微镜下所见到的“镰刀形红细胞”。镰刀形红细胞无法顺利通过毛细血管与静脉,它们在体内积聚形成微小的血凝块后将会造成血液中断,并且导致患者在贫血危象中出现剧烈疼痛。
镰刀形红细胞贫血症的发病机制非常复杂。首先,基因序列改变引起了蛋白质序列变化;其次,血红蛋白的形态改变会导致红细胞出现皱缩,随后这些积聚成团的血凝块将阻塞静脉并中断循环,最终产生各种临床症状(基因突变导致)。基因通过合成蛋白质来影响生理功能并决定了人类的命运,而这种冰火两重天就源自DNA上某个碱基对的改变。
[1] 这种“基因”概念在后续章节中还会继续完善与扩展。基因不仅携带有构建蛋白质的指令,比德尔与塔特姆的实验还为研究基因的其他功能奠定了基础。
[2] 1960年,詹姆斯·沃森与沃尔特·吉尔伯特在哈佛大学带领团队也发现了“RNA中间体”。沃森/吉尔伯特与布伦纳/雅各布的论文在同期《自然》杂志上先后发表。
[3] 其实初等数学理论同样支持“三联体密码”假说。如果密码子是二联体,例如两个碱基序列(AC或TC)编码一个氨基酸,那么你只能得到16种组合,显然不足以编码20种氨基酸。三联体密码具有64种组合,不仅编码20种氨基酸绰绰有余,同时额外的组合还能用来执行其他编码功能,例如“终止”或“启动”蛋白质链的功能。而四联体密码子则有256种组合,远远超出编码20种氨基酸所需。虽然遗传密码具有简并性(两个以上的密码子对应一个氨基酸),但是依然会保留必要的组合。
[4] 克里克版本的“中心法则”认为RNA可以反向转录为DNA。而霍华德·特明(Howard Temin)与戴维·巴尔的摩(David Baltimore)则在逆转录病毒中发现了逆转录酶,从而证实了这种反向转录机制的可能性。
[5] 在克里克的最初版本中,信息可以从RNA反向转录至DNA。沃森在将该图进行简化之后指出,信息将从DNA传递给RNA,再从RNA传递给蛋白质,而这就是后来人们熟悉的“中心法则”。
[6] 弗农·英格拉姆(Vernon Ingram)发现了单个氨基酸的改变,他曾是马克斯·佩鲁茨的学生。