破天机(第一推动丛书·生命系列)
上QQ阅读APP看书,第一时间看更新

上篇
工具

1.寻找解药

最近,我听到了一个不可思议的故事,它充分体现了基因编辑的力量和巨大潜力。

2013年,美国国立卫生研究院(NIH)的科学家们遇到了一个医学难题。这些研究人员在研究一种叫作WHIM综合征的罕见遗传病,但这位患者的状况令他们一头雾水。她从小就被诊断患有该病,但当国立卫生研究院的科学家遇到她时,疾病竟然奇迹般地从她体内消失了。

在世界范围内,WHIM综合征患者不过几十个人,但它是一种令人痛苦的,甚至可能致死的免疫缺陷疾病,患者的生活受到严重影响。它的起因是一个微小的突变——在人体32亿对碱基序列里,有一个字母出错了(区别只是几十个原子的大小)。这个微小的变异让WHIM患者特别容易被人乳头瘤病毒(human papillomavirus, HPV)感染,引起皮肤疣,后者失控地生长,最终演变成癌症。

国立卫生研究院的科学家遇到的这位患者,正是20世纪60年代该疾病首次被报道时的那位女孩——这也从侧面说明了该病的罕见程度。在学术文献中,她通常被叫作WHIM-09,但是我会叫她金女士。金女士从一生下来就患有WHIM,后来也因该病引发的严重感染多次住院。

2013年,金女士58岁了。她带着两个20岁出头的女儿,一道来见国立卫生研究院的研究人员。她的女儿也表现出了WHIM的典型症状,但研究人员惊讶地发现,金女士自己似乎安然无恙。事实上,她已经20多年没什么症状了。令人震惊的是,没有接受任何医疗干预,金女士自愈了。

金女士如何凭一己之力就从这种致命的疾病中逃过一劫?科学家通过精心设计的实验发现了一些重要的线索:在金女士的脸颊和皮肤细胞里,引起WHIM的突变基因仍然存在,但是在她的血液里,这个突变却不见了。研究人员对金女士血细胞的DNA进行了仔细分析,发现了一些更不可思议的事情:她的一条2号染色体上缺失了一段DNA,包括3500万个碱基序列,而这一段里含有完整的突变基因,叫作CXCR4在科学文献中,基因的名字用斜体表示,它们编码的蛋白质则用正体。比如,HTT基因编码的蛋白质叫作Huntingtin,亨廷顿病就是由HTT基因突变引起的。。2号染色体上余下的大约2亿个碱基也被打乱了,就像龙卷风席卷过染色体,其中的碱基序列一片狼藉。

这些初步发现引发了一系列疑问。金女士体内其他细胞的DNA是正常的(CXCR4基因突变除外),但血细胞里的DNA怎么变得如此无序?此外,考虑到含有CXCR4基因的染色体已经被打乱,而且缺失了164个基因,血细胞为何仍然能够存活,而且可以正常行使功能?人类的基因组里含有数千个基因,它们发挥着重要的功能,比如DNA复制和细胞分裂。金女士体内竟然会有这么多基因凭空消失了,而且似乎没有什么糟糕的后果,这到底是怎么回事?

国立卫生研究院的研究人员进行了更多测试,终于为这种惊人的自愈现象拼接出一个完整的解释链。他们的结论是,她体内的某个细胞必然经历了一种极不寻常但通常引发灾难性后果的事件——染色体碎裂(chromothripsis)。这是一种新近发现的现象:染色体突然粉碎,然后重新修复,引起基因剧烈重排。它对身体的影响可能微乎其微(如果破损的细胞马上死去),也可能非常严重(如果重排的DNA意外激活了致癌基因)。

不过,在金女士体内,染色体碎裂的影响却非同寻常。突变的细胞不仅长势良好,而且丢弃了致病的CXCR4基因,于是,WHIM综合征就自动消失了。

但金女士的好运还不止于此。国立卫生研究院的科学家发现,这个幸运的细胞还是一个造血干细胞,它可以通过无数次复制和再生,分化出各种血细胞。这种细胞不断复制、增殖,最终把金女士免疫系统里的白细胞都替换成了不含CXCR4突变拷贝的健康细胞。这一连串的事件听起来如此不可思议,但金女士的确因此康复了。

在研究人员为金女士的状况写的总结报告里,他们说到:金女士是“自然界里一种前所未见的实验”的受益者——她体内的一个干细胞经历了一次自发突变,抛弃了致病基因。简言之,这是一次天赐的意外——稍有不当,金女士可能因此毙命;相反,金女士却因此得救。

为了理解这种结果是多么偶然,不妨把人类的基因组想象成一个巨型软件。在金女士身上,这个软件里含有一个错误代码——要知道这个软件里有60多亿行代码。要检修软件,你不会一上来就盲目地删除大段的代码,并把其他部分打乱。这不仅很难解决原来的问题,甚至很可能会引入新的、更大的问题。除非你极为幸运——这个概率只有数百万分之一,甚至数十亿分之一,你才可能恰好删除掉错误的代码,而不损坏软件的关键功能。事实上,金女士的基因组里发生的事情正是如此——区别在于,这个鲁莽的程序员是大自然。

虽然金女士的例子听起来像是天方夜谭,但令人兴奋的是,这不是孤例。虽然她是目前唯一被报道的因为自发染色体粉碎和重排而自愈的患者,但是科学文献中也不乏其他天然基因编辑的例子,患者们的遗传病通过偶然的、自发的基因组“编辑”而出现好转,甚至完全被治愈。比如,在20世纪90年代,两位纽约的患者被诊断患有“重症复合免疫缺陷”(severe combined immunodeficiency, SCID),他们也被称为“泡泡男孩”,因为他们必须生活在无菌的塑料保护膜中,以避免接触致病菌。如果得不到彻底隔离或者积极治疗,重症复合免疫缺陷患者往往在2岁之前死去。但是,纽约的这两位重症复合免疫缺陷患者却是幸运儿:他们健康地挺过了青少年阶段,长到了成年。科学家找到了原因,他们的细胞都自动纠正了致病的突变基因ADA,而且修复过程中没有扰乱染色体上的其他基因。

类似的天然基因编辑也治愈过其他遗传病,比如维奥二氏综合征(Wiskott-Aldrich syndrome),患者中10%~20%的人会因为自发的基因更正而活下来;再比如一种肝部疾病——酪氨酸血症。在某些皮肤病中,肉眼都可以分辨出那些发生过基因编辑的细胞,比如五彩鱼鳞病。这个名字栩栩如生地描述了症状:患者的皮肤上出现红色的鱼鳞状斑点。患病处内部的细胞携带着遗传突变,而周围健康的细胞修复了这些突变。

不过,总体而言,遗传病自愈的概率微乎其微。大多数患者永远不会经历这种染色体在正确的组织、正确的细胞里,以正确的方式进行重排的奇迹。天然的基因编辑往往没有规律——极少数幸运儿成了有趣的医学案例,但也仅此而已。

但是,如果基因编辑不是自发事件呢?如果医生可以修复导致WHIM综合征、重症复合免疫缺陷、酪氨酸血症及其他遗传病的基因,那又会怎样?

在包括我在内的许多科学家看来,类似金女士这样的案例之所以令人振奋,不仅仅因为它揭示了天然基因编辑的修复潜力,而且因为它为未来的医学干预指明了一条可能的道路:我们可以主动、合理地更正基因组中的突变基因,从而治疗遗传病。这些幸运儿的故事证明了基因编辑是可行的,前提是科学家知道它们背后的遗传学机制,并拥有必要的生物技术工具。

几十年来,早在我进入这个领域之前,生命科学领域的研究人员就在兢兢业业地探索这些遗传学机制,并开发这些工具。事实上,早在科学家知道大自然提供了这些手段之前,他们就梦想着有朝一日可以通过基因编辑进行临床治疗了。不过,为了实现这种技术,研究人员需要理解基因组:它由什么构成,以何种方式构成,以及更重要的是,它可能被修饰或者改造成什么样子。有了这些知识,科学家才能够尝试帮助更多无力自愈的遗传病患者。

图1:DNA——生命的语言

基因组(genome),指的是一个细胞内的全套遗传指令——这个术语是由德国植物学家汉斯·温克勒(Hans Winkler)在1920年提出来的,他很可能是用基因(gene)和染色体(chromosome)两个词组合而成的。在生物体内,除了个别突变,绝大多数细胞的基因组都是一致的,基因组告诉生物体如何生长、如何维护自身、如何把基因传给后代。鱼的基因组指导它长出鳃和鳍,并让它在水下呼吸、运动;树的基因组则指导它长出叶片和叶绿体,从阳光中捕获能量。我们内在或外在的身体特征——视力、身高、肤色、对疾病的易感性等——都是由基因组编码的信息决定的。

组成基因组的分子叫作脱氧核糖核酸,即DNA,它由四种核苷酸组成。这四种核苷酸往往也被简写为A、G、C、T,这代表了它们的碱基,分别是腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶。这些分子连接成串,两串这样的分子通过碱基配对形成双螺旋结构。

双螺旋有点像一个螺旋上升的长梯子。两条DNA的单链围绕着中心轴彼此缠绕,磷酸与核糖组成了螺旋的骨架,它们一起形成了梯子的两条侧轨。四种碱基位于螺旋内部,彼此相向,在内部配对,它们组成了梯子的横梁。这个结构的一个优美之处在于,把两条单链维系在一起组成横梁的是化学作用力,它有点像是分子胶水:碱基A永远与另一条链上的碱基T配对,而G永远与C配对。这种组合叫作碱基互补配对。

图2:DNA的双螺旋结构

双螺旋结构美妙地揭示了遗传学的分子基础,它解释了为什么看似简单的DNA分子可以携带遗传信息,通过细胞分裂从亲本传递到子代,以及遗传信息如何进一步传播到生物体的每一个细胞里。由于DNA分子由双链组成,而且双链的碱基遵守配对原则(A与T, G与C),每一条链都可以作为模板指导合成出互补链。在细胞复制之前,DNA双链在一种解旋酶的作用下从中间打开,然后,其他的酶会以两条单链为模板合成出两条新的双链,跟原来的双链一模一样。

在我认识DNA双螺旋的过程中,我也逐渐意识到,虽然最强大的光学显微镜也无法观察到它们,但科学家仍有办法洞察其分子结构。大约在12岁时,有一天我放学回家,发现床上躺着一本旧书,是吉姆·沃森的《双螺旋》(我父亲偶尔会从旧书店里淘一些书回来,看看是否会激发我的兴趣)。我以为这是本侦探小说(它的确是的!),所以过了几周,等到一个下雨的周六我才开始阅读。书里,沃森讲述了他与弗朗西斯·克里克这段无比精彩的学术合作:利用罗莎琳德·富兰克林收集到的关键数据,他们终于发现了这个简单优美的分子结构。我第一次感到命运会把我送到相似的路上,多年之后,在我终于开始自己的学术生涯的时候,我的第一个课题就是解析RNA(核糖核酸)分子的三维结构——比起DNA、RNA的三维结构要更加复杂。

在沃森和克里克发现双螺旋结构之后的几年,科学家逐渐阐明了这种分子结构和它相对简单的化学组成如何编码了信息,并以此来解释生物世界里丰富多彩的现象。人们发现,DNA更像是一种秘密语言,每一段特定的碱基序列都为细胞里的一个特殊的蛋白质提供了指令,然后蛋白质去执行体内的各种重要的功能,比如分解食物、识别并破坏病原体、感光等。

图3:分子生物学的中心法则

要把DNA的指令转化成蛋白质的组成信息,细胞需要一个关键的中间体分子,叫作核糖核酸,即信使RNA,它是由DNA模板通过一个叫作转录的过程而合成出来的。RNA里有三个字母跟DNA的相同(A、G、C),但是在RNA里,T(胸腺嘧啶)被U(尿嘧啶)替换了。此外,组成RNA骨架的是核糖,它比DNA中的脱氧核糖多了一个氧原子(因此DNA的全称为脱氧核糖核酸,RNA的全称为核糖核酸)。信使RNA把信息从细胞核(DNA储藏在这里)运输到细胞质(蛋白质在此合成)。细胞通过一个叫作翻译的过程,利用信使RNA长链——上面包含了基因的序列——来合成出蛋白质分子。每三个RNA字母连起来阅读的时候,就意味着一个氨基酸,蛋白质就是这样由一个个的氨基酸组成的。基因与蛋白质的区别在于,前者是核苷酸的序列,而后者是氨基酸的序列。遗传信息的整体流动——从DNA到RNA到蛋白质——被称为分子生物学的中心法则。

基因组的大小和它包含的基因数目,在不同种类的生命体中差别巨大。比如,大多数病毒只有数千个DNA(或者RNA)碱基序列,即只有几个基因。相比之下,细菌的基因组里包含上百万个碱基,大约4000个基因。果蝇的基因组里有大约几亿个碱基,包含了大约1.4万个基因。人类的基因组里包含了约32亿对碱基,有约2.1万对蛋白质编码的基因。有趣的是,基因组的大小与生物体的复杂程度并不成正比,人类的基因组与小鼠或者青蛙的大致接近,但只有蝾螈的十分之一,尚不及某些植物的百分之一。

不同物种包裹基因组的方式也截然不同。大多数细菌的基因组都是一段单一连续的DNA片段;而人类的基因组却由23个不同的片段组成,这些片断叫作染色体,长度从5000万到2.5亿个碱基对不等。类似于大多数哺乳动物,人类细胞里的染色体通常包含两个拷贝,一个来自父亲,一个来自母亲。双亲各自贡献了23条染色体,所以后代含有46条染色体(当然也有例外,比如患有唐氏综合征的个体具有第三条21号染色体)。在人体内,绝大多数细胞都有一套完整的染色体(血红细胞是个显著的例外,因为它们没有细胞核),但是在细胞核之外也有一些DNA。人体的基因组里也包括了一个独立的微小染色体,只有1.6万个碱基对,它位于线粒体内。跟其他染色体上的遗传信息不同,线粒体的DNA完全来自于母亲。据2018年11月发表的一篇研究报道,线粒体DNA也可能来自父亲。来源:http://www.pnas.org/content/early/2018/11/21/1810946115。——译者注

在基因组内,任何地方(包括23对染色体和线粒体的微小染色体)的突变都可能会引起遗传病。最简单的突变是替换,即一个核苷酸换成了另外一个核苷酸,这可能会扰乱基因,导致蛋白质缺陷。比如,在镰状细胞病中,乙型球蛋白基因里的第17个字母由A变成了T,这就导致了本来的谷氨酸变成了缬氨酸,而且这个氨基酸刚好位于血红蛋白结构的关键区域,对于运输氧气的功能来说非常重要。于是,蛋白质的这个微小突变(在8000多个原子里有10个发生了变化),就带来了非常严重的后果。突变的血红蛋白分子粘在一起,形成异常纤维,这就会改变红细胞的形状,引起贫血,增加了中风、感染和严重骨痛的风险。

镰状细胞病是隐性遗传病的一个例子。所谓隐性遗传病,是指只有当个体携带着两份突变的HBB基因的时候,他/她才会表现出症状;如果一个拷贝出现突变,另一个正常拷贝仍可以合成出足够多的正常的血红蛋白,突变基因的影响就不会显现出来。当然,这些个体仍然携带着一份突变的HBB基因,他们一样可能把突变基因传给后代。

另外一些遗传病表现为显性遗传,这意味着一个拷贝的突变基因就足以致病。一个例子是WHIM综合征,患者体内的CXCR4基因里第1000个碱基从C突变成了T,突变基因合成出超级活跃的蛋白质,正常基因的功能就被掩盖了。

镰状细胞病和WHIM综合征都是单个碱基替换突变引起的遗传病,但是遗传病也可能源于DNA插入或者缺失。比如,有一种叫作亨廷顿病的神经退行性疾病,就是因为HTT基因里同样的3个碱基重复了太多次,引起了脑细胞合成出异常的蛋白质。与此相反,囊性纤维化疾病是一种感染肺部的致命性遗传病,它最常见的起因是DNA缺失。CFTR基因中缺失了3个碱基,导致蛋白质中失去了一个重要的氨基酸,无法正常行使功能。还有一些遗传病的起因是基因发生了反转,某一段基因甚至整个染色体出现复制错误或者完全丢失。

幸亏最近有了DNA测序技术,科学家才能阅读并记录人类的基因组,继而查明许多疾病的病灶基因。自从20世纪70年代第一代测序方法出现以来,科学家前赴后继地阐明了许多遗传病的分子机制。伴随着人类基因组计划的完成,该领域也经历了跨越式的发展。自1990年以来,世界各地的科学家联合起来,开始对人类的全基因组进行测序。这项浩大的工程,加上新的技术进步,使得科研人员可以在酵母里克隆大片段的人类DNA。与此同时,实验室自动化水平升级与计算机算法的进步,使得人们可以解析测序数据。2001年,在投入了巨大的精力,花费了超过30亿美元之后,科学家终于完成了人类基因组的草图。

自从人类基因组计划完成以来,基因测序变得越来越容易,也越来越便宜。科学家已经精确鉴定出了4000多个会导致遗传病的突变位点。基因测序可以揭示我们是否更容易患上某些癌症,也可以帮助医生根据病人的家族遗传史进行针对性的治疗。此外,现在商业DNA测序分析也日益普遍,数以百万计的人进行了全基因组测序,你需要做的只是邮寄一份你的唾液样品,再花上几百美元就成了。于是,数据井喷了。这些数据帮助研究人员在上千个基因多样性与某些身体和行为特征之间找到了显著的关联。

不过,虽然全基因组测序代表了遗传病研究领域的巨大进步,但它只是一种诊断工具,并不是治疗手段。它可以帮助我们找出遗传病的根源何在,但我们依然没办法改写DNA。毕竟,阅读跟写作是两回事。要实现改写DNA的目的,科学家需要一套全新的工具。

一直以来,研究人员就梦想着,我们只要阐明了遗传病的基因机制,就能改写它。事实上,早在遗传病的根源被揭示之前,就有人开始探索治疗遗传病的新方法——不仅仅是让患者服用药物来暂时缓解突变基因的负面影响,而是修复基因本身,以彻底扭转疾病的进程。举一个常见的例子:镰状细胞病的治疗方法包括经常性输血、使用羟基脲、进行骨髓移植,如果我们可以从DNA突变的源头进行治疗,岂非治本之策?

研究人员早就知道,治疗遗传病的最好方法是修复缺陷基因,主动完成大自然在金女士等人身上完成的事情。不过,对于这些科学家来说,通过改写突变的遗传密码来治疗遗传病似乎是无法完成的任务。修复一个缺陷基因无异于大海捞针,而且在取出针的过程中不能打乱任何一根海藻。但是他们也推测,另一个办法是在缺陷细胞里添加一个完整的替代基因。问题在于,如何才能把这个珍贵的基因片段投递进基因组?

病毒有时会把自身的遗传信息拼接到细菌基因组里——受此启发,早期尝试基因治疗的研究人员使用病毒作为载体,把治疗基因运送到人体里。据报道,20世纪60年代,一位美国医生斯坦菲尔德·罗杰斯(Stanfield Rogers)首次进行了尝试。他当时在研究兔子里的致疣性病毒:肖普氏乳头瘤病毒(Shope papillomavirus)。令他特别感兴趣的是,该病毒会引起兔子过量分泌精氨酸酶,后者可以中和精氨酸。与正常兔子相比,患病的兔子身上精氨酸酶的含量更高,精氨酸水平更低。此外,罗杰斯发现,那些接触过该病毒的研究人员血液中的精氨酸水平也更低。显然,这些人从兔子身上感染了该病毒,而这些感染使得研究人员的身体发生了持久变化。

罗杰斯推测,可能是肖普氏乳头瘤病毒把某个可以提高精氨酸酶水平的基因从兔子传染到了人。他一边惊叹于病毒运送基因的能力如此之大,一边也开始考虑是否可以改造病毒来运送其他基因。多年之后,罗杰斯回忆道:“显然,在寻找致病原的时候,我们发现了一种药物!”

没过很久,罗杰斯就找到了一种疾病来检验他的理论。几年之后,研究人员在两位德国女孩身上发现了一种叫作高精氨酸血症(hyperargininemia)的遗传病,患者体内的精氨酸含量也出现了异常——但是她们的水平不是过低,而是过高。病人体内负责精氨酸转化的基因——这也正是罗杰斯推测的病毒传播的基因——可能缺失或者突变了。

高精氨酸血症是一种很折磨人的疾病,患者会出现痉挛、癫痫,随着病情越来越重,智力发育也严重迟缓。但是,在德国的这两位小女孩身上,我们有机会进行早期干预,从而避免了状况恶化。罗杰斯和德国的合作伙伴向两位女孩的血液里注射了高剂量、纯化过的肖普氏乳头瘤病毒。

不幸的是,罗杰斯的基因治疗实验失败了,这让所有人都大为失望,不仅仅是他自己,患者和患者的家庭更是如此。这次注射对两个小女孩没起到什么作用,而罗杰斯也因为如此鲁莽、不成熟的举动而被同行批评。随后的研究人员证实,与罗杰斯的理论相反,肖普氏乳头瘤病毒的基因组里并没有精氨酸酶基因,所以它根本无法达成期望的治疗效果。

虽然罗杰斯再也没有尝试过基因治疗,但他使用病毒作为载体运送基因的策略,彻底改变了生物学研究。这个实验失败了,但是它的基本假设是成立的。目前,病毒载体仍然是向活体生物的基因组里插入基因的最有效方式。

病毒之所以适合做载体,是因为它具有下述几个特征。首先,病毒演化出了极为有效的方式,可以渗透进一切类型的细胞。无论是哪个种类的生物——细菌、植物、动物等——都必须对抗寄生性病毒,因为后者的唯一目的就是劫持细胞,把它们的DNA插入宿主,并借助宿主细胞完成自身的复制。在亿万年的演化过程中,病毒几乎“摸清了”细胞防御系统的每一个弱点,它们向宿主中安插基因的策略近乎完美。作为工具,病毒载体极为可靠,研究人员使用病毒载体向目的细胞中投递基因的成功率接近100%。对于这个领域的工作者来说,病毒载体是终极特洛伊木马。

图4:使用病毒载体进行基因治疗

病毒不仅知道如何把自己的DNA导入宿主细胞,而且知道如何把它们融入宿主的基因组。二十世纪二三十年代,科学家开始利用细菌进行遗传学研究。当时,令科学家感到困惑的是,细菌的病毒(噬菌体)看起来好像是凭空出现,引起了感染。后续研究表明,这些病毒实际上把它们的基因组打碎成几个片段,插入基因组,并潜伏在那里,无声无息,直到条件合适才引起感染。逆转录病毒(许多病毒都属于这种类别,包括艾滋病病毒)在人体里也会做同样的事情,它们把自身的遗传信息打碎,安插进细胞的基因组里。由于这个特点,逆转录病毒很难被根除,结果,它们在我们的基因组里留下了不可磨灭的印记。人类基因组里有8%——超过2.5亿个DNA碱基——是古老的逆转录病毒感染人类祖先所留下的“遗迹”。

自从20世纪60年代人们首次尝试基因治疗以来,这个领域迅速腾飞,这也得益于一系列生物技术革命,包括重组DNA技术(重组DNA泛指一切实验室里制造的,而不是大自然里出现的遗传物质)。通过新的生物技术和新的生物化学方法,科学家在20世纪70年代开始开辟新的途径,剪切DNA片段,复制DNA片段,让其进入基因组,或者分离出特定的基因序列。他们开始把治疗性基因引入病毒,同时移除有害的基因,使病毒不会破坏受感染的细胞。实际上,科学家已经把这些病毒改造成了无害的“运载火箭”,把特定的遗传物质运输到指定位点。

到了20世纪80年代末,研究人员利用改造的逆转录病毒成功地在实验室小鼠里引入了重组DNA,于是,用于临床的基因治疗竞赛开始了。当时,我正在哈佛大学进行生物化学方面的博士研究,我还记得跟实验室的伙伴讨论一则新闻:国立卫生研究院的威廉·弗伦奇·安德森(William French Anderson)和同事第一个达成了目标。他们开发出了一种载体,搭载了一份健康的腺苷脱氨酶基因(adenosine deaminase,ADA),在重症复合免疫缺陷患者身上,正是该基因发生了突变而失去了功能。他们的目的,是使用基因治疗把健康的ADA基因永久性地嵌入患者的血细胞,弥补缺失的蛋白质,从而治愈疾病。不幸的是,早期临床试验结果不尽人意:改造后的病毒,安全性固然通过了考验,但是治疗效果微乎其微。具体来说,两位患者接受治疗后,免疫细胞的数量有所上升,但是这很可能是同时进行的其他治疗措施的结果。更重要的是,患者体内似乎只有极少数细胞接受了健康的ADA基因,病毒进行基因拼接的效率并不像科学家期望的那么高。

虽然30年前早期的试验没有得出明确结果,但是基因治疗领域还是取得了长足的进步。病毒载体的设计与投递方法都得到了改进,这使得ADA基因治疗的结果更加振奋人心,以至于FDA(美国食品药品监督管理局)很快就批准一套叫作Strimvelis的治疗方案上市。此外,截止到2016年,已经有2000多个基因治疗的临床试验已经完成或者即将开始,它们针对的疾病症状也大幅拓展,包括单基因遗传病,比如囊性纤维化、血友病、某些形式的失明,以及日渐增多的心血管与神经疾病。与此同时,癌症免疫治疗方兴未艾,其中用到的免疫细胞可装载专门针对肿瘤的基因,这再次说明,基因治疗在生物医药领域仍然大有可为。

不过,尽管有些宣传天花乱坠,但是基因治疗并没有成为灵丹妙药。事实上,有时它弊大于利。1999年,在接受了高剂量的病毒载体注射之后,一位患者因剧烈的免疫反应而死亡,这让该领域一度陷入停滞。那时,我刚开始在耶鲁大学执教,正在研究病毒的RNA分子如何劫持了宿主细胞的核糖体。虽然我的研究领域跟基因治疗相去甚远,但这种悲剧性的新闻也更坚定了我更深入地理解病毒与细胞的决心。

21世纪初,5位重症复合免疫缺陷患者接受基因治疗之后都出现了白血病——这是一种骨髓癌症,它的起因在于逆转录病毒激活了原癌基因,使得细胞不受控制地增殖。这次事件再次表明,向患者体内注射大量外源物质并向基因组随机插入上千个碱基,风险多多。我当时就在想,这类临床研究的理论依据固然激动人心,但实际操作似乎太过冒险。

此外,还有许多类型的遗传病,其病因并不是基因缺失——对于这些疾病,单纯地引入新基因并不会奏效。以亨廷顿疾病为例,突变基因产生的异常蛋白完全遮蔽了健康基因。既然突变基因占据了主导地位,简单的基因治疗——通过病毒载体引入一份正常的基因拷贝——对亨廷顿或者其他类似的疾病就没有效果。

对于这些难治型的遗传病,医生们需要做的是修复缺陷基因,而不仅仅是替换掉它们。如果他们可以修复导致疾病的缺陷基因,也就可以治疗显性与隐性基因疾病,而不必担心基因拼接出错的后果。

我从开始职业生涯以来,就一直被这种可能性深深吸引。在20世纪90年代初,从哈佛博士毕业之后,我前往科罗拉多大学博尔德分校进行博士后研究。那个时候,我跟实验室的伙伴布鲁斯·萨伦格(Bruce Sullenger)经常就各种议题进行辩论——比如1992年的总统大选,我支持保罗·丛格思(Paul Tsongas),他支持比尔·克林顿,对基因治疗的策略,我们也有不同的看法。当时我们经常聊到一个想法,也许RNA分子可以用来编辑并修复突变。事实上,这正是布鲁斯自己的研究课题。不过,我们也讨论过其他可能性,比如编辑这些缺陷RNA的源头——即基因组里的DNA。我们都认为,如果可能,这会是划时代的突破。问题在于,这是不是异想天开呢?

20世纪80年代,一些研究人员在继续优化基于病毒的基因治疗策略,与此同时,另一些人开始尝试使用实验室合成的重组DNA来转化哺乳动物细胞,这套办法显然更简单。一开始,这些方法主要用于基础研究,但随着技术的进步,科学家也开始探索它们临床应用的潜力。

比起更复杂的基因转移技术,这个方法有几个关键的优势。首先,它们更快,因为不必把基因包裹进病毒,科学家可以直接把重组DNA引入细胞,或者让细胞自动吸收DNA与磷酸钙的混合溶液。其次,它不必借助病毒把外源基因拼接到细胞的基因组,细胞本身就可以实现这一点,虽然效率略低。

这类技术的首选实验对象往往是小鼠。科学家不无惊讶地发现,这种新方法对小鼠非常有效。研究人员向小鼠的受精卵里注射了新的DNA,然后将其植入雌性小鼠体内,他们发现,这足以把外源DNA永久地引入基因组,并导致后代发生显著的变化。这些进展意味着,我们可以在实验室里分离、克隆基因,并探究其功能。虽然我当时还在研究RNA分子的结构和功能,但我对这样研究的巨大价值也有所耳闻。

问题在于,这些DNA到底是如何进入基因组的?在20世纪80年代初,犹他大学的一位教授,马里奥·卡佩奇(Mario Capecchi)就开始试图解答这个问题。当时,他注意到一个很奇怪的现象:当一个基因的许多拷贝进入基因组的时候,它们嵌入的模式并不是随机的。事实上,这些拷贝并没有随机分散到基因组的各个角落,卡佩奇发现,这些基因总是聚集在一个或几个位置,许多拷贝彼此重叠,好像是被特意安排在一起的。

在此之前,卡佩奇曾观察到同源重组参与了这个过程——虽然人们对同源重组有一定的了解,但是没人想到在这个实验里会再次发现它。关于同源重组的最著名的例子,可能是精卵细胞的形成过程:来自父母的两套染色体,经过减数分裂,数量减半,等到精卵结合的时候数目又恢复正常。在减数分裂的过程中,细胞会从双亲的染色体中选择性地继承一定比例的片段;每一对染色体会进行同源交换,从而增加了遗传多样性。这个过程涉及数百万个碱基对,还要进行无比复杂的混合、配对、重组,但细胞却执行得有条不紊。事实上,这个过程在所有的生物种类中都会发生,比如,细菌会通过同源重组交换遗传信息,多年来生物学家就是利用同源重组在酵母中进行遗传学实验的。

但是卡佩奇发现,实验室里培养的哺乳动物细胞也能进行同源重组——这一点至关重要。他在1982年的论文末尾提到:“如果我们能够通过同源重组来‘靶向锁定’染色体上的特定基因,那会很有意思。”换言之,科学家可以通过同源重组把基因精确引入基因组内的特定位置——比起利用病毒进行随机插入,这是一个巨大的进步。更妙的是,科学家甚至可以在突变位点插入正常基因,修正缺陷。

在卡佩奇的研究发表3年之后,奥利弗·史密斯(Oliver Smithies)和同事做到了这一点。他们利用实验室合成的重组DNA,替换掉了人类膀胱癌细胞中原有的乙型球蛋白基因。没有使用任何花哨的技巧——他们只是把DNA跟磷酸钙混合,再洒到细胞上。显然,其中一些细胞吸收了外源DNA,把重组DNA与基因组DNA上对应的区域配对,通过一些分子水平的“杂技”实现了同源交换。

看起来,要修饰基因组,细胞自己就可以完成其中最困难的工作。这意味着,科学家可以通过更温和的手段运送基因,而不必使用病毒把DNA“硬塞”进基因组。科学家可以“诱使”细胞“认为”重组DNA只是一段与它自身基因组配对的额外的染色体,从而确保新DNA通过同源重组与本来的基因组融合在一起。

科学家把这种新的基因操作的方法叫作基因打靶,今天,我们叫它基因编辑。

这种技术在遗传学研究中的潜力非常吸引人,但是史密斯知道,同源重组也可以用于治疗。如果科学家对镰状细胞病患者的血液干细胞进行类似的基因打靶,就可以把突变的乙型球蛋白基因替换成正常基因。这意味着,他发现的实验方法,某一天可能会用于临床治疗。

图5:通过同源重组进行基因编辑

其他实验室马上跟进,迅速优化该技术,这其中也包括卡佩奇的实验室。1986年,当我博士二年级的时候,他的实验表明,同源重组的精确度非常之高,甚至可以修复基因组里的单个碱基突变,更正细胞中变异的酶。两年之后,他提出了一种适用范围更广的策略,可以靶向针对基因组中任何基因(只要我们知道它的序列)。他也提出,同源重组不仅可以用于修复基因,也可以进行基因敲除,以便研究其功能。

20世纪80年代末,在我读完博士的时候,基因打靶已经广泛用于编辑组织培养的细胞和活体小鼠的DNA。马丁·埃文斯(Martin Evans)实验室的工作表明,在小鼠的胚胎干细胞中进行基因打靶,然后把编辑过的干细胞注射回小鼠胚胎,科学家可以获得“定制”小鼠。因为卡佩奇、史密斯以及埃文斯的突破性工作,他们荣膺2007年诺贝尔生理学或医学奖。

虽然基因编辑的临床应用潜力巨大,但在早期,它最吸引人的地方是其对基础研究的价值。对于研究哺乳动物遗传学的科学家来说,要研究基因的功能,基因打靶是划时代的突破。但是,医学研究人员对于在人类身上使用这项技术却有些忐忑,这是因为,要把同源重组技术用于临床治疗,还有许多困难需要克服。

它最大的一个缺陷是所谓的非同源重组的问题,也叫“异常重组”(illegitimate recombination)。在这种情况下,新的DNA不是准确地进入配对序列,而是随机嵌入基因组。事实上,异常重组与同源重组的比例大约是100:1。显然,如果基因编辑的成功率只有1%,而错配率高达99%,临床应用是行不通的。科学家还在寻找更好的解决方案,来避免细胞培养中的问题,他们也没有放弃未来应用于医学的希望。卡佩奇在20世纪90年代初曾说:“要在人类中进行基因治疗,同源重组是必经之路。”但是,起码就目前而言,基因编辑还不够完善,无法用于人类。

20世纪80年代初,当许多科学家在思考如何把基因打靶用于人类细胞的时候,杰克·绍斯塔克(Jack Szostak)却在关注酵母细胞分裂的过程。他当时是哈佛大学医学院的教授,也是我博士研究课题的指导老师。绍斯塔克思考的是一个基础问题:基因打靶和同源重组何以可能?具体来说,他试图理解的是一条染色体上的DNA双链如何与另一条染色体上的双链结合,通过何种中间阶段交换信息,然后重新分开,在细胞分裂之后再次形成单个染色体。

1983年,当我还在美国西海岸的波莫纳(Pomona)学院读本科的时候,绍斯塔克认为他找到了答案。依据酵母遗传学实验的结果,他和博士生特里·奥尔韦弗(Terry OrrWeaver),以及两位教授——罗德尼·罗森斯坦(Rodney Rothstein)、弗兰克·斯塔尔(Frank Stahl)——发表了一个大胆的模型。其中的诱发因素——即促使同源重组开始的信号——是两条染色体分离导致的DNA双链断裂。在这个模型中,断裂的双链与DNA的自由端尤其容易发生融合,它两侧的序列更容易与配对的染色体交换遗传信息(在基因编辑的例子里,它们与研究人员提供的外源DNA进行配对,发生交换)。

等我1986年加入绍斯塔克实验室的时候,他的研究焦点已经转向RNA分子在生命早期演化中的作用了。但是在实验室里,我们一群人仍然在讨论双链断裂模型和它的优美之处,以及科学同人对它的怀疑。然而,随着时间推移,人们逐渐发现,这个模型跟许多实验数据吻合。双链断裂修复不仅参与了精卵细胞形成时的同源重组,也参与了DNA受损之后的修复过程。事实上,所有细胞的DNA都可能遭到破坏,比如接触到X射线或者致癌物的时候,但细胞能够高效地修复这些断裂,而不丢失遗传信息。根据绍斯塔克提出的模型,修复的过程取决于染色体通过同源重组进行匹配的能力,这可能是两条染色体所具备的演化优势:单一染色体受到的任何破坏,都可以通过第二条染色体来进行修复。

如果双链断裂模型是正确的,而且酵母研究得出的结论同样适用于哺乳动物,那么我们就有机会提高基因编辑的效率:我们可以在基因编辑的目标位点把基因组打断。如果你想使用一个正常基因替换一个缺陷基因,你首先要做的是设法在缺陷基因处“切断”染色体,引入局部的双链断裂,与此同时提供一个正常的基因拷贝。细胞一旦发现双链断裂,就会试图寻找一个配对的染色体修复断裂——这时,它有可能就会找到我们提供的基因。本质上,我们“欺骗”了细胞,让它“认为”DNA受到了破坏,同时,我们提供了第二份DNA,将它“伪装”成第二份染色体,细胞就利用它来修复断点。

1994年,纽约斯隆-凯特琳癌症中心的玛利亚·贾辛(Maria Jasin)实验室在哺乳动物细胞里最早尝试了这个策略。当时,我已经结束了在科罗拉多的博士后研究,刚来到离这儿不远的耶鲁大学,热切地关注着这方面的进展。这项突破性工作令我倍感振奋,首先,这个实验是基于我的博士导师的双链断裂模型;其次,贾辛和我都是女性科学家,对核酸分子都有浓厚的兴趣。

贾辛的基因编辑实验别出心裁。她的策略是向小鼠细胞里引入一个可以把基因组切开的酶,从而制造出双链断裂;与此同时,她也引入了一段合成的DNA,作为修复模板,与切断的DNA序列匹配。然后,她检查了小鼠细胞是否修复了DNA断裂。通过对照实验(实验组添加切断DNA的酶,对照组则不添加),她就可以检验下述假说:人为引入的双链断裂提高了同源重组的效率。

这里的挑战在于找到一个可用的酶,把基因组从一个特定的位点切开。为了解决这个问题,贾辛巧妙地从酵母里借用了一个分子机器:I型SceI核酸内切酶。

核酸酶是一类可以切开核酸的酶,有些会切开RNA,有些会切开DNA。核酸内切酶会从核酸的内部切开双链,而核酸外切酶则从核酸的末端切除碱基。有些内切酶对细胞有毒,因为它们在DNA的任何位置都可以切割,跟碱基序列无关;另一些内切酶则高度特异,只在特定的序列切开双链;此外,还有一些内切酶的特异性介于二者之间。

贾辛选择的I型SceI内切酶是当时所知的特异性最高的内切酶之一,它需要准确识别18个连续的DNA碱基之后才进行剪切。选择一个高度特异的内切酶至关重要——如果贾辛选择的酶专一性没那么高,在基因组里到处剪切,这不仅会令结果难以解释,更可能伤害宿主细胞。不过,I型SceI的特异性如此之高,它的切割位点出现的频率只有1/(418),即,在680亿个碱基里才出现一次。说来好笑,小鼠的基因组里甚至没有这样的序列,所以在开始尝试基因编辑的实验之前,贾辛首先在基因组里引入了这样一个位点,以便I型SceI内切酶进行切割。

贾辛的实验结果非常惊人。通过同源重组,她在10%的细胞中准确修复了突变基因。回头看来,这个比例好像没什么了不起,但是这比之前的实验成功率提高了近百倍。这是当时最富希望的证据,表明了科学家可以通过同源重组重新编写基因组,而不必担心逆转录病毒载体引起的非同源重组或者随机插入——我们只要在准确的位置引入双链断裂,细胞会完成余下的工作。

但一个关键的问题是:要用上这项技术,科学家必须得在特定的位点切开基因组。在贾辛的验证实验中,I型SceI内切酶识别的序列是事先人为引入的,但是,与疾病相关的基因序列却无从改变,我们不可能为了使用某些罕见的内切酶而特地修改基因序列,而且,一旦基因组被切开,它会非常有效地修复自身——问题在于如何在正确的位置引入双链断裂。

从20世纪90年代中期开始,当我投身于研究RNA的分子结构以及生化特征的时候,研究人员争先恐后地开始设计新的类似I型SceI内切酶的系统,以精确地作用于特定DNA序列。只要能够解决这个问题,我们就可以充分释放基因编辑的潜力。

新一代的基因编辑系统包含了三项关键要素:一是它必须能够特异性地识别一段对我们而言有价值的DNA序列;二是它必须能够切开DNA序列;三是它必须易于重新编辑,以便针对不同的DNA序列进行剪切。前两项特征使它可以产生一个双链断裂,第三项特征则能扩大其适用范围。I型SceI内切酶在前两项特征上特别优秀,但是第三项特征却非常糟糕。要构建一个可以编辑的DNA剪切系统,生物工程人员有两个选择:要么重新改造I型SceI内切酶,使其可以切开新的DNA序列,要么寻找天然存在的新型核酸酶。

可惜,科学家改造I型SceI内切酶的努力失败了(考虑到蛋白质分子的复杂性,这并不意外)。很快人们就意识到,寻找新的核酸酶是更有潜力的方向。事实上,在贾辛使用I型SceI内切酶的时候,科学家已经从许多生物体中分离出了更多的核酸酶,而且鉴定出了它们针对的DNA序列。但是,这里有一个根本的问题:大多数核酸酶识别的碱基序列只有6个或8个——这太短了,完全不适于基因编辑。这些序列在人类基因组里出现了上万次甚至数十万次,这意味着,这个酶会把整个基因组切成许多段,细胞恐怕还来不及修复DNA就死去了。

研究人员无法依赖之前发现的核酸酶,但是每次进行基因编辑之前都寻找类似I型SceI的内切酶也不现实。如果要在临床上针对致病基因进行基因编辑,医生不可能等待科学家再发现一个刚好可以针对患者身上突变基因的酶。科学家需要立即找到一个可以针对该基因的内切酶,或者有办法根据需求很快合成出来。

事实上,早在1996年,有人已经开始尝试用新的策略来解决这个问题。约翰·霍普金斯大学的教授斯里尼瓦桑·赫曼德拉斯格恩(Srinivasan Chandrasegaran)意识到,除了从头开始构建核酸酶或者在自然界寻找新型内切酶,还有第三种折中的办法:重新改造天然存在的内切酶,使得它们满足进行基因编辑的前两项要求:识别特定的位点,并进行剪切。

具体来说,赫曼德拉斯格恩采取的策略是从两类天然存在的蛋白质中拼接出一个杂合体内切酶,这两类蛋白质一个擅长DNA识别,一个擅长DNA剪切。要实现DNA剪切,赫曼德拉斯格恩选择了一种叫作FokI的细菌核酸酶作为模块,它可以切开DNA,但没有序列偏好;要实现DNA识别,他借助了另一类广泛存在的天然蛋白质,叫作锌指核酸酶。所谓锌指,指的是它依赖于锌离子与DNA结合,像两根手指那样夹住DNA。由于这些锌指核酸酶由多个重复单元组合而成,每个单元识别特定的三个DNA序列,看起来,科学家有可能通过重新设计蛋白质使它识别其他DNA序列。

令人振奋的是,赫曼德拉斯格恩的杂合内切酶似乎可行。他的团队融合了FokI的剪切模块和锌指核酸酶中的DNA识别模块,并进一步表明,这个重新设计的核酸酶可以精确识别并切割目标DNA,虽然这两类蛋白质的来源完全不同。

很快,赫曼德拉斯格恩就与犹他大学的达娜·卡罗尔(Dana Carroll)教授合作,开始把这些新的锌指核酸酶(zinc finger nucleases,简称ZFNs)用于实验。他们的工作表明,锌指核酸酶可以在青蛙的受精卵(这是生物学家常用的模式生物之一)中工作,而且锌指核酸酶引起的DNA切割激发了同源重组。紧接着,卡罗尔改造了一个新的锌指核酸酶,针对的是果蝇体内与色素有关的基因YELLOW,他们的实验再次在成体中进行了精确的基因改造。对基因编辑而言,这是一个影响深远的进展。锌指核酸酶不仅可以用于动物实验,更重要的是,它们可以经过重新设计来剪切新基因。

更多的研究人员加入了进来,他们开始针对自己的研究方向设计锌指核酸酶,在新的模式生物中剪切新的基因。2003年,马修·波特斯(Matthew Porteus)和大卫·巴尔的摩(David Baltimore)首次在人类细胞中利用定制的锌指核酸酶进行了基因编辑;紧接着,费奥多尔·乌尔诺夫(Fyodor Urnov)和同事在人类细胞中更正了导致重症复合免疫缺陷的基因突变。从此,利用基因编辑技术来治疗遗传病变得触手可及。

与此同时,通过锌指核酸酶进行的基因编辑也被用于其他场合,比如精准改造农作物或者模式动物。到了21世纪初,这项技术已经成功地应用于拟南芥、烟草、玉米,证实了DNA双链断裂可以在多种细胞类型中(不仅仅是哺乳动物)促进高效的同源重组。与此同时,一些论文也陆续报道了锌指核酸酶可以在斑马鱼、昆虫、小鼠中进行基因编辑。这些工作引人入胜,富有应用前景,在参加许多学术会议期间,我也为之吸引。

不过,虽然潜力巨大,但是锌指核酸酶的使用局限于少数几个实验室。使用锌指核酸酶,需要研究人员有丰富的蛋白编辑经验,或者有机会跟有这些经验的实验室合作,或者有足够的经费可以支付定制核酸酶的高昂费用。从理论上来说,设计锌指核酸酶不难——只要把不同锌指核酸酶的片段以特定的方式组合起来,识别感兴趣的DNA序列即可。但是在实际操作中,它非常困难。很大比例的锌指核酸酶无法识别目标DNA;另外有一些专一性太低,到处切割,导致细胞死亡;还有一些锌指核酸酶模块可以识别DNA,但是无法完成剪切。

除了改造蛋白质的重重困难,锌指核酸酶的灵活性也有限,难于推广使用。毋庸置疑,锌指核酸酶的结果表明,如果要进行基因编辑,定制核酸酶是必由之路,但是这个领域仍然期待着一种更可靠、更便捷的技术。

2009年,第一代基因编辑技术出现了,它依靠的是从黄单胞杆菌里发现的一种新型蛋白质,叫作类转录活化因子(TALEs)。这些蛋白质与锌指核酸酶的构造非常类似:它们都是由多个重复片段组成,每个片段识别特定的DNA序列。区别在于:每个锌指核酸酶的手指识别三个DNA碱基,而每个类转录活化因子的片段可以识别单个DNA碱基。这使得科学家很容易推断出哪个片段识别哪个DNA碱基,于是他们可以重新编辑,来识别更长的DNA序列。在锌指核酸酶中,这项工作听起来简单,实际上颇为困难,但在类转录活化因子中,它的确很简单。

研究人员转而探索这种新技术。类转录活化因子的编码序列一经破解,三个实验室就把类转录活化因子与锌指核酸酶的剪切模块融合,创造出了类转录活化因子核酸酶(简称TALENs)。类转录活化因子核酸酶在细胞内引发基因编辑的效果非常惊人,科学家对它做了某些设计上的改进,更方便了它们的构建和使用。

“但是,可怜的类转录活化因子核酸酶恐怕没有机会一展身手了。”卡罗尔在一篇关于基因编辑起源的综述文章中写到。因为就在人们发现类转录活化因子核酸酶并用于基因编辑不久,最新的(也许是终极的)基因编辑技术出现了。这项技术叫作CRISPR——正是在这里,我的故事跟基因编辑的故事衔接了起来。基因编辑技术经历了漫长的发展历史,但它马上要进入一个激动人心的新时代。