CRISPR基因编辑技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.3 CRISPR-Cas系统的多样性、分类与演变

3.3.1 CRISPR-Cas系统分类及作用原理

CRISPR-Cas系统最早发现于K12大肠埃希菌中[7],Barrangou等[8]的实验表明:噬菌体感染细菌后,来源于噬菌体的片段重复前间隔序列会整合到细菌基因组中,宿主随之获得了对抗噬菌体的能力;间隔序列一旦敲除,外源抵抗力随之消失。同时,Cas蛋白被证明与宿主的获取抗噬菌体能力有相关性,CRISPR-Cas系统能使基因组免于噬菌体、病毒等的破坏。作为一种特别的天然免疫系统,CRISPR是绝大多数古菌及部分细菌处理外来DNA(deoxyribonucleic acid),利用Cas蛋白酶进行切割,达到自身免疫的效果的工具。CRISPR-Cas基因座由一系列编码Cas蛋白的基因和一个CRISPR重复间隔序列组成[9]。典型的CRISPR重复间隔序列由一段前导序列、一系列短的高度保守的正向重复序列和间隔序列依序排列组成[10]

CRISPR-Cas系统分为两类:Class 1和Class 2,根据Cas蛋白的结构和序列又分为不同亚型。Class 1包括Ⅰ、Ⅲ、Ⅳ型,而Class 2包含Ⅱ、Ⅴ、Ⅵ型[11,12],Ⅱ型系统又称为CRISPR-Cas 9,目前Ⅱ型系统和Ⅴ型系统CRISPR-Cas 12a(Cpf1)已被广泛应用于基因工程。在CRISPR-Cas基因编辑技术中,CRISPR-Cas9基因座由反式激活crRNA(trans-activating crRNA, tracrRNA)基因、Cas蛋白基因、CRISPR序列组成。CRISPR序列转录生成pre-crRNA, tracrRNA则是一种小非编码RNA,能参与pre-crRNA的成熟,成熟的crRNA负责识别外源DNA中互补的序列区域。tracrRNA与crRNA中的重复序列互补配对,形成双链RNA结构,双链RNA引导Cas9蛋白切割外源DNA[13]。Cas基因主要表达Cas9蛋白,具有核酸内切酶活性的Cas9蛋白具有两个不同的结构域:HNH活性中心和RuvC活性中心。HNH结构域负责切割与crRNA互补配对的外源DNA链,而RuvC活性中心负责切割非互补链。

CRISPR-Cas系统的作用机制分为三个过程:外源DNA的识别,CRISPR基因座表达、干扰。第一阶段为适应阶段,外源DNA入侵宿主细胞,Cas蛋白识别原间隔序列邻近基序(protospacer adjacent motif, PAM),将外源DNA整合于宿主的CRISPR中的两段重复序列之间,生成新的间隔序列,由此形成对外源DNA的“记忆”[14]。第二阶段为表达阶段,当同源DNA再次入侵时,宿主基因组中CRISPR序列快速转录上调[15]。研究发现,CRISPR位点的转录启动子位于前导序列末端[16]。含有外源DNA片段的CRISPR基因转录成pre-crRNA, pre-crRNA经tracrRNA、Cas蛋白及RNaseⅢ的加工、剪切,转变为成熟的短链crRNA。第三阶段为干扰阶段,成熟的crRNA与tracrRNA结合形成新的双链RNA,并进一步结合Cas蛋白,最终形成CRISPR核糖核蛋白复合体。识别并切割能与crRNA互补配对的外源DNA,造成双链断裂,激活细胞的非同源末端连接(non-homologous end joining, NHEJ)或同源重组(homologous recombination, HR)两种修复机制,从而实现基因的敲除、插入或修饰。

3.3.2 CRISPR-Cas系统的源起和进化

随着学界对CRISPR-Cas系统强大的基因编辑功能的逐渐认可和追捧,CRISPR-Cas系统的比较基因组学、结构、生化活性及生物学功能和独立Cas蛋白已经成为研究热点。作为真正的自适应(获得)免疫系统,CRISPR-Cas系统表现出了类似于拉马克式遗传的免疫记忆,能够以外来基因组的间隔序列的形式存储并插入CRISPR阵列。作为一种可编程形式的免疫,CRISPR-Cas能够适应任何目标序列。原核生物是已知的先天免疫形式最为丰富的物种,与其他防御系统一样,CRISPR-Cas与病毒之间的竞争愈演愈烈,这导致了cas基因的快速进化,CRISPR-Cas位点的基因谱系和结构的多样化,以及以转化为实际防御机制的多元化。更特别的是,CRISPR-Cas系统的多元化可能在一定程度上因受到与病毒编码的专一抗CRISPR蛋白的竞争性协同的驱动而进化。尽管CRISPR-Cas系统进化多元化存在,综合对比分析仍然揭示了CRISPR-Cas进化的共同之处。这些共同的趋势包括:转座因子对CRISPR-Cas免疫及其特殊变异发生的多重影响,cas基因广泛表达产生的多功能操纵复合物、模块组织以及模块的广泛重组。CRISPR-Cas系统最主要的两个模块由参与适应(间隔区识别)和效应器功能的系列基因编码蛋白质构成,即与pre-crRNA加工、目标识别和切割相关的操作功能模块。适应模块在不同的CRISPR-Cas系统中基本上是一致的:由内切酶Cas1和结构亚基Cas2组成。然而,效应功能模块在CRISPR-Cas类型和其亚类之间是高度变化的。与辅助作用有关的各种蛋白质,如CRISPR响应的调节和其他一些特征仍不明显的功能,则可以被分配到第三类辅助模块。

CRISPR-Cas系统的快速演化和变异性使对其分类成为一项艰巨的任务。由于缺乏通用的cas基因,以及频繁的模块化重组,采用单一的分类标准是不适宜的,也是不切实际的。因此,须采用多重方式进行CRISPR-Cas分类,即整体考虑以下因素:标志CRISPR-Cas系统分类及其亚类的典型cas基因,多个共享Cas蛋白的序列相似性,Cas1蛋白(最保守Cas蛋白)的系统发育,CRISPR-Cas基因位点的基因组成及其CRISPR结构特点。综合衡量上述分类标准的特点,导出了现在普遍承认的分类方式,即根据不同的效应分子结构设计,CRISPR-Cas系统可被分为两大类:Class 1系统和Class 2系统。

Class 1系统包括了最常见和多样化的Ⅰ型、Ⅲ型(常见于许多古菌中,略少见于细菌),以及缺少适应模块且只包括基本的CRISPR-Cas基因位点的罕见的Ⅳ型。Ⅰ型和Ⅲ型操作模块呈现出复杂的架构,其主干由平行同源的重复序列相关未知蛋白(repeat-associated mysterious protein, RAMP)组成,如具有RNA识别序列(RRM)折叠和附加的大大小小的亚单位的Cas7和Cas5。这些操纵装置都含有一个Cas5亚单位和几个Cas7亚单位。该复合物可容纳由一个间隔区和重复序列片段组成的向导RNA(guide RNA, gRNA)。Cas5亚单位结合crRNA的5′端并与大亚基(Ⅰ型为Cas8,Ⅲ型为Cas10)作用。小亚基通常存在几个拷贝,并与结合到Cas7的crRNA骨架相互作用。值得注意的是,结合间隔区的长度与复合物骨架上的Cas7亚基的数量有关。尽管Ⅰ型和Ⅲ型效应复合物的蛋白质亚单位基因序列之间显示出很小的序列相似性,但是在Ⅰ型和Ⅲ型复合物中同源RAMP存在,以及低温电子显微镜数据证实总体结构相似,这些证据无疑都揭示了效应复合物的同源性。额外的RAMP,即Cas6,与效应复合物松散相连,典型作用是作为重复特异性核糖核酸酶在pre-crRNA的加工中发挥作用。

Class 2的效应复合物由一个单体的多域大蛋白组成,其相对应的CRISPR-Cas基因位点相较于Class 1,有着更为简单、一致的结构。根据目前公认的CRISPR-Cas分类标准,Class 2包括3个亚型,研究最为透彻的Ⅱ型,结构简单,仅由crRNA、tracrRNA和核酸内切酶Cas9三种成分组成[17]。根据tracrRNA与crRNA的结构特性,在实际基因编辑应用中,将tracrRNA和crRNA组合为一条嵌合的向导RNA,使得CRISPR-Cas9系统进一步简化为只有gRNA和Cas9这2种组分的系统。

含有在新凶手弗朗西斯菌(Francisella novicida)发现的预测效应蛋白Cpf1(Cas12a)的Ⅴ型刚被认知并纳入到分类体系中。需要指出的是,Cpf1可能来自在转座子中广泛存在的不同TnpB转座酶基因家族[12],作为具有活性的gRNA核酸内切酶,与Cas9不同的是,Cpf1作为特征蛋白具有类似RuvC核酸酶结构域,缺乏HNH核酸酶结构域,偏向于识别富含胸腺嘧啶核苷酸的PAM序列,不需要额外的tracrRNA进行目标剪切。这一发现使得Class 2的CRISPR-Cas系统多样性研究,拓展到了利用基因组学和宏基因组学方法进行综合表征的新方向。

来自麻省理工学院的张锋课题组发布的CRISPR-Cas13a系统属于Class 2的Ⅵ型CRISPR效应蛋白[12,18]。Cas13a蛋白是被鉴定的首个自然发生的只靶向于RNA的CRISPR系统,该蛋白质在天然状态下有助于保护细菌免受病毒的感染。Cas13a不包含DNA酶活性结构,但包含HEPN结构域(higher eukaryotes and prokaryotes nucleotide-binding domain, HEPN)。HEPN具有核糖核酸酶活性,因此Cas13a可对RNA进行剪切。2016年,Abudayyeh [18]证明,Cas13a蛋白只需crRNA便可实现对单链RNA(single strand RNA, ssRNA)的特异性剪切,在靶点3′端有一个类似PAM的识别位点PFS(protospacer flanking site)。2017年,Liu等[19]发现,当PFS序列碱基为A、U或C的情况下靶标位点剪切效率高于序列碱基为G的情况。2017年,Smargon等[20]还发现了另一种同样具有靶向和编辑RNA的能力的蛋白——Cas13b蛋白,作用机制与Cas13a基本相同,但更适用于微调基因功能。但与Cas13a不同的是,Cas13b发挥作用需要靶RNA的两端均存在PFS结构,增加了该系统对ssRNA打靶的限制。