4.5 目标搜索与识别
一旦Cas9结合了其向导RNA,该复合体即可开始寻找互补的靶DNA位点[36]。靶标的搜索和识别既需要靶标DNA中20nt原间隔子序列与向导RNA上的间隔子互补配对,也需要在靶标位点附近存在保守的PAM序列[18,20]。PAM序列对于宿主区分自身序列和非自身序列至关重要[41],在体外PAM中的单个突变可导致Cas9切割活性丧失[20],并使噬菌体逃脱宿主的免疫反应[42]。常用的SpCas9 PAM序列是5′-NGG-3′,其中N可以是四个DNA碱基中的任何一个。单分子实验表明,Cas9通过探寻合适的PAM序列来启动目标DNA的搜索过程,然后再搜索侧翼DNA是否具有潜在的向导RNA互补性[30]。靶向识别是通过三维碰撞发生的,其中Cas9快速从不包含适当PAM序列的DNA上解离,而当存在适当PAM时,停留时间取决于向导RNA与相邻DNA之间的互补性[30,43]。一旦Cas9找到具有适当PAM的靶位点且向导RNA与靶DNA的靶标链互补,它就会在PAM邻近的成核位点触发局部DNA熔解。随后RNA链入侵,从近PAM端到远PAM端形成RNA-靶DNA杂合链并置换出非靶DNA链(形成R环)[30,44]。sgRNA的种子区域和靶DNA之间的完美互补是Cas9介导的DNA靶向和切割所必需的,而非种子区域的不完美碱基配对对靶DNA结合特异性来说则相对影响较小[45]。
4.5.1 RNA-DNA异源双链
最近解析的Cas9-sgRNA与互补的单链靶DNA(带有和不带有PAM双链)[31],以及Cas9-sgRNA与完全配对的靶标dsDNA结合所形成复合物的EM和晶体结构模型[37],共同为Cas9-sgRNA如何识别底物DNA提供了重要的结构见解。其中一种是Cas9-sgRNA与靶ssDNA链相互作用的机制,这是从结合ssDNA的结构中首次发现的[31]。在这种结构中,目标DNA链通过20个Watson-Crick碱基对与sgRNA中的20nt间隔序列进行整体杂交,形成RNA-DNA异源双链体,其构象主要为A型。RNA-DNA异源双链位于REC和NUC叶之间的中央通道中,并被Cas9以不依赖序列的方式识别,这表明Cas9识别RNA-DNA异源双链体的几何结构而不是其核酸碱基。RNA-DNA异源双链的假A型构型在PAM双链结合的结构中也存在[46]。这为寡脱氧核糖核苷酸PAMmers(包含PAM序列的DNA寡核苷酸的简短序列)存在时Cas9靶向RNA提供了结构解释[47],因为RNA-RNA异源双链通常采用类似的A型构象。比较所有与DNA结合的结构中的RNA-DNA异源双链体,包括ssDNA结合、PAM双链体结合和双链DNA结合状态,发现杂合双链体在延伸至向导RNA 5′末端时表现出更明显的畸变,尤其是从位置+12到+17(从sgRNA内间隔区的3′末端算起)。相对于PAM近端片段,PAM远端区域的RNA-DNA异源双链体所采用的结构可塑性显著提高,这与Hel-Ⅲ的高柔韧性和Hel-Ⅰ的低移动性(分别容纳杂合链远端和近端)有关。这可以解释为什么PAM远端非种子区错配比PAM近端种子区域配对更能被容忍。单链靶DNA链的结合相对于PAM结合在Cas9内引起了更为显著的构象变化,进一步突显了RNA-DNA杂交在诱导Cas9的构象激活中的重要作用。
4.5.2 PAM识别
PAM识别的分子机制由PAM双链结合后结构来阐明[47]。在这种结构中,Cas9切口酶(H840A)与83nt sgRNA和在非靶标链上包含5′-TGG-3′ PAM序列的部分双链体靶标DNA形成复合体,这种DNA模拟了含有被切割的非靶标DNA的部分产物链和完整的靶DNA链。PAM双链体位于REC和NUC叶之间的带正电荷的凹槽中,而含PAM的非靶标链主要位于CTD中。PAM序列中的第一个碱基(表示为N)与其互补碱基保持碱基配对,但不与Cas9相互作用。通过与位于CTD中的β-发夹结构中的两个精氨酸残基(R1333和R1335)的碱基特异性氢键相互作用,保守的PAM GG二核苷酸可在大沟中被直接读出。与DNA小沟中的识别相比,通过DNA大沟中水介导的氢键直接相互作用读取碱基赋予了Cas9更大的序列特异性和区分性[48]。与之相比,Cascade也识别双链形式的PAM序列,但从小沟侧开始,这解释了Ⅰ型CRISPR-Cas系统中PAM识别的混杂性[49]。除了与GG二核苷酸的碱基特异性接触外,Cas9的CTD还与含PAM的非靶DNA链的脱氧核糖-磷酸骨架形成许多氢键相互作用。但是,未发现在Cas9和靶链核苷酸之间的直接相互作用[46]。这使先前的生化观察结果趋于合理,表明Cas9特异性识别非靶链而不是靶链上的PAM序列,同时解释了Cas9对PAM双链体靶链区错配的耐受性[20,30]。SpCas9变体的最新结构研究表明,Cas9通过诱导契合机制识别非经典PAM序列[50],其中非经典PAM的识别在不改变Cas9构象(包括PAM)的情况下,在PAM双链体的DNA骨架中产生细微的变形,包括位于CTD结构域中与PAM相互作用的β-发夹结构。有趣的是,工程化精氨酸残基(T1337R)参与了PAM(5′-NGNG-3′)第四位鸟嘌呤碱基的识别。工程化Cas9变体表现出的PAM识别的结构可塑性进一步印证了PAM识别在诱导靶DNA解链中的重要作用[30]。
4.5.3 局部DNA熔解和R环形成
结合PAM双链和结合dsDNA的结构解析显示,特定的PAM-Cas9相互作用触发了局部结构变化,使相邻DNA双链体不稳定,并促进了向导RNA和靶DNA链之间随后的Watson-Crick碱基配对[46,50]。在PAM双链结构中,在紧邻PAM上游的靶链中观察到一个明显的扭结转弯,它通过位于CTD结构域中的磷酸酯锁环(K1107-S1109)稳定连接磷酸二酯基团(称为+1磷酸酯)[46]。这种扭结转弯构型对于驱动靶标DNA从与非靶链配对过渡到与向导RNA配对是必需的。将结合DNA的结构与结合sgRNA的结构做叠加,磷酸酯锁环显示出多种构象,并在与PAM结合后向外移动。这些观察结果与生化和单分子研究结果相结合,表明PAM识别与相邻序列的局部不稳定相伴[20,30],而且在PAM识别后,磷酸酯锁环和+1位磷酸之间相互作用的形成有助于DNA双链体的局部熔解和RNA-DNA杂交的稳定化[46]。如果没有最初的PAM结合并通过该磷酸酯锁环稳定+1磷酸酯,目标DNA序列的第一个核碱基就不能轻易翻转并向上朝向导RNA方向旋转,结果是向导RNA很少能够结合靶DNA以启动RNA链入侵。这种结构特征也使以前的研究结果相吻合,表明非靶链上PAM的存在可以激活ssDNA靶链的切割[30]。dsDNA结合结构进一步揭示了在无ATP依赖的解旋酶活性存在的情况下,PAM识别如何触发诱导R环形成[37]。为了捕获处于切割状态的R环结构,在存在金属离子螯合剂的情况下,用含有30个碱基对(bp)的dsDNA与野生型SpCas9-sgRNA结晶,以防止靶DNA切割。如在PAM双链结合结构中观察到的[46],未缠绕的靶DNA链在+1磷酸二酯键处扭结,然后与间隔区配对形成假A型RNA-DNA异源双链体。靶DNA链在两个Cas9叶之间形成的中央通道中延伸,与之相反,被置换出的非靶DNA链穿入位于NUC叶内的紧邻侧通道中。PAM远端的非靶链完全无序[37],这与以前的足迹实验数据非常吻合[29]。通过疏水和范德华力相互作用组成的精细网络,PAM近端非靶DNA链得以稳定[37]。它显示出扭曲的螺旋构象,PAM上游的第一个核苷酸(称为-1位置)堆叠在PAM双链体上。如在PAM双链结合结构中观察到的,这种链内碱基堆叠可能有助于稳定PAM双链并通过Cas9与GG二核苷酸的碱基特异性相互作用促进PAM识别。非靶DNA链在-1磷酸位置发生明显的扭结,没有直接的蛋白质相互作用[37]。相反,通过Cas9与-2和-3位置的翻转核苷酸之间的广泛相互作用,可以使扭结的DNA构型稳定。在这种具有切割功能的构象中,非靶标链再次在-4位置扭结,然后从RuvC和HNH核酸酶结构域之间形成的狭窄的带正电荷的通道中横向穿出。在未缠绕的靶链和置换的非靶链中观察到的尖锐扭结和翻转碱基[37,46],表明紧邻PAM上游的两个种子核苷酸在很大程度上暴露于本体溶剂中,从而成为PAM的成核位点以启动靶DNA的结合[36],这些发现阐明了Cas9如何检测邻近DNA用于与向导RNA互补,并在PAM识别后打开DNA双链体以启动R环形成[30]。此外,这些结构与早期的生化研究结果非常吻合,后者表明紧邻PAM的2bp错配使结合完全丧失,而进一步在此位置引入2bp小DNA气泡则会消除在该位置形成RNA-DNA异源双链的需要,并且导致牢固结合和快速的切割[30]。
4.5.4 Cas9诱导的DNA弯曲
Cas9-sgRNA复合物与dsDNA结合的Cryo-EM结构进一步阐明了Cas9如何将未解链的dsDNA的两端固定在更长的螺旋中[37]。在这种真正的R环结构中,与结合PAM双链和双链DNA的晶体结构相同,双链PAM的近端也保留在PAM相互作用的CTD结构域中,而PAM远端的靶标DNA双链则被保持在Hel-Ⅲ和RuvC核酸酶结构域之间。Cas9显著扭曲了DNA螺旋,从而改变了双链体的轨迹,在结合的DNA片段中产生了从180°到150°的整体弯曲。尽管大多数非靶标链在该EM结构中都无法解析,但密度清楚地表明,PAM远端非靶标链受到有利的静电环境的吸引,采取向下的沟槽路线朝向RuvC核酸酶结构域的背面。Cas9引起的DNA弯曲与转录过程中RNA聚合酶诱导的DNA变形[51]类似,最有可能促进链分离并防止再杂交(R环塌陷)。