蛋白质折叠速率与mRNA
上QQ阅读APP看书,第一时间看更新

2.2 氨基酸片段的极性对相应肽链折叠速率的影响

理解蛋白质的折叠机制的一个重要任务是了解影响蛋白质折叠速率的因素,很多研究已表明,蛋白质折叠速率不仅与其高级结构相关,而且与蛋白质的一级序列也有很强的相关性。蛋白质功能结构的信息一般遵循由蛋白质的一级序列(氨基酸序列)到二级结构再到空间结构的传递过程,这条链中蛋白质的二级结构起着关键的作用。从蛋白质折叠的形成过程看,规则的二级结构可能在折叠早期就已出现[30]。本节讨论不同二级结构氨基酸片段的折叠速率与氨基酸极性之间的关系,以期进一步丰富从氨基酸序列直接预测蛋白质折叠速率的理论工作。

2.2.1 材料准备

本章选取了SARS病毒、艾滋病病毒、丙型肝炎(Hepatitis C Virus,HCV)病毒及乙型肝炎(Hepatitis B Virus,HBV)病毒作为研究对象。它们的全基因组RNA序列、基因注释序列及相关注释文件从GenBank数据库(http://www.ncbi.nih.gov/)获得。另外,由于大肠杆菌是目前研究得最为详尽的原核细菌,为了证明本章得出的关于α螺旋和β折叠两类蛋白质片段的折叠速率与其平均极性之间相关性的普适性,本章还选取了原核生物大肠杆菌中的60个蛋白酶的mRNA序列作为研究对象。

2.2.2 统计分析

1)α、β片段的获得

本部分所采用的方法是King等提出的蛋白质二级结构分类法(discrimination of secondary structure class,DSC)[31],对应的预测在线软件名称为DSC(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl)。比较已发表的有关蛋白质二级结构预测的方法,DSC方法的预测适合于任何类型的蛋白质。它主要基于以下参数进行预测:①GOR(Garnier-Osguthorpe-Robso)信息。这是一个所占比重最大的参数,它是根据对已知二级结构的蛋白质统计结果得出的,统计表明不同二级结构的开始和结尾部分所采用的残基有明显的倾向性,GOR信息就是包含这一倾向性的参量。②每一残基距离末端残基的距离。考虑到距离末端残基较近的残基也是链结构的一部分,这些部分比其他部分的残基易变,而且在形成氢键及牢固结合在核上等方面也较其他部分更困难。③疏水瞬时模式。这一参数对α片段及β片段截然不同,而对无规卷曲片段来说,它基本上没有影响。④插入和删除信息。对于不同二级结构的蛋白质,两种方式(插入和删除)对结构的破坏影响是不同的。⑤保守片段。

用此DSC在线软件获得4种病毒所有蛋白质和大肠杆菌中的60个蛋白酶中的α片段及β片段。α螺旋平均一圈含3.6个残基。所以,本节选取最短的α片段长度为4个残基,对于β折叠片段,选取最短的片段长也为4个残基,本节没有考虑无规卷曲片段。

2)氨基酸片段平均极性的计算

氨基酸的平均极性是氨基酸的一个重要特性,它们在蛋白质折叠过程中起着重要作用[32],这里定义氨基酸片段的平均极性如下:

式中,表示某氨基酸片段的平均极性,Pi表示本段氨基酸中第i个残基的极性(每种氨基酸的极性值[33]见表2-1),N表示本氨基酸片段所包含的残基数。

表2-1 氨基酸的极性表

3)折叠速率的计算

Gromiha认为蛋白质的折叠速率是由残基间的相互作用决定的,而相互作用又受氨基酸的物理、化学、能量以及构象等属性的影响,继而提出根据氨基酸属性来预测蛋白质速率的Pave模型[22],对α螺旋、β折叠片段分别采用式(2-4)与式(2-5)计算它们的折叠速率。以此为依据,计算出所有α片段及β片段的折叠速率,并对两类二级结构片段(α和β片段)分别作其折叠速率与平均极性之间的相关性分析。

2.2.3 研究结果

1)四种病毒中α螺旋和β折叠片段折叠速率与其平均极性之间的相关性

对于四种病毒,基于所有蛋白质的一级序列共得到505个α片段和406个β片段,计算出各片段的折叠速率ln(kf)和平均极性,对每种病毒的两类二级结构片段(α和β片段)分别作其折叠速率与平均极性之间的线性回归分析,结果如表2-2和表2-3所示。

表2-2 α片段的折叠速率与其平均极性的线性回归分析结果

注:GC含量为各病毒基因组中鸟嘌呤和胞嘧啶所占的比率,N是片段数,a是线性回归方程的斜率,r是相关系数,p是相关水平。

表2-3 β片段的折叠速率与其平均极性的线性回归分析结果

注:GC含量为各病毒基因组中鸟嘌呤和胞嘧啶所占的比率,N是片段数,a是线性回归方程的斜率,r是相关系数,p是相关水平。

拟合结果显示:片段的折叠速率与其平均极性之间存在极显著的线性相关性;对于β片段,折叠速率与平均极性呈线性负相关,就是说,极性越强的β片段,其折叠速率越低;而对于α片段,二者呈线性正相关,即意味着极性越强的α片段,其折叠速率越高;比较两类片段线性关系的斜率a值,发现β片段斜率a的绝对值远大于α片段的斜率值,说明β片段折叠速率对其极性有更强的依赖性。

2)大肠杆菌蛋白酶中的α螺旋和β折叠片段折叠速率与其平均极性之间的相关性

对于60个大肠杆菌蛋白酶,基于其一级序列得到696个α片段和473个β片段,用Gromiha提供的软件[22]计算出各片段的折叠速率ln(kf),根据式(2-7)计算出各片段的平均极性,分别在两类二级结构片段(α片段和β片段)中对它们的折叠速率与平均极性作线性回归分析(见表2-4)。

表2-4 大肠杆菌蛋白酶的氨基酸片段的折叠速率与其平均极性的线性回归分析结果

注:N是片段数,a是线性回归方程的斜率,r是相关系数,p是相关水平。

结果显示:对于大肠杆菌蛋白酶,片段的折叠速率与其平均极性之间存在着与上述病毒蛋白质的α片段和β片段一致的相关性,说明这种相关性可能是普适存在的。

2.2.4 讨论

对于不同蛋白质,它们的折叠速率有很大的差异,有些蛋白质在几微秒内就能完成其折叠过程,而有些则需要较长时间。为了解释这一差异,真实地模拟蛋白质的折叠过程,并计算出它们的折叠速率,理论工作者开展了大量的研究工作。基于蛋白质三级结构和二级结构预测蛋白质折叠速率的研究中,人们发现蛋白质的折叠速率与其结构有很强的相关性,由此提出了多种预测参量,各种预测参量的相继提出不断推动着蛋白质折叠速率预测方法的发展。许多研究工作者正在寻找直接从蛋白质的氨基酸序列预测其折叠速率的方法,为此,需要提出一些从一级序列预测折叠速率的有效参量。本节的研究结果发现,对于α螺旋片段,随着片段氨基酸极性的增加,折叠速率在加快,意味着提高氨基酸极性可以促进α螺旋片段的折叠。而对于β折叠片段,随着片段平均极性的增加,其折叠速率在减小,说明高平均极性可能会阻碍β折叠片段的折叠。而且发现对于两类片段,平均极性对折叠速率的影响是截然相反的。蛋白质结构不仅取决于氨基酸序列的组成,而且取决于其折叠的机制和方式。我们的结果表明:氨基酸的极性在蛋白质折叠进程中起到相当重要的作用。把所选的蛋白质分为不同的二级结构类时,氨基酸的极性与折叠速率有很好的相关性,尤其在β类片段中,二者的相关系数最高可达0.75,这一相关系数可以与先前有关工作中其他参量与折叠速率的相关系数比拟,如Plaxco和Baker提出了一个基于参量CO的预测方法,对于12个蛋白质,相关系数为0.81,对于18个蛋白质,相关系数为0.64。Gong提出了根据SSC来预测蛋白质折叠速率的方法,对24个二态蛋白质进行预测,相关系数可高达0.91,Punta和Rost提出了一种先从氨基酸序列预测蛋白质3D结构中残基间的长程接触序(LRO),再进行折叠速率预测的方法,通过线性拟合对37个蛋白质进行预测,相关系数可达0.68。本节的研究结果中虽然相关系数没有达到最高,但是我们注意到,第一,从所选片段数来说,远远多于以往工作中所选的片段数,如在得到二者相关系数为0.75的大肠杆菌β类片段中,所选片段个数为473个,这足以证明这种相关性的普适性;第二,从所选参量个数来说,本研究所选参量要少于以往工作中所选的参量,只有氨基酸的平均极性这一个参量,所以得到这样的相关系数已经超出了我们预期的结果,为从蛋白质一级序列出发预测其折叠速率提供了非常重要的理论基础。