從頭預測模型的基本思想
在既沒有已知結構的同源蛋白質、也沒有已知結構的遠程同源蛋白質的情況下,上述兩種蛋白質結構預測的方法都不能用,這時只能采用從頭預測方法(Abinitio),即(直接)僅僅根據序列本身來預測其結構。在1994年之前,還沒有一個從頭算方法能夠預測蛋白質的空間結構。從那以后,人們陸續提出一些方法,表明了今后進一步研究可能的方向。有些研究小組運用距離幾何方法得到了非常有希望的結果。將簡化的力場與動態優化策略相結合,雖然得到的結果不算太精確,但很有意義,表明這樣的工作非常有希望突破。
從頭預測方法一般由下列3個部分組成:(1)一種蛋白質幾何的表示方法:由于表示和處理所有原子和溶劑環境的計算開銷非常大,因此需要對蛋白質和溶劑的表示形式作近似處理,例如,使用一個或少數幾個原子代表一個氨基酸殘基;(2)一種能量函數及其參數,或者一個合理的構象得分函數,以便計算各種構象的能量。通過對已知結構的蛋白質進行統計分析,可以確定蛋白質構象能量函數中的各個參數或者得分函數;(3)一種構象空間搜索技術:必須選擇一個優化方法,以便對構象空間進行快速搜索,迅速找到與某一全局最小能量相對應的構象。其中,構象空間搜索和能量函數的建立是從頭預測方法的關鍵。
蛋白質構象的網格模型
限制蛋白骨架構象中可采取的自由度是在模擬過程中簡化蛋白質的一種方法,其中一種限制是α碳原子只允許位于二維或三維格子(網格)的位置上。這種簡化方法大大減少了一個蛋白質可以采取的構象數目。于是,對于一個中等大小的多肽鏈,我們可以對它的構象空間進行窮舉搜索,直到找到能量全局最小的構象。而對于比較長的多肽鏈,簡化的格子模型可以使非窮盡的搜索方法對所有可能的構象進行較大比例的取樣,因此可以比較準確地估計出能量全局最小的構象。
H-P[疏水(hydrophobic)-極性(polar)]模型是研究得最成熟的一種簡單網格模型。H-P模型用一個固定半徑的原子來表示蛋白質中每個氨基酸殘基,從而進一步簡化蛋白質結構。在這種表示方法中,原子被分為兩種類型:疏水原子和極性原子。如圖:
一段較短的用二維和三維H-P模型表示的多肽鏈
左為二維圖,右為三位圖(疏水殘基表示為黑色,極性殘基表示為白色)
按照慣例,N端的氨基酸位于坐標系統的原點,第二個氨基酸殘基就位于坐標的(1,0)或(1,0,0)處。通常我們認為疏水作用力是使蛋白質折疊成一個緊密球狀結構的幾種基礎力之一。大多數蛋白質的天然結構都有一個疏水核心和一個與溶液相接觸的表面,疏水核心中掩藏了疏水殘基,使得它們與溶液相隔離,而與溶液相接觸的表面大多或者全部由極性殘基和帶電殘基組成。將蛋白質折疊成一個緊密結構以幫助疏水殘基與溶液相分離的過程通常稱為疏水折疊。膜蛋白卻明顯不同,這種蛋白具有一個或多個嵌入細胞膜的跨膜區,這些跨膜區的結構主要是螺旋結構。由于細胞膜大多由疏水的碳原子和氫原子組成,因此這些“表面”
的螺旋結構實際上是與水分子分離的,它們大多由疏水氨基酸組成。
H-P模型是基于疏水殘基之間的接觸來進行打分的。為了評價H-P模型中一個特定的構象,我們要計算出網格中H和H接觸的數目。在這里,除了多肽鏈一級結構中相鄰的H和H接觸外(由于多肽鏈一級結構中相鄰的H和H接觸在每一個可能的構象中都存在,因此為了簡單起見這些H和H接觸就被去除),其它每一個H和H的接觸對能量的貢獻都設為-1。最優的構象就是所有可能的構象中具有最多H和H接觸的那個構象。一般來說,要獲得最大的H和H接觸的數目通常需要先形成一個疏水核心,這個疏水核心必須含有盡可能多的H殘基,同時要將P殘基轉移至多肽鏈的表面。上圖中的二維和三維構象的得分都是-3。
有了網格模型及構象能量計算方法,下一個任務就是搜索能量全局最小的構象。在設計搜索算法時,一個主要問題就是如何表示一個特定的構象。一個最簡單的方法就是將第一個殘基放在網格的(0,0)或(0,0,0)格點上,然后描述前面一個殘基到下一個殘基的移動方向。二維模型運用這種絕對方向表示法時,每一個位置上可選擇的方向包括上、右、左和下(U、R、L、D);而對于三維模型,每一個位置上可選擇的方向包括上、右、左、下、后和前(U、R、L、
D、B、F)。通過這種絕對方向表示法,可以將上圖中的二維構象表示成(R,R,D,L,D,L,U,L,U,U,R),而三維構象可以表示成(R,B,U,F,L,U,R,B,L,L,F)。相對方向表示法則利用每個氨基酸殘基主鏈的轉動方向來表示每個位置上的殘基的方向,這種方法能夠減少每個位置上可選擇的方向數。這種情況下,對一個二維正方形的網格模型,第二個殘基以后的每個殘基位置上可選擇的方向有三個,左、右和前(通常表示為L、R和
F);對一個三維正方體的網格模型,每個殘基位置上可選擇的方向有左、右、前、上和下(L、R、F、U、D)。在這種表示方法中,我們不但要清楚當前的位置,同時還要清楚當前殘基“面對”的方向。對于二維模型,第一個殘基位于網格的(0,0)位上,它所面對的方向為右。也就是說,如果第一個移動方向是F,那么第二個殘基就應該位于網格的(1,0)位上。因此,上圖中的二維構象用相對方向表示法可表示為(F,F,R,R,L,R,R,L,R,F,R)。對于三維模型,第一個殘基位于網格的(0,0,0)位上,它所面對的方向為右。當我們沿著多肽鏈移動時,我們不但必須清楚當前殘基面對的方向,同時還要清楚當前哪個方向應該看作是“上”。利用這種表示方法,上圖中的三維構象可以表示為(F,L,U,U,R,U,U,L,L,F,L)。使用上面兩種基于方向的表示方法時,我們會遇到的一個關鍵問題就是一些構象中兩個殘基會出現在同一個位置上。比如,一個二維構象用相對(基于主鏈的轉動)表示法表示時,如果它的起始四個殘基表示為(L,L,L,L),那么這個構象就會有兩個殘基位于原點(0,0)上,從而導致殘基碰撞(bump),或者說原子空間碰撞。在構象搜索時如果出現這種空間碰撞,我們可以采用多種方法來處理。最簡單的一種方法就是為每一個具有碰撞的構象分配一個非常高的能量值。由于搜索算法是尋找低能量構象的,因此具有碰撞的構象在搜索時會被很快地剔除。不過,有些構象如果能夠解決碰撞問題,它的能量就會比較小,因此這些構象可能會是有效構象。但是,如果采用上面的方法解決碰撞問題的話,搜索過程中就會把這些有效構象去除掉。其它處理碰撞的方法包括在為構象打分之前先利用局部優化方法來解決碰撞,另外也可以使用其他在構象搜索過程中不會產生碰撞的表示法。優先排序表示法就是一種在構象搜索過程中不會產生碰撞的表示法。在優先排序法中,每個殘基對應的方向并不是某一個方向,而是所有可能的方向的排列。比如,在二維模型中,某一個殘基對應的方向可能會是{L,F,R}。{L,F,R}表示這個殘基最可能對應的方向是左;但是,如果殘基移向左側構象中會出現碰撞,這時我們就會為這個殘基選擇下一個比較有可能的方向,即向前,最后一個可選擇的方向為向右。使用這種表示法來表示構象,在有些構象中仍然會出現碰撞(當向所有方向的移動都會導致碰撞時),但這種表示方法中出現碰撞的頻率比用絕對方向表示法時出現碰撞的頻率要小很多。將優先排序表示法和局部構象搜索方法結合起來,我們就可以設計出構象中絕對不會出現碰撞情況的表示法。