蛋白質組數據的多元分析實驗

發布時間：2019-04-10 19:25 原文鏈接：蛋白質組數據的多元分析實驗

儀器、耗材	掃描儀圖像分析軟件 Excel 程序多元數據分析的軟件
實驗步驟	用 Progenesis、Excel 和 The Unscrambler 對 2D 凝膠進行多元分析。 3.1 確定研究方案后建立蛋白的 2D 凝膠在本章節中不再闡述，但要確定染色方法以便進行凝膠的定量分析（見注釋 1 )。 3.2 用具備透射模式掃描的掃描儀使凝膠數字化在本節中不再闡述，但要確保用高色素、高分辨率掃描圖片（見注釋 2 ) 并且在圖像處理軟件中用正確的格式保存圖片（見注釋 3) 。 3.3 用數據分析軟件分析數字化的 2D 凝膠 2D 凝膠數字化后（圖 17-1)，用圖像分析軟件 Progenesis 確認蛋白質點，和參考凝膠上的蛋白質點進行匹配分析。可以自動選擇參考凝膠，也可選擇一個特異 2D 凝膠作為參考凝膠，不能匹配的蛋白質點可歸到參考凝膠中。 3.4 生成蛋白質點列表蛋白質點檢測后，可以生成相匹配的蛋白質數值列表，通常這是體積數據。這個列表可以在 Progenesis 軟件的比較窗口（Comparison Window ) 找到。這個列表 ( 表 17-1) 還可以通過 Edit 菜單中的 Copy to Excel 輸出到 Excel 中。標記為 1 時表示蛋白質點存在，標記為 0 時表示蛋白質點不存在。這個二元列表在某些情況下非常有用 ( 見注釋 4) 。另一個非常重要的一點就是要同時對這些蛋白質點進行標記（見注釋 5) ，否則數據錄入到 Excel 中，將會產生這樣或那樣的問題（見注釋 6)。 3.5 將表格數據輸入到多元分析軟件進行分析 1. 驗證方法接下來是驗證方法的選擇，選擇的依據主要是樣品的數量和建立另一套數據的可能性。如果這套數據包括很多凝膠，首選的驗證方法是測試集（test set) 法，其次是交叉驗證（cross- validation) 方法。 ( 1 ) 測試集驗證基于兩套不同的數據，一個用來 PCA 的校準（校準集）和創建模型，另一個是用來測試 PCA 校準的計算模型（測試集/驗證集）。測試集需要幾個條件。首先，和校準集一樣，所有的樣品必須是來自同一個群體，取樣條件必須和校準集的取樣條件一樣。此外，這兩個數據集必須具有代表性。由于兩個數據集有可能很相似，因此不能簡單地將一個大的數據集劃分為兩個數據集。只有兩個數據集的不同部分才可以作為取樣方差，即來源于同一目標群體的獨立的樣品的方差[6] 。校準集必須足夠大以便校準一個模型，測試集也必須足夠大以便測試這個模型。通常我們沒有足夠的樣品來做測試集檢驗，因此就必須做杠桿驗證或交叉驗證。 ( 2 ) 當樣品少但又都很重要時可以進行杠桿驗證（leverage validation) 。由于杠桿驗證是檢驗整個數據集，之后也用來驗證測試正確的數據集，因此杠桿驗證通常得出很好的結果。但我們不推薦使用杠桿驗證。 ( 3 ) 交叉驗證用于中到大的數據集。數據集進行劃分，每個區域省去，子模型（不包含區域的數據集）用來進行校準，劃分的區域用來檢測模型。每個區域都必須這樣操作。區域大小和結構（隨機的、系統的、手工的）將因數據集類型的不同而不同。每個區域占總的數據集的 25%，也就意味著有 4 個子模型要進行計算和測試。對于小一點的數據集，經常使用僅一個樣品的區域，這就叫做全交叉驗證也就意味著在校準時省去一個樣品，省去的樣品用來檢測。全交叉驗證是有多少樣品就需要構建多少個子模型。因為每一次只能省去一個樣品，每一次省去的樣品用來測試型，當全交叉驗證檢驗一個平衡的數據集時往往能得到一個很好的驗證結果 [6] 。 ( 4 ) 在 Unscrambler 中，可以選擇可變選項（見注釋 9)。圖 17-2 示例 PCA 分析。 3.7 分值闡述及分值圖 ( 1 ) 主成分（PC ) 和原始的變量為線性關系，包含了數據結構信息。第一主成分涵蓋了絕大部分的信息，越高級位的主成分涵蓋的信息越少，PC 也被叫做潛在變量或得分向量。 ( 2 ) 分值圖（score plot) 是兩個或三個主成分的樣品位置的圖，因此樣品越相似，得分越接近。一開始人們用簇來闡釋 Score Plot，即具有共同特征的樣品為一個簇，從而我們可以得到樣品及區別于樣品的變量的信息。此外，還可以發現離群樣品，即一些和絕大部分樣品不同的樣品。由于離群樣品可能是我們感興趣的樣品，可能還可以幫助我們發現分析時的錯誤或者數據收集的錯誤（即可以剔除的數據），所以我們還是有必要分析離群樣品的。 ( 3 ) Score Plot 應該和同樣主成分的 Loading Plot 中的信息一起分析，這可以幫助我們確定變量，這些變量即是樣品的不同點，這個可以在 Score Plot 中觀察到。Loading Plot ( 圖 17-3) 從不同的角度描繪數據。每個變量有一個 PC 值，這個不僅反映了由多少個變量貢獻這個 PC，還反映了這個 PC 多大程度上考慮到變量的變化。 ( 4 ) 闡述 Loading Plot 從高分值的變量開始，這可以幫助分析一個特別的 PC 的意義（圖 17-4)。同樣分值越高的兩個變量相關性越高。由于 Loading 是變量和 PC 的角度的余弦值，因此這個數值是在 [ -1：+ 1 ] 之間的任意數值。高分值的變量，相同方面正相關，相反方面負相關。為了幫助分析，可以做雙標圖，它是 Scores 和 Loadings 的散點圖（圖 17-5)。 3.8 回歸生物學分析一旦用 Score 圖闡明了樣品分布，用 Loading 圖闡明了變量（導致樣品分布），就要回到樣品的生物學或生物化學問題上了。在 2D 凝膠電泳中，蛋白點是變量，也即意味著通過這種分析可以指出哪些蛋白質點負責該 2D 凝膠的一些分布（圖 17-6)。研究者由此可以提出一個假設來解釋這種分布。這也叫做探索性數據分析（ exploratary dataanalysis) ，這是一種非常有效的蛋白質組學分析方法。 3.9 用偏小二乘回歸分析和蛋白樣品相關聯的相應變量偏小二乘回歸（PLSR ) 通過回歸方法將兩套數據矩陣（X 和 Y ) 相關聯，是一種監管方法（supervised method)。PLSR 的原理和 PCA 相似，通過多維空間的數據點找到能夠解釋大多數變化的最直接線性關系。PLSR 的目標是為了預測另一個數據表的理想特征，需用一個數據表建立一個線性模型。因此，PCA 是為了找到一個數據表（X 矩陣）中的隱含信息。PLSR 是用來檢測兩個數據表（X 矩陣和 Y 矩陣）的關系。X 矩陣為（N X K），Y 矩陣為（N X J ) ， N 為樣品，K 、J 、X 、Y 分別為變量 [ 5 ]。 PLS-R 是通過操作 PCA 的 X 矩陣和 Y 矩陣起作用的，這兩個矩陣相互依存。類似 PCA [ 5 ] ，X-變量是根據 X -裝載 P 和 X -余值 E 通過有關模型與 X-分值 T 進行關聯的 [5]：相類似，變量是根據 y-裝載 Q 和 Y-余值 F 通過有關模型與 X-分值 T 進行關聯的 [5 ]: 變量可直接由 X-變量通過回歸系數矩陣（regression coefficient matrix) B 獲得 [ 5 ]: 將上述一系列方程進行結合分析，就能解析獲得結果。 PLS-R 的校驗 PLS-R 校驗的意義是通過兩個參數體現的：一個是余值校驗變量（RVYV ) ，表示所測的 Y-變量與預測的 Y-變量的差異。不同模型的差異可以用 RVYV 的均方根表示（RMSE ) 。 X-數據用于建立模型。X 值插入模型中可以預測 Y 值。建模誤差（modeling error) 為 Y-預測與 Y-數據的差值 [6] 。偏差是預測樣品與校準樣品相似程度的表達方式。預測樣品與校準樣品相似時，偏差值就小。偏差高，預測的值就不可信。最后一個重要的參數是相關系數（correlation coefficient，r ) ，作為界定 X 和 Y 之間的相關性，相關公式如下：相關性是兩個變量之間線性關系的量度。當值為 1 時表明變量之間的線性關系存在，值為 0 時意味著變量之間沒有線性相關性。展

儀器、耗材

實驗步驟

用 Progenesis、Excel 和 The Unscrambler 對 2D 凝膠進行多元分析。

3.1 確定研究方案后建立蛋白的 2D 凝膠

在本章節中不再闡述，但要確定染色方法以便進行凝膠的定量分析（見注釋 1 )。

3.2 用具備透射模式掃描的掃描儀使凝膠數字化在本節中不再闡述，但要確保用高色素、高分辨率掃描圖片（見注釋 2 ) 并且在圖像處理軟件中用正確的格式保存圖片（見注釋 3) 。

3.3 用數據分析軟件分析數字化的 2D 凝膠 2D 凝膠數字化后（圖 17-1)，用圖像分析軟件 Progenesis 確認蛋白質點，和參考凝膠上的蛋白質點進行匹配分析。可以自動選擇參考凝膠，也可選擇一個特異 2D 凝膠作為參考凝膠，不能匹配的蛋白質點可歸到參考凝膠中。

3.4 生成蛋白質點列表

蛋白質點檢測后，可以生成相匹配的蛋白質數值列表，通常這是體積數據。這個列表可以在 Progenesis 軟件的比較窗口（Comparison Window ) 找到。這個列表 ( 表 17-1) 還可以通過 Edit 菜單中的 Copy to Excel 輸出到 Excel 中。標記為 1 時表示蛋白質點存在，標記為 0 時表示蛋白質點不存在。這個二元列表在某些情況下非常有用 ( 見注釋 4) 。另一個非常重要的一點就是要同時對這些蛋白質點進行標記（見注釋 5) ，否則數據錄入到 Excel 中，將會產生這樣或那樣的問題（見注釋 6)。

3.5 將表格數據輸入到多元分析軟件進行分析

1. 驗證方法

接下來是驗證方法的選擇，選擇的依據主要是樣品的數量和建立另一套數據的可能性。如果這套數據包括很多凝膠，首選的驗證方法是測試集（test set) 法，其次是交叉驗證（cross- validation) 方法。

( 1 ) 測試集驗證基于兩套不同的數據，一個用來 PCA 的校準（校準集）和創建模型，另一個是用來測試 PCA 校準的計算模型（測試集/驗證集）。

測試集需要幾個條件。首先，和校準集一樣，所有的樣品必須是來自同一個群體，取樣條件必須和校準集的取樣條件一樣。此外，這兩個數據集必須具有代表性。由于兩個數據集有可能很相似，因此不能簡單地將一個大的數據集劃分為兩個數據集。只有兩個數據集的不同部分才可以作為取樣方差，即來源于同一目標群體的獨立的樣品的方差[6] 。校準集必須足夠大以便校準一個模型，測試集也必須足夠大以便測試這個模型。通常我們沒有足夠的樣品來做測試集檢驗，因此就必須做杠桿驗證或交叉驗證。

( 2 ) 當樣品少但又都很重要時可以進行杠桿驗證（leverage validation) 。由于杠桿驗證是檢驗整個數據集，之后也用來驗證測試正確的數據集，因此杠桿驗證通常得出很好的結果。但我們不推薦使用杠桿驗證。

( 3 ) 交叉驗證用于中到大的數據集。數據集進行劃分，每個區域省去，子模型（不包含區域的數據集）用來進行校準，劃分的區域用來檢測模型。每個區域都必須這樣操作。區域大小和結構（隨機的、系統的、手工的）將因數據集類型的不同而不同。每個區域占總的數據集的 25%，也就意味著有 4 個子模型要進行計算和測試。對于小一點的數據集，經常使用僅一個樣品的區域，這就叫做全交叉驗證也就意味著在校準時省去一個樣品，省去的樣品用來檢測。全交叉驗證是有多少樣品就需要構建多少個子模型。因為每一次只能省去一個樣品，每一次省去的樣品用來測試型，當全交叉驗證檢驗一個平衡的數據集時往往能得到一個很好的驗證結果 [6] 。

( 4 ) 在 Unscrambler 中，可以選擇可變選項（見注釋 9)。

圖 17-2 示例 PCA 分析。

3.7 分值闡述及分值圖

( 1 ) 主成分（PC ) 和原始的變量為線性關系，包含了數據結構信息。第一主成分涵蓋了絕大部分的信息，越高級位的主成分涵蓋的信息越少，PC 也被叫做潛在變量或得分向量。

( 2 ) 分值圖（score plot) 是兩個或三個主成分的樣品位置的圖，因此樣品越相似，得分越接近。一開始人們用簇來闡釋 Score Plot，即具有共同特征的樣品為一個簇，從而我們可以得到樣品及區別于樣品的變量的信息。此外，還可以發現離群樣品，即一些和絕大部分樣品不同的樣品。由于離群樣品可能是我們感興趣的樣品，可能還可以幫助我們發現分析時的錯誤或者數據收集的錯誤（即可以剔除的數據），所以我們還是有必要分析離群樣品的。

( 3 ) Score Plot 應該和同樣主成分的 Loading Plot 中的信息一起分析，這可以幫助我們確定變量，這些變量即是樣品的不同點，這個可以在 Score Plot 中觀察到。Loading Plot ( 圖 17-3) 從不同的角度描繪數據。每個變量有一個 PC 值，這個不僅反映了由多少個變量貢獻這個 PC，還反映了這個 PC 多大程度上考慮到變量的變化。

( 4 ) 闡述 Loading Plot 從高分值的變量開始，這可以幫助分析一個特別的 PC 的意義（圖 17-4)。同樣分值越高的兩個變量相關性越高。由于 Loading 是變量和 PC 的角度的余弦值，因此這個數值是在 [ -1：+ 1 ] 之間的任意數值。高分值的變量，相同方面正相關，相反方面負相關。為了幫助分析，可以做雙標圖，它是 Scores 和 Loadings 的散點圖（圖 17-5)。

3.8 回歸生物學分析

一旦用 Score 圖闡明了樣品分布，用 Loading 圖闡明了變量（導致樣品分布），就要回到樣品的生物學或生物化學問題上了。在 2D 凝膠電泳中，蛋白點是變量，也即意味著通過這種分析可以指出哪些蛋白質點負責該 2D 凝膠的一些分布（圖 17-6)。研究者由此可以提出一個假設來解釋這種分布。這也叫做探索性數據分析（ exploratary dataanalysis) ，這是一種非常有效的蛋白質組學分析方法。

3.9 用偏小二乘回歸分析和蛋白樣品相關聯的相應變量

偏小二乘回歸（PLSR ) 通過回歸方法將兩套數據矩陣（X 和 Y ) 相關聯，是一種監管方法（supervised method)。PLSR 的原理和 PCA 相似，通過多維空間的數據點找到能夠解釋大多數變化的最直接線性關系。PLSR 的目標是為了預測另一個數據表的理想特征，需用一個數據表建立一個線性模型。因此，PCA 是為了找到一個數據表（X 矩陣）中的隱含信息。PLSR 是用來檢測兩個數據表（X 矩陣和 Y 矩陣）的關系。X 矩陣為（N X K），Y 矩陣為（N X J ) ， N 為樣品，K 、J 、X 、Y 分別為變量 [ 5 ]。

PLS-R 是通過操作 PCA 的 X 矩陣和 Y 矩陣起作用的，這兩個矩陣相互依存。

類似 PCA [ 5 ] ，X-變量是根據 X -裝載 P 和 X -余值 E 通過有關模型與 X-分值 T 進行關聯的 [5]：

相類似，變量是根據 y-裝載 Q 和 Y-余值 F 通過有關模型與 X-分值 T 進行關聯的 [5 ]:

變量可直接由 X-變量通過回歸系數矩陣（regression coefficient matrix) B 獲得 [ 5 ]:

將上述一系列方程進行結合分析，就能解析獲得結果。

PLS-R 的校驗

PLS-R 校驗的意義是通過兩個參數體現的：一個是余值校驗變量（RVYV ) ，表示所測的 Y-變量與預測的 Y-變量的差異。不同模型的差異可以用 RVYV 的均方根表示（RMSE ) 。

X-數據用于建立模型。X 值插入模型中可以預測 Y 值。建模誤差（modeling error) 為 Y-預測與 Y-數據的差值 [6] 。

偏差是預測樣品與校準樣品相似程度的表達方式。預測樣品與校準樣品相似時，偏差值就小。偏差高，預測的值就不可信。

最后一個重要的參數是相關系數（correlation coefficient，r ) ，作為界定 X 和 Y 之間的相關性，相關公式如下：

相關性是兩個變量之間線性關系的量度。當值為 1 時表明變量之間的線性關系存在，值為 0 時意味著變量之間沒有線性相關性。