1.論文鏈接:Detection of Copy Number Variations from Array Comparative Genomic Hybridization Data Using Linear-chain Conditional Random Field Models
摘要:
拷貝數變異(CNV)約占人類基因組的12%。除了CNVs在癌癥發展中的固有作用外,它們還被報道是復雜疾病易感性的基礎。每個變異的范圍可能從大約1000個核苷酸到不到5兆堿基不等。陣列比較基因組雜交(aCGH)允許跨基因組拷貝數的改變。利用aCGH數據分析cnv的關鍵計算挑戰是檢測拷貝數變化的段邊界,并推斷每個段的拷貝數狀態。馬爾可夫隨機和更具體的條件隨機為數據預處理、分割和拷貝數狀態解碼提供了一個框架。
關鍵詞:拷貝數變化,aCGH,條件隨機場
????????為了更多地了解可遺傳拷貝數多態性(CNPs)在確定疾病表型中的作用,目前正在對CNPs進行系統的定位和編目。陣列比較基因組雜交(aCGH)允許跨基因組拷貝數的改變。利用aCGH數據分析拷貝數變異(CNVs)的關鍵計算挑戰是檢測拷貝數變化的段邊界和推斷每個段的拷貝數狀態。本章提出了一種基于條件隨機算法的新型無向圖形模型,用于aCGH數據中的CNV檢測。該模型將數據預處理、分割和拷貝數狀態解碼結合到一個統一的框架中。所描述的方法被稱為CRF-CNV,在定義有意義的特征函數中提供了極大的?存在性。因此,它可以將任意大小的局部空間信息生態型地整合到模型中。對于模型參數的估計,采用共軛梯度(CG)方法對似然值進行了優化,并在CG框架內開發了正向/反向算法。
16.1介紹
?????DNA序列中的結構變異,如可遺傳的拷貝數改變,已被報道與許多疾病有關。還觀察到體細胞染色體畸變(即,腫瘤樣本中的基因擴增和缺失)在不同的癌癥類型或亞型中顯示出不同的臨床或病理特征[3,6,14]。為了更好地了解遺傳拷貝數多態性(CNPs)在確定疾病表型中的作用,需要對CNPs進行系統的定位和分類。在癌癥樣本中體細胞拷貝數畸變的鑒定可能導致重要癌基因或腫瘤抑制基因的發現。由于現有技術在評估拷貝數變異(CNV)方面的顯著能力,最近研究界對研究可遺傳的以及體細胞CNV產生了極大的興趣[1,3,4,6,14,16,23]。
????????一般來說,CNV檢測基本上有三種技術平臺:基于陣列的技術(包括陣列比較基因組雜交(aCGH)[13,20],以及許多其他變體),單核苷酸多態性(SNP)基因分型技術[1,14]和下一代測序技術[2]。基于陣列的技術測量疾病/測試樣品相對于正常/參考樣品的DNA拷貝數改變。原則上,對于每個基因(或基因組片段),每個個體從其父親繼承一個拷貝,從其母親繼承一個拷貝。副本總數為兩份。然而,當個體中存在拷貝數突變時,拷貝總數可能是1(即,缺失),或三個或更多。對于每個DNA片段或“克隆”,aCGH可以間接測量通過熒光強度的拷貝數,通過熒光強度的拷貝數,它代表與片段雜交的DNA的豐度。測試和參考樣品的強度比,以對數標度測量,預計與測試樣品相對于參考樣品(假設有兩個拷貝)的拷貝數變化成比例,盡管在該過程中可能會從各種來源引入顯著的噪聲。基于陣列的技術主要用于大片段的擴增和缺失,盡管不同的實驗平臺和使用不同大小克隆的設計可能會產生非常不同的分辨率和基因組覆蓋率[14]。其他兩個平臺,SNP基因分型和下一代測序,使用不同的技術來測量拷貝數的變化,并在近年來得到普及[2,17]。本章主要介紹aCGH數據分析。
????????不同的平臺有不同的挑戰。自然,人們應該通過利用不同數據集的特殊屬性來為這些平臺使用不同的方法。毫不奇怪,近年來已經提出了各種算法用于不同的數據。另一方面,所有這些研究的主要目標是鑒定共享相同拷貝數的連續片段集。因此,處理來自不同平臺的數據的基本計算任務是相同的:將基因組分割成具有相同拷貝數的離散區域。完成上述分割步驟后,將為每個片段分配一個拷貝數。后一項任務被稱為“分類”。對來自不同平臺的數據進行分割的一個重要共性是克隆之間的空間相關性。許多現有的方法已經利用了這樣的屬性,通過利用相同的方法,隱馬爾可夫模型(HMM),它可以方便地使用鏈結構建模空間依賴。結果表明,HESTERN的初步成功[1,4,16,23]。然而,所有這些障礙都有一個繼承的限制,即,它們都是一階Hynst,不能考慮長程相關性。
????????已經證明,在各種領域,條件隨機ELD(CRF)始終優于HALTH,主要是因為CRF可以潛在地整合數據中的所有信息[21]。這一特性使得CRF對CNV模型數據特別有吸引力,因為人們可以使用來自一個區域的數據來定義特征函數,而不是使用單個或兩個數據點來定義Hyndrome中的排放和轉換。我們提出了一種基于CRF的新型無向圖形模型,用于aCGH數據的CNV檢測[25]。我們的模型有效地結合了數據預處理,分割和拷貝數狀態解碼到一個統一的艾德框架。我們的方法(稱為CRF-CNV)在定義有意義的特征函數方面提供了很大的靈活性,因此它可以有效地將任意大小的局部空間信息集成到模型中。對于模型參數估計,我們采用了共軛梯度(CG)方法進行似然優化,并在CG框架內開發了有效的前向/后向算法。拷貝數解碼的最后一步是基于Viterbi算法。該方法使用真實的數據與已知的拷貝數以及模擬數據與現實的假設進行評估,并與兩個流行的公開可用的程序進行比較。實驗結果表明,CRF-CNV優于基于貝葉斯隱馬爾可夫模型的方法在兩個數據集的拷貝數分配。當與非參數方法相比時,CRF-CNV在真實的數據上實現了更高的精確度,同時保持了相同的召回水平,并且當應用于模擬數據時,兩種方法的性能相當。
????????本章的其余部分組織如下。在第16.2節中,我們簡要概述了aCGH數據和從aCGH數據中檢測CNV的現有方法。關于CNV的CRF模型開發和實施的詳細信息見第16.3節。我們在兩個數據集上的實驗結果以及與其他程序的比較見16.4節。我們將在16.5節進行一些討論,以此結束本章。
16.2 aCGH數據和分析
16.2.1 aCGH數據
????????雖然從理論上講,我們的方法可以應用于不同實驗平臺的數據,但在本分析中,我們主要關注aCGH數據。在數學上,aCGH數據通常由一組克隆的log 2強度比的陣列以及每個克隆沿基因組沿著的物理位置組成。這里,每個克隆是陣列中的一個數據點,所有克隆根據它們在基因組上的物理位置排序。圖16.1繪制了人癌細胞系和Snijders等人分析的正常參考DNA [18]。每個數據點代表一個基因組區段/克隆,y軸代表標準化的log 2強度比。基于aCGH的CNV檢測的主要目標是將基因組分割成共享相同平均log 2比率模式的離散區域(即,具有相同的拷貝數)。在來自人類的正常樣本中,所有常染色體的拷貝數通常為2。理想地,如果測試樣品(例如,一個癌細胞系)也有兩個DNA拷貝,如果它有一個單拷貝的增加(或單拷貝的丟失),那么這個值應該是0.585(或-1),等等。圖16.1中的虛線從下往上分別表示一個、兩個和三個拷貝的三個值。一種直接的方法是使用一些全局閾值來基于其log 2比率為每個克隆分配拷貝數。然而,如圖16.1所示,aCGH數據可能非常嘈雜,不同片段之間的邊界模糊。它還可能具有復雜的局部空間依賴結構。這些屬性使得分割問題本質上很難。使用全球閾值的方法在實踐中通常效果不佳。
16.2.2現有算法
????????通常,需要許多步驟來檢測aCGH數據的拷貝數變化。首先,原始log2比率數據通常需要一些預處理,包括歸一化和平滑。標準化是減少實驗因素引起的系統誤差的必要步驟。通常,輸入數據通過利用測試和參考DNA中沒有差異的一些對照數據集進行歸一化。標準化的目的是使對照數據集中的中位數或平均log2比值為0。平滑用于減少由于隨機誤差或突變而產生的噪聲。平滑方法通常使用滑動窗口來過濾數據,試圖在處理突然變化和減少隨機誤差的同時對數據進行曲線處理。除了基于滑動窗口的方法之外,還提出了幾種其他技術,包括分位數平滑,小波平滑等(參見[5,8])。
????????分析aCGH數據的第二步稱為分段,其目的是識別具有相同平均log 2比的分段。概括地說,有兩個相關的估計問題。一是推斷變異的數量和統計意義;二是準確定位變異的邊界。因此,針對這兩個估計問題,提出了幾種不同的算法。Olshen等人[12]提出了一種基于遞歸循環二進制分割(CBS)算法的非參數方法。Hupe等人[9]提出了一種稱為GLAD的方法,該方法基于中值絕對偏差模型,將離群值(數值上與其余數據相距甚遠的觀測值)與其周圍的分段分離。Willenbrock和Fridlyand [24]使用真實的模擬模型比較了CBS(在DNACopy中實現)和GLAD的性能,得出的結論是,CBS總體上優于GLAD。在我們的實驗研究中,我們采用了文獻[24]中的模擬模型。在獲得分割結果之后,需要后處理步驟來聯合收割機具有相似平均水平的分割,并將其分類為單拷貝增益、單拷貝丟失、正常、多拷貝增益等。諸如GLADMerge [9]和MergeLevels [24]的方法可以對分割結果進行后處理,并相應地對它們進行標記。
????????正如Willenbrock和Fridlyand [24]所指出的,同時執行分割和分類更可取。合并這兩個步驟的一個簡單方法是使用線性鏈HMM。潛在的隱藏狀態是真實的拷貝數。給定一個狀態,log 2比率可以使用高斯分布來建模。從一種狀態到另一種狀態的轉變揭示了相鄰克隆之間拷貝數變化的可能性。給定觀察到的數據,標準算法(前向/后向,Baum-Welch和Viterbi)可以用來估計參數和解碼隱藏狀態。近年來,針對aCGH數據提出了幾種HSPs變體[7,16]。Lai等人。[11]已經表明,在給定足夠的信噪比的情況下,Hynomial對小像差的表現最好。Guha等人。[7]提出了一種貝葉斯HMM,可以對參數施加生物學意義的先驗。Shah等人。[16]通過引入離群值和位置特異性先驗,擴展了貝葉斯HMM,可用于對遺傳拷貝數多態性進行建模。
????????請注意,所有這些模型都是一階Hynomial,無法捕獲長期依賴性。直觀地說,考慮高階HHT來捕獲信息局部相關性是有意義的,這是從aCGH數據觀察到的重要屬性。然而,考慮更高的階數將使HISTORY更加復雜和計算密集。
16.3 aCGH數據的線性鏈CRF模型
????????為了克服障礙的局限性,我們提出了一個基于線性鏈條件隨機場(CRF)理論的新模型[10,21]。CRF是無向圖模型,設計用于計算給定輸入變量X的輸出隨機變量Y的條件分布。術語“隨機場”,相當于圖論中的“馬爾可夫網絡”,已廣泛應用于統計物理和計算機視覺。CRF也被稱為條件馬爾可夫網絡[22]。因為CRF是條件模型,變量X之間的依賴關系不需要明確指定艾德。因此,可以通過使用輸入變量X來定義有意義的特征函數,這些特征函數可以有效地捕獲局部空間依賴性。CRFs已被廣泛應用于語言處理、計算機視覺和生物信息學,與包括HPLF在內的有向圖模型相比,具有顯著的性能。
一般來說,線性鏈CRF(見圖16.2)被定義為條件分布。
其中:
16.3.1特征函數
16.3.2參數估計
邊緣分布可以通過組合前向和后向變量獲得:
16.3.3評價方法
16.4實驗結果
16.4.1真實樣本
16.4.2模擬數據
盡管真實數據的結果顯示,當匹配范圍指數放寬到2時,CRF-CNV的性能優于CBS,并且與CNA-HMMer相當,但由于數據集規模非常小,實驗是有限的。為了進一步評估CRF-CNV的性能,我們使用從文獻[24]獲得的模擬數據集測試了這三種算法。數據集由500個樣本組成,每個樣本有20條染色體。每條染色體包含100個克隆。每個克隆可能受到六種可能的拷貝數狀態的影響。作者通過從原發性乳腺腫瘤組織的數據庫中采樣片段,并使用幾種機制(例如,每個樣本中癌細胞的比例,給定拷貝數狀態下強度值的變化)來控制噪聲水平,從而生成這些樣本。通過使用文獻中的模擬數據,我們進一步評估了CRF-CNV的性能。
為了訓練CRF-CNV,我們像往常一樣將500個樣本分為三組。這次,訓練集第1組包含樣本1-50,驗證集第2組包含樣本51-100,測試集第3組包含樣本101-500。我們使用了之前討論的相同網格搜索方法來獲取超參數{aj}、u和σ^2。對于每組固定的超參數,我們使用CG方法來獲取參數θ。最后,我們使用Viterbi算法來解碼第3組樣本中可能的隱藏拷貝數狀態標簽,并與CNA-HMMer和CBS的結果進行比較。此外,我們還比較了CRF-CNV對第2組和第3組的預測,以查看在新的測試數據下,我們的模型可能會因為從小樣本中推斷出的次優參數而遭受多大的性能下降。為了便于比較,CBS和CNA-HMMer的結果分別針對這兩組進行了展示。我們還使用第1組作為訓練數據,為CNA-HMMer分配信息性先驗。
表16.3顯示了CRF-CNV、CBS和CNA-HMMer分別預測的第2組和第3組的段數總和,并將其與已知的段數總和進行了比較。有趣的是,對于這個模擬數據,CBS和CNA-HMMer預測的段數都較少。CRF-CNV在第2組預測的段數較少,而在第3組預測的段數較多。然而,段數并不能提供完整的情況。因此,我們使用F-measure來檢查每種方法在第2組和第3組的邊界預測準確性。表16.4顯示了不同方法、不同組別和不同匹配范圍的F-measure。正如預期的那樣,隨著D從0增加到4,所有方法和兩個數據組的F-measure都有所增加。CBS在第2組和第3組的結果一致,CNA-HMMer在第2組和第3組的結果也一致,這并不奇怪。有趣的是,CRF-CNV在第3組的性能也非常接近其在第2組的性能。這個特性是理想的,因為它說明了CRF-CNV的穩健性。新測試數據的性能幾乎與用于選擇最佳模型參數的驗證數據的性能相同。請注意,訓練數據和驗證數據的大小也非常小。可以預期,在小規模訓練數據集的情況下,我們的方法可以可靠地預測在相同實驗條件下生成的其他數據。就三種方法的性能而言,CNA-HMMer比CRF-CNV更準確,而CBS在完全匹配的情況下表現最差。然而,當我們通過增加D的值來放寬匹配標準時,CBS和CRF-CNV都比CNA-HMMer表現得更好。CNA-HMMer和CRF-CNV的結果與真實數據的結果一致。CBS的性能明顯高于真實數據觀察到的性能。然而,這可能歸因于模擬過程,因為CBS被用來分割來自原發性乳腺腫瘤數據集的145個樣本[24]。
16.5結論
近年來,檢測拷貝數變異的問題引起了廣泛關注,并提出了許多計算方法來解決這一問題。在這些計算發展中,CBS獲得了極大的流行,并且已被證明在模擬數據上通常比其他算法表現更好[24]。然而,正如原始論文(以及我們的實驗重新發現的)所示,CBS在標準的Coriell數據集中通過光譜核型分析識別的拷貝數變化上報告了更多的假陽性[18]。另一種常用的分割技術是隱馬爾可夫模型(HMM)。HMM方法的優勢在于能夠在一個框架內執行參數(即均值和方差)估計和拷貝數解碼,并且隨著觀察次數的增加,其性能有望提高。然而,幾乎所有專門用于aCGH的HMM都是一階馬爾可夫模型,因此無法在數據中納入長距離空間相關性。
我們提出了一種基于條件隨機場理論的新計算模型。我們的模型在定義任意鄰域上的有意義特征函數方面提供了極大的靈活性。因此,可以納入更多的局部信息,并期望得到更穩健的結果。在本章中,我們使用能夠將平滑有效地納入我們統一框架的穩健充分統計量定義了特征函數。我們還開發了在共軛梯度方法內的有效前向-后向算法,用于高效計算模型參數。我們使用真實數據以及模擬數據評估了我們的方法,結果表明,當允許小的偏移時,我們的方法在兩個數據集上的表現都優于貝葉斯HMM。與CBS相比,我們的方法在真實數據集上的假陽性更少。在模擬數據集上,我們方法的性能與CBS相當,CBS已被證明是三種流行的分割方法中最好的。
與其他條件隨機場(CRF)類似,為了訓練我們的模型,必須依賴一些訓練數據。為了實用,像CNA-HMMer這樣的貝葉斯隱馬爾可夫模型(HMM)也需要訓練數據來正確分配信息性先驗。我們認為這個問題并不像最初看起來那么嚴重,主要有兩個原因。首先,正如我們的實驗所示,我們的算法確實非常穩健,即使找不到模型參數的最佳估計,也能持續表現良好。例如,我們在模擬數據集的分析中使用了一種簡化的程序,通過隨機選擇一個子集進行訓練。從理論上講,從這種程序估計的參數可能嚴重依賴于這個特定子集,并且不一定全局最優。然而,表16.4中顯示的結果表明,新測試數據的性能幾乎與用于調整參數的驗證數據相同。目前正在進行10折交叉驗證以進一步驗證這一觀察結果。此外,我們的算法所需的訓練規模非常小,這從真實數據和模擬數據中都可以看出。我們的算法在Coriell數據上報告的段數沒有假陽性的主要原因是我們通過訓練學習了數據中的結構。CNA-HMMer有無訓練數據時性能的顯著差異也支持這一觀察結果。其次,確實存在一些經過實驗驗證的數據(如Coriell數據集)。隨著時間的推移,預計會有越來越多的此類數據,因為最終,對于任何預測方法,都必須通過實驗驗證其中的一些預測。此外,我們方法的穩健性表明,我們可能只需要為每個特定平臺訓練我們的算法。然后可以將這些參數用于同一平臺上生成的未來數據。
在計算成本方面,CRF-CNV有兩個獨立的部分:訓練時間和預測時間。訓練需要密集的計算來優化對數似然并確定超參數。此外,還可以執行k折交叉驗證,這將需要更多的計算時間。相比之下,一旦參數被估計,預測階段就相當高效。幸運的是,我們算法的訓練階段只需要一個小數據集,這使得算法仍然具有實用性。我們的算法的可能擴展和應用可以應用于其他高通量技術以檢測拷貝數變化。
參考文獻
略