論文閱讀(八)：結構方程模型用于研究數量遺傳學中的因果表型網絡

1.論文鏈接：Structural Equation Models for Studying Causal Phenotype Networks in Quantitative Genetics

摘要：

表型性狀可能在它們之間發揮因果作用。例如，農業物種的高產可能會增加某些疾病的易感性，相反，疾病的發生率可能會對產量產生負面影響。同樣，轉錄組可能是植物和動物的生殖狀態或發育階段的函數，這也可能取決于其他生理變量。描述這種相互關系的表型網絡的知識可用于預測復雜系統的行為，例如，疾病、生長和繁殖等復雜性狀的生物學途徑。本章綜述了結構方程模型及相關技術在數量遺傳學中表型性狀間因果關系研究中的應用。它討論了遺傳因素如何混淆因果關系的搜索，以及如何系譜和基因組信息可以用來控制這種混淆效應，并幫助因果推理。

關鍵詞：結構方程模型，數量遺傳學，因果表型

表型性狀可能在它們之間發揮因果作用。例如，農業物種的高產可能會增加某些疾病的易感性，相反，疾病的發生率可能會對產量產生負面影響。同樣，轉錄組可能是植物和動物的生殖狀態或發育階段的函數，這也可能取決于其他生理變量。描述這種相互關系的表型網絡的知識可用于預測復雜系統的行為，例如，疾病、生長和繁殖等復雜性狀的生物學途徑。本章回顧了結構方程模型（SEM）和相關技術在數量遺傳學中研究表型性狀間因果關系的應用。它還討論了遺傳因素如何混淆因果關系的搜索，以及如何使用系譜和基因組信息來控制這種混淆效應并幫助因果推理。

8.1介紹

表型性狀可能在它們之間發揮因果作用。例如，農業物種的高產可能會增加某些疾病的易感性，相反，疾病的發生率可能會對產量產生負面影響。同樣，轉錄組可能是植物和動物的生殖狀態或發育階段的函數，這也可能取決于其他生理變量。描述這種相互關系的表型網絡的知識允許預測復雜系統的行為，與疾病、生長和繁殖相關的復雜性狀的生物學途徑。

結構方程模型（SEM）可用于研究多變量系統（如遺傳基因組學、系統生物學和數量遺傳學中的多性狀模型）中表型之間的遞歸和同步關系。因此，SEM可以對性狀之間的關系做出與傳統多性狀模型不同的解釋，其中所有關系都由隨機變量之間的對稱線性關聯（例如協方差和相關性）表示。

本章綜述了掃描電鏡和相關技術在多表型研究中的應用。此外，它還討論了如何利用DNA多態性和譜系信息來輔助因果推理，通過利用孟德爾隨機化的概念，并通過解釋混淆的遺傳效應。本章的組織結構如下。在第8.2節中，回顧了數量遺傳學中常用的用于研究多性狀的經典線性混合效應模型。接下來，在第8.3節中，混合模型被擴展以適應使用結構方程模型的表型性狀之間的函數關系。在第8.4節中，提出了一種通用的數據驅動方法來搜索表型因果關系，在第8.5節中，討論了如何利用基因組信息來幫助因果推斷，以及如何使用系譜或分子標記數據來減輕與多效多基因效應相關的混淆效應。最后，提供了一個帶有結論性意見的最后部分。

8.2數量遺傳學中的經典線性混合效應模型

混合模型為數據分析提供了一種靈活的工具，其中響應圍繞具有隨機偏離的一些平均值進行聚類，使得同一聚類中的觀測之間存在自然的依賴性，例如，家庭成員的遺傳學研究。在數量遺傳學中，特別是在動物和植物育種應用中，混合模型通常用于估計環境效應，遺傳參數和與相關個體測量的表型性狀相關的方差分量。它們在這一領域的受歡迎程度來自于它們處理復雜譜系、不平等家庭規模、世代重疊、性別限制性狀、選擇性交配和自然或阿爾蒂社會選擇的靈活性[29，15]。在本節中，我們將簡要回顧混合模型，并討論它們在動物（和植物）育種中的一些應用。

8.3混合效應結構方程模型

8.4表型因果關系的數據驅動搜索

8.4.1總體概述

正如[12]，[52]和[46]所指出的，混合效應SEM在數量遺傳學中的應用并不像經典的MTAM那樣簡單。使用前一種模型意味著至少要應對兩個額外的挑戰：（1）模型參數的可識別性，以及（2）因果結構的選擇。

如前所述，MTAMs被認為是飽和模型，這意味著它們有足夠的色散參數來完美地消除任何聯合分布。混合效應SEM的一個特征是它潛在地呈現了也與MTAM有關的每一個離散參數，但是為了表示表型之間的因果關聯的大小，增加了更多的參數，這是協變的額外來源。這一特性導致模型過度識別，因此根據SEM的參數加載情況，它們的估計量可能無法從似然函數中識別。出于這個原因，模型限制對于SEM是必要的。這可以通過不同的方式來實現，從貝葉斯分析中使用適當的先驗分布的參數收縮到模型中涉及的變量之間的一些條件獨立性的假設[12，48]。

如果有任何利益的因果解釋的SEM被tetted，那么所應用的限制必須反映先驗的因果知識/假設。如前所述，最常見的參數限制是將SEM的殘差協方差矩陣視為對角線，這對于設置非循環SEM是一個足夠的限制。圖8.3說明了圖8.2所示結構的這種限制。幸運的是，這種限制反映了一些方法所采用的因果假設，這些方法解決了在數量遺傳學中實施SEM的第二個挑戰：尋找因果結構。接下來提供對問題和執行該搜索的方法的理論基礎的概括描述。

如前所述，SEM是在因果結構上有條件地呈現的，因此建立一個表達變量之間因果關系的模型需要選擇這樣的結構中的先驗結構。這種選擇可能是復雜的，因為結構的空間通常太大，即使在研究幾個性狀時也不允許進行詳盡的比較。此外，隨著研究的性狀數量的增加，其數量也會爆炸性地增長[42]。在隨后的混合效應SEM的應用中[12]，這種選擇通常是基于先驗知識/信念做出的，這可能被認為是對可能結構集的次優探索。盡管如此，已經開發了一些算法，以允許基于多變量樣本和一組因果關系假設的因果關系理論[31，44]進行這種探索。在這里，我們專注于尋找非循環因果結構。接下來定義了一些術語來支持所涉及的概念的表達。

在Pearl [31]之后，具有非循環因果結構和獨立殘差的SEM等因果模型被稱為馬爾可夫模型。因果馬爾可夫條件指出，馬爾可夫因果模型誘導滿足馬爾可夫相容性的分布，這保證了因果結構和聯合分布之間的連接，允許對結構進行數據驅動的搜索。這樣的條件意味著假設不存在因果地影響分析變量集合中的兩個或更多個變量的變量，這些變量不在集合中，即，因果關系假設[44]。這些概念是必要的，以保證因果結構中的每一個d-分離都被認為是抽樣分布中穩定的條件獨立性。因果關系假設通常被認為是一個強有力的假設，但這同樣適用于具有獨立殘差的SEM，這是SEM應用的流行模型限制。此外，在大多數這些應用中，假設已知的因果結構，如果使用搜索算法，則情況并非如此。

搜索算法的其他典型假設是忠實性（由于參數值的不可能組合而不存在不穩定的條件獨立性），整個人群的同質因果結構和正確的統計決策[44]。

8.4.2搜索算法

8.5遺傳學應用中的因果結構推斷

8.5.1作為工具變量的基因型信息

IC算法和上面討論的相關方法適用于許多不同的背景下，以進一步我們對變量之間的函數關系和因果關系的理解。特別是在遺傳學的背景下，這樣的算法和方法也可以貝內于分子生物學知識，即信息（以及因果效應）從基因到表型的流動。此外，正如托馬斯和孔蒂[45]所指出的，分離天然存在的等位基因變體的遺傳隨機化實驗群體可以為推斷變量之間的因果關系網絡提供基礎，如遺傳位點（或基因），生理表型和疾病狀態。特別是，在減數分裂期間發生的等位基因的隨機化（通常稱為孟德爾隨機化）提供了類似于隨機化實驗設計的設置[36]。

在這種背景下，許多作者利用孟德爾隨機化的概念來探索表型性狀之間的因果關系。例如，[38]提出了一種方法來推斷因果路徑，涉及三個變量：特定基因的表達，特定基因座上的遺傳多態性和復雜性狀（例如，疾病特征）。考慮了三種可能的結構，它們被稱為因果模型、反應模型和獨立模型。提出了一種基于似然性的因果模型選擇方法，該方法使用條件相關測量來確定數據最支持的三個變量之間的關系。然而，他們的程序僅限于簡單的基因表型網絡與三個節點，集中在識別基因的cathet-reactive間隔。

Schadt方法的擴展[38]由Li等人提出。[26]，他提出了一種SEM方法來分析多位點，多性狀遺傳數據，以及它們之間的不同潛在因果關系。他們的方法包括五個步驟，從一系列數量性狀基因座（QTL）基因組掃描開始，對每個個體表型進行邊緣掃描，然后是使用一個性狀作為協變量進行的條件基因組掃描。無條件掃描和有條件掃描結果之間的比較可以首次洞察表型之間的因果關系。第三步是指構建初始路徑模型及其相應的SEM表示。在路徑模型構建之后，通過比較預測和觀察到的協方差矩陣以及對單個路徑系數進行顯著性檢驗來評估它們的優度。最后，通過提出和評估替代模型來執行額外的步驟來重新構建模型，這些替代模型是通過在初始模型中添加或刪除邊緣或通過反轉邊緣的因果方向來生成的。

Chaibub Neto等人[1]也使用QTL信息定位連接表型的邊緣，提出了一種包括兩個主要步驟的方法。首先，使用無向依賴圖[42]或從Spirtes等人的PC算法導出的骨架構建關聯網絡。[44]。其次，使用對數比值比（LOD）得分檢驗來確定連接一對表型，條件QTL的表型。作者使用模擬研究評估了他們的方法的性能，表明它可以恢復網絡邊緣并以高速率正確推斷其因果方向。

Chaibub Neto等人[1]提出的方法依賴于有關影響感興趣表型性狀的QTL的可靠信息的可用性。然而，如Chaibub Neto等人[2]所討論的，傳統的QTL定位方法基于單性狀分析，其中沒有考慮表型之間的網絡結構。這種單性狀分析可以檢測直接影響每個表型的QTL，以及具有間接效應的QTL（相對于所分析的性狀集），其直接影響所分析的特定表型上游的表型。因此，傳統的QTL作圖方法忽略了表型網絡，導致表型的遺傳結構估計不佳，這可能會妨礙關于表型之間因果關系的正確推斷。

鑒于傳統QTL分析和表型網絡重建方法的這一缺點，Chaibub等人[2]提出了一種同時推斷因果表型網絡及其相關遺傳結構的方法。他們的方法是基于聯合建模表型和QTL使用齊次條件高斯回歸模型和模型等效性的圖形標準。利用減數分裂過程中等位基因隨機化的概念和基因型與表型的單向關系來推斷具有表型因果效應的QTL。伴隨著，表型之間的因果關系推斷探索QTL節點，這可能使得有可能區分表型網絡，否則將分布等效。

8.5.2多基因混雜效應的解釋

在前一節中討論的表型網絡重建方法依賴于關于影響表型的QTL的信息，或者依賴于遺傳標記信息的可用性，用于關于表型網絡和遺傳結構的聯合推斷。然后，QTL被用作推定網絡上的親本節點，促進對網絡其余部分的推斷，例如建立表型性狀之間的因果關系。

然而，即使遺傳標記信息不可用，SEM相關技術仍然可以用于數量遺傳學研究表型性狀之間的功能關系。如第8.3節所述，混合效應模型設置中的SEM適應通常應用于數量遺傳學[12]，此后許多研究不同物種和表型性狀的研究人員都應用了SEM。然而，在這樣的應用中，因果結構被假定為先驗已知的（例如，[7，20]），或者僅比較使用一些現有知識選擇的幾個推定結構（例如，[3、4、48、51]）。盡管如此，可以認為，即使沒有關于QTL的信息，也可以使用數據驅動的算法來推斷（至少部分地）表型性狀之間的因果關系，該算法搜索因果結構，如第8.4節所示。

這方面的一個困難，正如Valente等人所指出的。[46]，在混合效應SEM中（如Gianola和Sorensen [12]所提出的），觀察到的性狀之間的關聯不僅可以通過它們之間的因果聯系來解釋，而且可以通過遺傳原因來解釋，即使殘差被假設為獨立的。因此，考慮獨立殘差不足以保證因果結構與表型聯合分布之間的聯系。在這種情況下考慮的未觀察到的相關遺傳效應可能會混淆因果結構搜索，如果一個人試圖執行它的基礎上的聯合分布的表型。

8.6總結

雖然SEM可以被解釋為一個因果模型，因此它可以用來表達表型性狀之間的因果關系，但SEM的因果結構可能無法正確反映模型性狀之間的實際因果關系。此外，通過研究觀測數據，推斷因果結構是一項比僅僅通過建立多變量模型來描述數據的聯合分布要困難得多的任務。在這種情況下，只有當人們愿意接受因果假設時，應用IC算法和相關技術才可以被認為是因果結構推斷。如果假設被認為是太強，這樣的算法仍然可以應用于探索空間的因果結構的SEM構造與對角殘差協方差矩陣。盡管如此，后者的應用仍然可能產生有趣和有用的結果。一些因果學習并不需要所有上述假設。以Valente等人[47]獲得的圖8.4所示的結構為例。即使人們不愿意假設因果關系，也可以根據因果馬爾可夫條件并通過確認有關35天體重的時間序列信息，第一個雞蛋的年齡和雞蛋產量的因果影響。此外，這些方法的應用程序是有用的因果關系的假設為隨后的研究和調查的發電機。然后，可以使用其他研究中收集的額外數據來支持或駁回這些假設，或者可以通過受控干預進行實驗測試。然而，在許多情況下，由于邏輯或倫理約束，隨機實驗是不可行的，因此觀察數據是關于所研究系統的唯一可用信息。在這種情況下，SEM和因果搜索工具，如IC算法是方便的。

特別是在遺傳學和基因組學研究中，因果推理受到孟德爾隨機化概念的幫助[45]，其中等位基因變體在減數分裂期間隨機分配給合子，并最終從父母傳遞到O spring，類似于隨機實驗設計。將SEM相關方法應用于多性狀QTL分析和基因定位，不僅通過打破不同因果結構之間的統計等效性來改善對表型之間因果關系的推斷，而且還提高了檢測能力和估計精度，并具有區分QTL對每個性狀的直接和間接遺傳效應的額外優勢[2]。此外，在遺傳學研究中，可以使用例如基因敲除或敲低技術來最終測試推定的致病突變。除了DNA多態性信息和關于基因或QTL的知識可以用作表型網絡重建中的親本節點之外，轉錄組、代謝組和蛋白質組等多層大規模組學數據的聯合分析當然可以提供額外的信息并增強推斷因果表型關系的能力，盡管它也帶來了另一個統計、計算、數據挖掘的挑戰[22]此外，結構和功能數據，如基因序列、基因定位、轉錄結合位點、基因本體（GO）和代謝途徑等，也可用于驗證和測試推定的基因和表型網絡[22]。這些數據也可以用作先驗信息來幫助網絡推理，與它已經用于其他組學應用（如微陣列數據）的方式相同[37]。

SEM還應用于系譜信息可用但QTL或任何基因組信息不可用的情況[12]。如前所述，這種建模方法允許對性狀之間的關系進行不同的解釋，相對于傳統上用于動物育種的標準多性狀模型。在經典模型中，所有的關系都被認為是性狀之間的對稱線性關聯。在大多數混合效應SEM的應用中，先驗信念被用作指定因果結構的基礎，或者用于選擇使用傳統模型選擇技術進行比較的幾個結構。或者，可以在混合模型和定量遺傳學的背景下對遞歸因果結構進行更廣泛的數據驅動搜索[46]。為了控制遺傳效應，這是在這種情況下尋找非循環因果結構所必需的，[46，47]應用了經典的單因素加性遺傳模型，該模型涉及從譜系信息構建的關系矩陣A。通過使用高密度分子標記數據（例如，SNP基因型）。在這種情況下，可以采用遺傳價值預測方法，例如貝葉斯回歸技術[11]或核方法[5]。

總之，SEM應用程序提供了額外的見解，并可能提出更豐富的表達的關系相比，標準模型的多個性狀。它允許對多個性狀上的多個基因座的多效和異質遺傳效應進行特異性表征，以及表型之間的因果關系，可用于預測復雜系統的行為，例如，疾病特征背后的生物學途徑。更具體地說，對于畜牧業應用，關于數量性狀遺傳分析中表型網絡的知識可能會改善外部干預的預測，這可能會導致更有效的育種計劃，并有助于涉及農場管理和獸醫實踐的決策。