基因組學系列3：基因分型Phasing與單倍型參考序列HRC

1. 基因分型Phasing概念

基因分型，也稱為基因定相、單倍體分型、單倍體構建等，即將一個二倍體（或多倍體）基因組上的等位基因（或雜合位點）正確定位到父親或母親的染色體上，最終使得來自同一親本的等位基因能排列在同一條染色體上。

二代測序是將序列混在一起進行測序，通過比對到參考基因組，檢測存在哪些變異以及變異的基因型（Genotype），但無法直接區分序列是母源還是父源，只有通過基因分型才能判斷親本來源。

2. 基因分型的方法

家系分型和LD分型常用的工具有Beagle和Shapeit，都包含了家系分型和LD分型模塊。

2.1 家系分型

家系分型是目前構建單倍型最準確的方法，家系樣本越多，分型效果越好，缺點就是需要家系Trio樣本，對于無法獲取家系樣本時則無法完成分型，并對于父親、母親和子女都是雜合的位點無法進行分型（大約占總變異位點的1/5）。

2.2 LD分型

利用群體中大量無血緣關系的個體，根據LD（連鎖不平衡）原理和數據模型，推斷群體中每個個體的單倍型方法。通過人群頻率大于5%的變異存在的LD block（Tajima’s D > 0.5）長度大多為50kbp-60kbp，block的長度在不同人種中不相同，非洲人由于更古老因此姐妹染色單體發生重組的次數會更多，LD block相比于其他人種長度更短。由于LD block的存在，因此可以利用數學模型（如HMM算法）反推出個體的單倍型。

LD分型精度受到群體的影響，對于人群頻率大于5%的變異分型效果很好，但對于罕見變異和低頻變異（<1%）的效果較差，因此很難獲得個體完整的單倍型。

2.3 物理分型

一條reads/一對reads或克隆上存在的堿基必定來自同一條染色體，每個片段就是單倍體的局部，將局部連接為整體即可完成Phasing。物理分型不需要家系數據，無需借助LD關系，僅依賴自身的測序數據，就可以完成Phasing。物理分型依賴于reads上的雜合SNP位點作為區分標記，由于人類基因組雜合SNP之間的距離大約為1.5kpb，因此需要長序列的測序技術（三代PacBio、ONT和華大Long Fragment Read-LFR等）獲取測序數據。

3. 遺傳解讀中的應用

在遺傳解讀時，需要獲取基因突變位點的相位后，才能更好地判斷突變是否會產生對應的表型。當一個等位基因的一個拷貝發生了變異（例如LOF，功能缺失或缺失等），由于存在另一個拷貝，基因表達可能不會受到影響，從而不具有表型，只有當兩個拷貝都發生變異時，才影響基因的表達從而產生表型。

4. 人類單倍型參考序列Reference Consortium（HRC）

基因型推斷（Imputation）

需要單倍型參考序列集作為基礎數據，在全基因組關聯分析GWAS中是必要的環節，參考基因序列的質量直接影響了后續基因型-表型關聯分析的結果。

HRC是一個大型的人類單倍型參考序列，合并了多個項目的測序數據。全基因組SNP微陣列芯片獲得樣本基因型后，可使用該單倍型參考基因組進行基因型的推斷（或稱為填充）和定相，GWAS研究中運用較為常見。截止到2024年7月，HRC包含了64，976個人類單倍型和39，235，157個SNP。相比于1000G、UK10K數據庫，采用HRC單倍型數據庫基因型填充的準確率更高。

準確率比較

目前提供網頁版的免費的基因型推斷和定相服務-Sanger Imputation，網址如下：
https://www.sanger.ac.uk/tool/sanger-imputation-service/

基因型推斷的工具網站：
https://imputation.sanger.ac.uk/

sanger網站需要上傳VCF或23andMe格式的GWAS數據，預定相可選擇EAGLE2或SHAPEIT 2，基因型推斷PBWT算法，參考panels可選擇1000 Genomes Phase 3, UK10K和 the Haplotype Reference Consortium。

https://imputationserver.sph.umich.edu/

Imputation

HRC 只公開了部分數據提供下載，通過Request Access下載，鏈接如下：

https://ega-archive.org/datasets/EGAD00001002729

HRC DATA

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/41010.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/41010.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/41010.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！