基因組學系列3:基因分型Phasing與單倍型參考序列HRC

1. 基因分型Phasing概念

基因分型,也稱為基因定相、單倍體分型、單倍體構建等,即將一個二倍體(或多倍體)基因組上的等位基因(或雜合位點)正確定位到父親或母親的染色體上,最終使得來自同一親本的等位基因能排列在同一條染色體上

二代測序是將序列混在一起進行測序,通過比對到參考基因組,檢測存在哪些變異以及變異的基因型(Genotype),但無法直接區分序列是母源還是父源,只有通過基因分型才能判斷親本來源。

2. 基因分型的方法

家系分型和LD分型常用的工具有BeagleShapeit,都包含了家系分型和LD分型模塊。

2.1 家系分型

家系分型是目前構建單倍型最準確的方法,家系樣本越多,分型效果越好,缺點就是需要家系Trio樣本,對于無法獲取家系樣本時則無法完成分型,并對于父親、母親和子女都是雜合的位點無法進行分型(大約占總變異位點的1/5)。

2.2 LD分型

利用群體中大量無血緣關系的個體,根據LD(連鎖不平衡)原理和數據模型,推斷群體中每個個體的單倍型方法。通過人群頻率大于5%的變異存在的LD block(Tajima’s D > 0.5)長度大多為50kbp-60kbp,block的長度在不同人種中不相同,非洲人由于更古老因此姐妹染色單體發生重組的次數會更多,LD block相比于其他人種長度更短。由于LD block的存在,因此可以利用數學模型(如HMM算法)反推出個體的單倍型。

LD分型精度受到群體的影響,對于人群頻率大于5%的變異分型效果很好,但對于罕見變異和低頻變異(<1%)的效果較差,因此很難獲得個體完整的單倍型。

2.3 物理分型

一條reads/一對reads或克隆上存在的堿基必定來自同一條染色體,每個片段就是單倍體的局部,將局部連接為整體即可完成Phasing。物理分型不需要家系數據,無需借助LD關系,僅依賴自身的測序數據,就可以完成Phasing。物理分型依賴于reads上的雜合SNP位點作為區分標記,由于人類基因組雜合SNP之間的距離大約為1.5kpb,因此需要長序列的測序技術(三代PacBio、ONT和華大Long Fragment Read-LFR等)獲取測序數據。

3. 遺傳解讀中的應用

在遺傳解讀時,需要獲取基因突變位點的相位后,才能更好地判斷突變是否會產生對應的表型。當一個等位基因的一個拷貝發生了變異(例如LOF,功能缺失或缺失等),由于存在另一個拷貝,基因表達可能不會受到影響,從而不具有表型,只有當兩個拷貝都發生變異時,才影響基因的表達從而產生表型。

4. 人類單倍型參考序列Reference Consortium(HRC)

基因型推斷(Imputation)

需要單倍型參考序列集作為基礎數據,在全基因組關聯分析GWAS中是必要的環節,參考基因序列的質量直接影響了后續基因型-表型關聯分析的結果。

HRC是一個大型的人類單倍型參考序列,合并了多個項目的測序數據。全基因組SNP微陣列芯片獲得樣本基因型后,可使用該單倍型參考基因組進行基因型的推斷(或稱為填充)和定相,GWAS研究中運用較為常見。截止到2024年7月,HRC包含了64,976個人類單倍型和39,235,157個SNP。相比于1000G、UK10K數據庫,采用HRC單倍型數據庫基因型填充的準確率更高

準確率比較

目前提供網頁版的免費的基因型推斷和定相服務-Sanger Imputation,網址如下:
https://www.sanger.ac.uk/tool/sanger-imputation-service/

基因型推斷的工具網站:
https://imputation.sanger.ac.uk/

sanger網站需要上傳VCF或23andMe格式的GWAS數據,預定相可選擇EAGLE2或SHAPEIT 2,基因型推斷PBWT算法,參考panels可選擇1000 Genomes Phase 3, UK10K和 the Haplotype Reference Consortium。

https://imputationserver.sph.umich.edu/

Imputation

HRC 只公開了部分數據提供下載,通過Request Access下載,鏈接如下:

https://ega-archive.org/datasets/EGAD00001002729

HRC DATA

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/41010.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/41010.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/41010.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

相親交友APP系統婚戀交友社交軟件開發語音視頻聊天平臺定制開發-婚戀相親交友軟件平臺介紹——app小程序開發定制

互聯網飛速發展的時代&#xff0c;相親交友軟件成為了許多年輕人首選的相親方式&#xff0c;越來越多的單身男女希望在婚戀交友軟件平臺上尋找靈魂伴侶&#xff0c;相親交友軟件因此具有很高的市場價值。 多客婚戀相親交友系統是一款定位高端&#xff0c;到手就能運營的成熟婚戀…

軟件測評中心▏軟件驗收測試方法和測試內容簡析

在當今數字化轉型的浪潮下&#xff0c;軟件驗收測試變得越來越重要。軟件驗收測試&#xff0c;顧名思義&#xff0c;是對軟件進行驗收的過程中進行的一項測試。它用于確保軟件在滿足需求、達到預期效果后才能正式交付給客戶使用。軟件驗收測試是一項全面、系統的測試過程&#…

sublime 3 背景和字體顏色修改

sublime 4 突然抽風&#xff0c;每次打開都顯示 “plugin_host-3.3 has exited unexpectedly, some plugin functionality won’t be available until Sublime Text has been restarted” 一直沒調好&#xff0c;所以我退回到sublime 3了。下載好了軟件沒問題&#xff0c;但是一…

半導體光電

《半導體光電》創刊于1976年&#xff0c;是由中國電子科技集團公司主管、重慶光電技術研究所&#xff08;中國電子科技集團公司第四十四研究所&#xff09;主辦的中文科技期刊。本刊國內外公開發行&#xff0c;經過四十余年的發展已經成為我國光電子專業領域有代表性的刊物。 …

Zabbix 配置grafana對接

zabbix對接grafana簡介 Zabbix與Grafana對接可以實現更加豐富和美觀的數據可視化&#xff0c;可以讓您利用Grafana強大的可視化功能來展示Zabbix收集的數據。 zabbix插件的兩種安裝方式 使用grafana-cli 命令進行安裝在grafana管理頁面中進入Administration/Plugins and dat…

2024.7.4學習日報

1、ppt前三章 5日計劃 1、至少做到實驗 2、java

css中文字書寫方向

writing-mode 是 CSS 中的一個屬性&#xff0c;用于設置文本、內聯元素、表格單元格和表格列的書寫方向、文本排列以及塊流方向。以下是對 writing-mode 屬性的詳細介紹&#xff1a; 1. 語法和值 語法&#xff1a;writing-mode: horizontal-tb | vertical-rl | vertical-lr |…

在RT-Thread-Studio中添加arm_math庫

1.在CMSIS\Lib\GCC中找到對應的庫&#xff0c;如本文使用的libarm_cortexM4lf_math.a。將庫拷貝到工程&#xff0c;并做如下圖設置。搜索路徑為庫文件在項目中的實際位置。 2.將CMSIS\DSP\Include下的文件復制到工程目錄中&#xff0c;并添加包含路徑 3.添加宏定義&#xff0c…

Memcached緩存預熱深度解析:加速應用性能的秘訣

Memcached緩存預熱深度解析&#xff1a;加速應用性能的秘訣 在高性能計算環境中&#xff0c;Memcached作為一種廣泛使用的分布式內存緩存系統&#xff0c;其緩存預熱機制對于提升應用性能至關重要。緩存預熱可以減少系統啟動時的延遲&#xff0c;避免緩存未命中&#xff0c;從…

2806. 取整購買后的賬戶余額

2806. 取整購買后的賬戶余額 題目鏈接&#xff1a;2806. 取整購買后的賬戶余額 代碼如下&#xff1a; class Solution { public:int accountBalanceAfterPurchase(int purchaseAmount) {return 100-(purchaseAmount5)/10*10;} };

QTreeWidget的簡單使用

使用 QTreeWidget 實現復雜樹控件功能的詳細教程_treewidget 加控件-CSDN博客 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QTreeWidget> namespace Ui { class MainWindow; }class MainWindow : public QMainWindow {Q_OBJECTpu…

阿里巴巴Arthas分析調優JVM實戰及常量池詳解

目錄 一、阿里巴巴Arthas詳解 Arthas使用場景 Arthas命令 Arthas使用 二、GC日志詳解 如何分析GC日志 CMS G1 GC日志分析工具 三、JVM參數匯總查看命令 四、Class常量池與運行時常量池 字面量 符號引用 五、字符串常量池 字符串常量池的設計思想 三種字符串操作…

墨烯的語言技術棧-C語言基礎-005

在VS的安裝路徑下有一個文件: newcfile.cpp的文件 在VS工程中創建新的.c或者.cpp文件的時候,都是拷貝newcfile.cpp這個文件的! everything工具中 有一個newcfile.cpp 然后打開文件路徑在newcfile.cpp 添加#define _CRT_SECURE_NO_WARNINGS替換即可 五.變量的作用域(局部變量…

freemarker生成pdf,同時pdf插入頁腳,以及數據量大時批量處理

最近公司有個需求&#xff0c;就是想根據一個模板生成一個pdf文檔&#xff0c;當即我就想到了freemarker這個遠古老東西&#xff0c;畢竟freemarker在模板渲染方面還是非常有優勢的。 準備依賴&#xff1a; <dependency><groupId>org.springframework.boot</gr…

【IDEA】maven如何進行文件導入,配置并打包

一&#xff0c;介紹、安裝 1、maven介紹 maven是一個Java世界中&#xff0c;構建工具。 核心功能&#xff1a; (1) 管理依賴&#xff1a; 管理文件運行的順序邏輯依賴關系。對配置文件&#xff0c;進行構建和編譯。其也是在調用jdk&#xff0c;來進行編譯打包工作。 (2) 打…

JavaScript中的原型和原型鏈

一、原型&#xff1a;每個函數都有prototype屬性&#xff0c;稱之為原型&#xff0c;這個屬性也是個對象所以也稱之為原型對象。 1.原型可以放一些屬性和方法&#xff0c;供實例對象使用。 <body><script>const arr new Array(1,3,5,7,6)document.getElementByI…

Go語言--延遲調用defer、獲取命令行參數、局部變量以及全局變量

延遲調用defer 關鍵字 defer 用于延遲一個函數或者方法(或者當前所創建的匿名函數)的執行。注意&#xff0c;defer語句只能出現在函數或方法的內部。 defer 語句經常被用于處理成對的操作&#xff0c;如打開、關閉、連接、斷開連接、加鎖、釋放鎖。通過defer 機制&#xff0…

NASA——quarius(水瓶座) L3 網格化 1 度年土壤濕度,第 5 版

Aquarius L3 Gridded 1-Degree Annual Soil Moisture V005 水瓶座 L3 網格化 1 度年土壤濕度&#xff0c;第 5 版 簡介 該數據集包含美國國家航空航天局&#xff08;NASA&#xff09;科學應用衛星&#xff08;SAC-D&#xff09;上的寶瓶座被動微波輻射計得出的第 3 級網格化…

SLAM 精度評估

SLAM 精度的評估有兩個最重要的指標&#xff0c;即絕對軌跡誤差&#xff08;ATE&#xff09;和相對位姿誤差&#xff08;RPE&#xff09;的 均方根誤差&#xff08;RMSE&#xff09;: 絕對軌跡誤差:直接計算相機位姿的真實值與 SLAM 系統的估計值之間的差值&#xff0c;首先將…