【基于R語言群體遺傳學】-16-中性檢驗Tajima‘s D及連鎖不平衡 linkage disequilibrium (LD)

Tajima's D Test

已經開發了幾種中性檢驗,用于識別模型假設的潛在偏差。在這里,我們將說明一種有影響力的中性檢驗,即Tajima's D(Tajima 1989)。Tajima's D通過比較數據集中的兩個𝜃 = 4N𝜇估計值來工作。我們已經推導出了𝜃is,等于平均成對雜合性(average pairwise heterozygosity),當我們討論共祖時(也稱為Tajima的估計器)。當考慮DNA序列集合中的等位基因或SNP總數以及將它們聯合到共同祖先的共祖樹內包含的預期世代數時,可以得出另一種推導。這被稱為Watterson的𝜃估計器或𝜃W(Yong 2019)。正如我們在共祖中所展示的,n個譜系的預期共祖時間是:

一組n個初始譜系到一個單一祖先的所有共祖時間的總和是:

在每次共祖事件之間的步驟中,有i + 1個譜系可能發生突變。因此,當考慮一段時間內所有譜系可能產生的等位基因數量時,我們乘以i + 1:

我們將樹上所有譜系的總時間乘以每代突變率𝜇,得到我們期望在n個DNA序列樣本中的等位基因總數,而4N是一個常數,所以我們可以將其放在求和之外

其中S是序列集合中SNP的數量。這可以重新排列以從SNP的數量估計𝜃W=4N𝜇:

請注意,Watterson的𝜃估計器需要了解一組譜系的共祖,但這是在1975年發表的,當時還沒有發表超過兩個譜系的共祖(Kingman 1982)。Tajima's D是平均成對雜合性𝜃估計值與從樣本中SNP數量估計的𝜃之間的差異,除以該差異的預期方差的平方根:

而:

這看起來有點亂,但在各種位置反復出現兩個不同的n求和,只需要計算一次然后填入。這可以用以下代碼計算(平均成對差異和S也可以從數據集中計算,但為了簡潔起見,我們在這里省略了)。?

Tajima's D是用來評估一個種群中中性突變(即沒有自然選擇影響的突變)的假設是否成立。它通過比較兩個不同的估計器來衡量種群的遺傳多樣性和種群規模的變化,我們通過R語言實現:
?

# Calculates Tajima’s D# 平均成對差異,用于估計theta_IS
theta_IS <- 2.8# 數據集中的SNP數量
S <- 16# 采樣的等位基因拷貝數
n <- 20# 初始化求和變量
i1_sum <- 0.0# 循環計算i1的和,這是Watterson's theta的一部分
for(i in 2:n-1){i1_sum <- i1_sum + 1/i
}# 計算Watterson's theta,它是基于序列多態性的一個種群規模的估計器
theta_W <- S / i1_sum# 初始化第二個求和變量
i2_sum <- 0.0# 循環計算i2的和,用于后續計算
for(i in 2:n-1){i2_sum <- i2_sum + 1/i^2
}# 計算期望值e1,它是Tajima's D公式中的項
e1 <- ((n+1)/(3*(n-1)) - 1/i1_sum) / i1_sum# 計算期望值e2,它也是Tajima's D公式中的項
e2 <- (2*(n^2+n+3)/(9*n*(n-1)) - (n+2)/(n*i1_sum) + i2_sum/i1_sum^2) / (i1_sum^2 + i2_sum)# 計算Tajima's D值,它衡量的是theta_IS和theta_W之間的標準化差異
(D <- (theta_IS - theta_W) / sqrt(e1*S + e2*S*(S-1)))

前三個變量將根據您的數據進行調整。在這個例子中,返回的D = -1.409。大于或小于2的D被認為是顯著的;然而,實際的p值是通過模擬確定的。D的正值表示中間頻率等位基因過多,這可能是由于人口減少或平衡選擇,因為這兩種情況都會延長人口歷史較老部分的共祖事件時間。在更大的種群中,有更多的祖先可供選擇,共祖是一種罕見的事件,并會膨脹𝜃IS,因為相對于𝜃W,較老的譜系在后代中以更高的頻率共享。這種負D表示稀有頻率等位基因過多(共祖的最近尖端被放大;它們對S和𝜃W的貢獻比對平均成對差異的貢獻更多,因為它們很稀有),這表明人口擴張、選擇性清除或對有害等位基因的低效凈化選擇。關鍵是要計算多個位點的D值,并尋找異常值以標記假定選擇候選者。人口統計學效應,如人口規模的變化,應該影響基因組中的所有位點,而選擇(通常被認為)在其影響上是位點特異性的。還有許多其他的中性檢驗,如HKA檢驗(Hudson等人,1987)、McDonald-Kreitman檢驗(McDonald和Kreitman,1991)、Fay和Wu的H(Fay和Wu,2000)以及dN/dS比率(Yang和Bielawski,2000)。其中許多也利用了物種之間發生的遺傳變化,它們都有各自的優點和缺點。

linkage disequilibrium (LD)

群體遺傳學的一個獨特性質,在進化博弈論等類似領域中并未發現,即不同位點甚至不同染色體上的等位基因可以“鏈接”(盡管并不總是與經典遺傳學中的重組圖譜同義),并且比隨機預期更頻繁地一起遺傳。 連鎖不平衡(LD)的程度由𝒟量化,不要與Tajima的D混淆。考慮兩個位點:一個具有A/a多態性,另一個具有B/b多態性。我們對于跨位點一起遺傳的等位基因之間的關聯感到好奇。使用概率的乘法規則,我們期望AB單倍型(pAB)的頻率是兩個等位基因頻率pApB的乘積,如果它們是獨立遺傳的話。這兩者之間的差異由𝒟量化,作為連鎖不平衡的一種度量。

根據AB單倍型是過量還是不足,𝒟可以是正數或負數(或者如果你從ab單倍型任意計算𝒟,符號會改變)。𝒟也可以從所有單倍型頻率計算得出。

為了說明,假設我們有一個包含兩個SNP的單倍型頻率的小型數據集。一個是A/G多態性,另一個具有C/T等位基因:

讓我們關注A-C單倍型。A等位基因的頻率是0.57,C等位基因的頻率是0.65

遺傳漂變、種群結構和強選擇是推動𝒟偏離零的力量。在大種群中,預測𝒟隨時間呈指數衰減軌跡返回到零,就像在小種群中遺傳漂變下的雜合性一樣:

其中r是感興趣的位點對之間預期的重組分數。這可以用來估計單倍型的年齡。最后,即使對于在不同染色體上獨立分配的位點,𝒟也需要時間衰減。哈代-溫伯格基因型可以在一代中恢復,但過去的事件對LD有持續影響,這可以用來推斷更遠的過去的過程,如種群中不再存在的種群結構。 當從實際數據集計算𝒟時,雙重雜合子是不明確的。假設我們有一個個體的C/T,A/G SNP集合。C等位基因與第二個位置的A還是G等位基因相關聯?通常我們不知道。但是,不明確的單倍型頻率為我們提供了關于解決雙重雜合子可能方式的信息。如果C-G單倍型非常常見,而C-A單倍型很少見,那么這表明C/T,A/G個體可能具有C-G/T-A單倍型。使用這種方法計算𝒟太繁瑣,無法手工完成。 幸運的是,這正是EM算法發揮作用的地方。Kalinowski和Hedrick(2001)使用大角羊(Ovis canadensis)數據集(Boyce等人,1997)來估計LD。這個物種很罕見,樣本量很小,所以我們需要從可用的數據中獲得盡可能多的信息。 以下R代碼實現了Kalinowski和Hedrick(2001)給出的方程式。它從猜測相等的單倍型頻率和𝒟 = 0開始。然后它更新這個猜測,并迅速達到最大似然解𝒟 ≈0.0779和na-B單倍型頻率基本為零。

# 定義各個復合基因型的頻率
AABB <- 2  # 兩個位點都是純合子AABB的個體數量
AaBB <- 0  # 一個位點是雜合子,另一個是純合子AaBB的個體數量
aaBB <- 0  # 一個位點是純合子aa,另一個是純合子BB的個體數量
AABb <- 0  # 第一個位點是純合子AA,第二個位點是雜合子Bb的個體數量
AaBb <- 1  # 兩個位點都是雜合子AaBb的個體數量(雙雜合子)
aaBb <- 0  # 第一個位點是純合子aa,第二個位點是雜合子Bb的個體數量
AAbb <- 1  # 第一個位點是純合子AA,第二個位點是純合子bb的個體數量
Aabb <- 0  # 第一個位點是雜合子Aa,第二個位點是純合子bb的個體數量
aabb <- 0  # 兩個位點都是純合子aabb的個體數量# 使用上述輸入運行函數‘Dcalc’
Dcalc(AABB, AaBB, aaBB, AABb, AaBb, aaBb, AAbb, Aabb, aabb)

𝒟與用于衡量線性相關性的統計相關系數(皮爾遜)“r”有關。讓我們使用?表示相關系數,以避免將其與重組分數r混淆。𝒟2除以所有等位基因頻率的乘積等于?^2。

此外,奇怪的是,如果我們將?2乘以采樣的染色體總數(如果我們觀察n個二倍體個體,通常為2n),那么我們就會得到一個具有一個自由度的𝜒2統計量:

然而,這并不令人驚訝。在如此小的樣本量下,即使LD非常強,檢測偏差的能力也非常有限。最后,我們希望指出,EM算法是一種“爬山”算法,它找到一個局部最大似然峰值。可能存在其他峰值,可以使用MCMC方法來處理這個問題,并更全面地探索復雜的似然表面。?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/43383.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/43383.shtml
英文地址,請注明出處:http://en.pswp.cn/web/43383.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

vue項目中常見的一些preset及其關系

Babel的作用 Babel主要用途是用來做js代碼轉換的&#xff0c;將最新的js語法或者api轉換成低版本瀏覽器可兼容執行的代碼。 語法兼容是指一些瀏覽器新特性增加的js寫法&#xff0c;例如箭頭函數 ()>{}&#xff1b;低版本的瀏覽器無法識別這些&#xff0c;會導致一些語法解…

spark shuffle寫操作——UnsafeShuffleWriter

PackedRecordPointer 使用long類型packedRecordPointer存儲數據。 數據結構為&#xff1a;[24 bit partition number][13 bit memory page number][27 bit offset in page] LongArray LongArray不同于java中long數組。LongArray可以使用堆內內存也可以使用堆外內存。 Memor…

秋招突擊——7/9——字節面經

文章目錄 引言正文八股MySQL熟悉嗎&#xff1f;講一下MySQL索引的結構&#xff1f;追問&#xff1a;MySQL為什么要使用B樹&#xff1f;在使用MySQL的時候&#xff0c;如何避免索引失效&#xff1f;講一下MySQL的事物有哪幾種特征&#xff1f;MySQL的原子性可以實現什么效果&…

GESP C++ 三級真題(2023年9月)T2 進制判斷

進制判斷 問題描述 N進制數指的是逢N進一的計數制。例如&#xff0c;人們日常生活中大多使用十進制計數&#xff0c; 而計算機底層則一般使用二進制。除此之外&#xff0c;八進制和十六進制在一些場合也是 常用的計數制(十六進制中&#xff0c;一般使用字母A至F表示十至十五…

【區塊鏈+跨境服務】粵澳健康碼跨境互認系統 | FISCO BCOS應用案例

2020 年突如其來的新冠肺炎疫情&#xff0c;讓社會治理體系面臨前所未見的考驗&#xff0c;如何兼顧疫情防控與復工復產成為社會 各界共同努力的目標。區塊鏈技術作為傳遞信任的新一代信息基礎設施&#xff0c;善于在多方協同的場景中發揮所長&#xff0c;從 而為粵澳兩地的疫情…

uniapp上傳文件并獲取上傳進度

1. 上傳普通文件 uni.chooseMessageFile({count: 1,success: (res) > {console.log(res)console.log("res123456", res.tempFiles[0].path)const uploadTask uni.uploadFile({url: http://localhost:8000/demo,filePath: res.tempFiles[0].path,name: file,form…

CSS關于居中的問題

文章目錄 1. 行內和塊級元素自身相對父控件居中1.1. 塊級元素相對父控件居中1.2. 行內元素相對于父控件居中 2. 實現單行文字垂直居中3. 子絕父相實現子元素的水平垂直居中3.1. 方案一3.1.1. 示例 3.2. 方案二3.2.1. 示例 3.3. 方案三(推薦)3.3.1. 示例 3.4. 方案四(了解一下) …

AI大模型知識點大梳理_ai大模型的精度以下哪項描述的準確

AI大模型是什么 AI大模型是指具有巨大參數量的深度學習模型&#xff0c;通常**包含數十億甚至數萬億個參數。**這些模型可以通過學習大量的數據來提高預測能力&#xff0c;從而在自然語言處理、計算機視覺、自主駕駛等領域取得重要突破。 AI大模型的定義具體可以根據參數規模…

短信驗證碼研究:公開的短信驗證碼接口、不需要注冊的短信驗證碼接口

短信驗證碼研究&#xff1a;公開的短信驗證碼接口、不需要注冊的短信驗證碼接口 0 說明 本文提供了一個短信驗證碼接口&#xff0c;主要用于以下場景&#xff1a; 1、用于開發調試 2、用于申請驗證碼困難的企業和個人 3、用于短信驗證碼認證還沒有通過&#xff0c;但是著急…

DBeaver操作MySQL無法同時執行多條語句的解決方法

DBeaver選擇數據庫連接&#xff0c;在【驅動屬性】中將allowMultiQueries允許執行多條語句置為True

各種音頻處理器

在HiFi&#xff08;高保真&#xff09;音頻系統中&#xff0c;通常需要使用一些特定類型的音頻處理器&#xff0c;以確保音頻信號的高保真和優質輸出。以下是一些常見的音頻處理器類型及其在HiFi系統中的應用&#xff1a; DAC&#xff08;數模轉換器&#xff09;&#xff1a; …

mysql 導出導入 數據庫

導出 MySQL 數據庫可以通過多種方法實現&#xff0c;最常見的方法是使用 mysqldump 工具。以下是一些常用的導出 MySQL 數據庫的方法&#xff1a; 使用 mysqldump 工具 mysqldump 是一個命令行工具&#xff0c;用于導出 MySQL 數據庫的結構和數據。以下是基本的導出命令&…

泰迪智能科技大數據實驗室產品-實訓管理平臺介紹

高校大數據實驗室通常配備有先進的計算機硬件和軟件工具&#xff0c;以及專門的數據庫和分析平臺&#xff0c;以便研究人員和學生能夠進行復雜的數據處理、分析和解釋。主要利用大數據技術進行科學研究、技術開發和人才培養。 泰迪智能科技實訓管理平臺作為教學核心&#xff0c…

JS進階-構造函數

學習目標&#xff1a; 掌握構造函數 學習內容&#xff1a; 構造函數 構造函數&#xff1a; 封裝是面向對象思想中比較重要的一部分&#xff0c;js面向對象可以通過構造函數實現的封裝。 同樣的將變量和函數組合到了一起并能通過this實現數據的共享&#xff0c;所不同的是借助…

小程序需要進行軟件測試嗎?小程序測試有哪些測試內容?

在如今移動互聯網快速發展的時代&#xff0c;小程序已成為人們生活中不可或缺的一部分。然而&#xff0c;面對日益增長的小程序數量和用戶需求&#xff0c;小程序的穩定性和質量問題日益突顯。因此&#xff0c;對小程序進行軟件測試顯得尤為重要。 近期的一項調查顯示&#xf…

【架構】分布式與微服務架構解析

分布式與微服務架構解析 一、分布式1、什么是分布式架構2、為什么需要分布式架構3、分布式架構有哪些優勢&#xff1f;4、分布式架構有什么劣勢&#xff1f;5、分布式架構有哪些關鍵技術&#xff1f;6、基于分布式架構如何提高其高性能&#xff1f;7、如何基于架構提高系統的穩…

【工具】咸魚小助手,一款咸魚之王輔助工具

轉載請注明出處&#xff1a;小鋒學長生活大爆炸[xfxuezhagn.cn] 如果本文幫助到了你&#xff0c;歡迎[點贊、收藏、關注]哦~ Github&#xff1a;咸魚之王的自動化腳本&#xff0c;自動答題、爬塔、領資源等 下載&#xff1a;(密碼:9u22) 咸魚小助手 文檔&#xff1a;騰訊文檔 視…

軟考《信息系統運行管理員》-3.2信息系統設施運維的環境管理

3.2信息系統設施運維的環境管理 1 計算機機房的選址要求 電子計算機機房地理位置 選擇水源充足&#xff0c;電子比較穩定可靠&#xff0c;交通通信方便&#xff0c;自然環境清潔的地點要遠離產生粉塵、油煙、有害氣體以及生產或存儲具有腐蝕性、易燃、易爆物品的工廠、倉庫、…

3d模型選不中任何東西是什么原因?---模大獅模型網

在進行3D模型設計過程中&#xff0c;有時會遇到無法選擇模型中的任何元素的問題。這種情況可能會影響設計師的工作效率和體驗&#xff0c;因此了解問題的原因以及如何解決是至關重要的。本文將探討在3D建模中遇到無法選中模型元素的原因及解決方法。 一、問題原因分析 無法選中…

跨境必備:提升Instagram互動率攻略

在這個視覺為王的數字時代&#xff0c;Instagram已成為品牌與用戶互動的重要平臺。然而&#xff0c;要在激烈的競爭中脫穎而出&#xff0c;單靠高質量的內容還遠遠不夠。本文將深入探討一系列經過驗證的策略&#xff0c;旨在提高Instagram上的用戶互動率&#xff0c;從而增強品…