擬南芥T2T基因組-文獻精讀127

A near-complete assembly of an Arabidopsis thaliana?genome

擬南芥基因組的近乎完整組裝

擬南芥（Arabidopsis thaliana）基因組序列作為廣泛應用的模式物種，為植物分子生物學研究提供了巨大的推動力。在基因組序列首次發布后的20多年（Arabidopsis Genome Initiative, 2000）之后，仍然存在一些未解決的間隙區域，這些區域可能由高度重復的序列組成，如端粒、著絲粒、5S rDNA簇和含有45S rDNA的核仁組織區（NOR）。使用相對較短的測序讀取來組裝這些重復序列非常困難。對廣泛使用的TAIR10/Araport11組裝（Lamesch等，2012）進行掃描時，發現了165個間隙，涵蓋了所有五個著絲粒，并且沒有一個染色體可以從頭到尾完成。本文展示了一種高質量的組裝，包含三個無間隙的染色體和兩個只缺少NORs和NOR4末端端粒序列的染色體。通過結合長讀取Oxford Nanopore Technologies（ONT）、高保真長讀取PacBio和短讀取Illumina技術，我們獲得了一個新的133,917,231-bp的Col-0基因組組裝，命名為Col-PEK，比TAIR10/Araport11組裝大14,770,883 bp。此外，我們還填補了最近發布的兩個高質量組裝Col-CEN和Col-XJTU中大部分剩余的間隙（Naish等，2021；Wang等，2021）。在這個近乎完整的基因組組裝中，共注釋了27,629個蛋白質編碼基因，其中213個是新發現的。這些新基因中的許多位于NORs或著絲粒區域。值得注意的是，我們發現至少有145個新基因是由于之前未被識別的隱藏重復而產生的，包括串聯重復，這大大擴展了我們對近期基因重復的理解。在五個完整的著絲粒中，我們觀察到178-bp串聯衛星DNA重復序列（CEN180）的數量遠高于之前的假設。

我們整合了Nanopore ONT、PacBio HiFi和Illumina NovaSeq的讀取，用于初步組裝、修飾和去污染。隨后，我們在TAIR10的框架內將contig定位到染色體水平，然后使用HiFi contig/scaffold填補Chr4上的兩個間隙。通過填補所有間隙并定位到TAIR10，我們得到了相同的結果。最后，我們基于僅使用ONT讀取的區域修正了結構錯誤和小型拼接錯誤，并通過HiFi contig和讀取比對檢查了NORs中的潛在缺失。最終的Col-PEK組裝大小為133,917,231 bp，所有著絲粒已完成（補充方法；補充圖1）。

通過基準通用單拷貝同源基因（Supplemental Table 1）、核心真核基因映射方法評估（Supplemental Table 2）、GC-深度分析（Supplemental Figure 2）、Merqury（Rhie等，2020）和Inspector（Chen等，2021）評估（補充方法；補充表3和4）、SNP分析（Supplemental Table 5）以及使用原始Illumina過濾讀取、HiFi讀取和ONT讀取的比對（補充方法；補充圖3和4）確認了組裝質量的高水平。值得注意的是，Merqury評估表明，Col-PEK的質量明顯高于TAIR10和Col-CEN，并且與Col-XJTU的質量相當或略高（補充表3）。所有來自著絲粒區域的測序讀取都通過CEN180特異性11-mer序列得到了驗證，Merqury對五個著絲粒的評估顯示出極高的準確性，Chr2（CEN2）的錯誤率低至0（補充方法；補充表4）。我們將Col-PEK與TAIR10、Col-XJTU和Col-CEN組裝（Naish等，2021；Wang等，2021）進行了比較，發現完美的共線性（圖1A–1C；補充圖5A和6）。新的組裝添加了大約14.8 Mb的新序列，這些序列大多位于著絲粒附近或內部（圖1A；補充圖5A和7–11）。除了著絲粒之外，我們還在Chr2和Chr4的頂部臂末端分別添加了約499和約183 kb的序列（補充圖1和7–11）。序列比對表明，這些新序列包含45S rDNA亞單位（即5.8S、18S和25S rDNA）（補充表6），提示它們是NORs的一部分（Sims等，2021）。盡管長度明顯大于TAIR10（>98.55%），兩個NOR仍包含一些未完成的間隙（補充方法）。我們進一步應用覆蓋度分析來估算重復序列的拷貝數，使用Illumina讀取（Long等，2013）。估算的45S rDNA的拷貝數（>310）遠大于組裝單元的數量（約66）（補充表6），提供了NOR大小的估算值。我們還在Chr2的NOR附近鑒定了2.6 kb的端粒重復序列，而Chr4的NOR仍然缺乏端粒重復序列。總共識別出了九個端粒，大小從2.6 kb到3.6 kb不等（補充表7）。

**圖1. Col-PEK組裝、注釋及應用概覽**

**(A)** 使用MUMmer比對Col-PEK、Col-XJTU、Col-CEN與TAIR10之間的序列共線性。每個共線區域表示一對一的比對關系。圖中從左到右連接的染色體分別為Chr1至Chr5。
?**(B 和 C)** Col-PEK與Col-XJTU (B) 或Col-CEN (C) 在Chr2上的共線性比較。兩個黑色框表示在Col-XJTU和Col-CEN中存在的間隙。
?**(D)** Col-PEK基因組組裝的注釋，除(h)外，其他內容均按100 kb窗口統計。

- (a) 染色體長度與著絲粒區域（灰色）以及線粒體DNA插入區域（藍色），染色體Chr1至Chr5按順時針排列；
- (b) 編碼基因數密度；
- (c) 所有重復序列密度；
- (d) CEN180單體密度；
- (e) LTR類轉座元件密度；
- (f) DNA類轉座元件密度；
- (g) 由GMATA和TRF識別的SSR與串聯重復序列的綜合密度（補充方法）；
- (h) 通過Nanopolish基于ONT數據檢測的高頻CpG甲基化位點密度（以50 kb窗口）；
- (i) 新識別的145個基因與其高度同源基因的共線關系。綠色線表示同一染色體上的基因，紅色線表示分布在不同染色體上的基因。
? ?**(E)** Col-PEK在Chr1上識別出Col-CEN中錯誤組裝的區域，包含一個36.0 kb的缺失序列及七個編碼基因。圖中每個矩形代表一個基因，同一面板中顏色相同表示同源基因。虛線表示Col-CEN中缺失的序列。
? ?**(F)** 一個新預測基因的示例，暫定命名為PEK_AT5G29578，位于新組裝的Chr5著絲粒中。該基因獲得RNA測序支持，最大比對深度為467×。圖底部黑色條帶表示預測的基因結構；粗條帶為預測外顯子，細條帶為預測內含子。

與最近發布的高質量組裝（Col-CEN與Col-XJTU）相比，Col-PEK組裝更完整、長度更長，并填補了多個長度超過40 kb的剩余間隙（圖1A–1C；補充圖3與6；補充表8與9；補充方法）。例如，Col-XJTU在Chr2上留下的一個108.7 kb間隙已被填補（圖1B；補充圖3A與12A）。在Col-CEN中，一個232.8 kb的不明間隙現已在Chr2的線粒體DNA插入區被識別并填補。插入后的mtDNA大小（640.5 kb）與之前熒光原位雜交估計值（618 ± 42 kb）以及Col-XJTU報告的值一致（圖1C和1D；補充圖3B、12B和13）。我們還在Col-CEN的Chr1上識別到一個36.0 kb的間隙，包含七個編碼基因（圖1E；補充圖3C、6B和12B）。這些新序列都得到了ONT和HiFi讀取的良好支持（補充圖3）。這些分析解釋了Col-PEK中Chr2、Chr4和Chr5（NOR除外）序列為何長于Col-XJTU和Col-CEN（補充表8）。另一方面，Col-PEK中的Chr1和Chr3略短于Col-XJTU，可能是由于Col-PEK中缺失了部分序列。為此，我們評估了Chr1中的一個21 kb區域（補充圖4A–4E）和Chr3中的一個11 kb區域（補充圖4F），并發現ONT通過讀取和HiFi讀取在Col-PEK斷點處有連續覆蓋，而在Col-XJTU斷點處則沒有。值得注意的是，在這些區域，Col-PEK與Col-CEN的序列完全一致（補充圖4）。

Col-PEK組裝為估算重復序列的分布提供了前所未有的機會。我們識別出26,079個簡單序列重復，總長度400,090 bp，識別出46,108個串聯重復，總長度15,470,062 bp。隨后，使用RepeatMasker（http://www.repeatmasker.org/）預測轉座元件，發現約有19,274,191 bp（占基因組的14.40%）歸屬于轉座元件。其中，LTR/Gypsy類逆轉錄轉座元件是最大的類群，占6,885,521 bp（占基因組的5.14%）。重復序列的總占比為26.58%，遠高于TAIR10的18.51%（圖1D；補充圖14；補充表8和10）。

共有27,416個蛋白質編碼基因從Araport11轉移到了Col-PEK中，總數為27,445個。剩余的基因要么位于TAIR10中錯誤組裝的區域，要么太短（3-39 bp）（補充圖15和16；補充表11；補充方法）。例如，AT3G41762在TAIR10中的26 kb錯誤組裝區域中被發現，但也有四個同源拷貝，它們被重新組裝到Col-PEK的NOR2和NOR4中（補充圖15；補充表11和12）。先前的研究也建議，TAIR10中的這個區域可能存在問題（Pucker等，2021）。值得注意的是，我們識別出145個之前未知的基因，它們與現有基因具有高度相似性（>99% DNA序列相似性）（圖1D，內圈；補充表12；補充方法）。在這些隱藏重復的基因中，70個位于兩個NORs中，47個位于前述的線粒體DNA插入區域（補充圖7–11）。根據TAIR提供的同源基因功能描述，這部分基因推測編碼線粒體呼吸途徑的蛋白質。至少56個新識別的隱藏重復基因形成了串聯重復，其中兩個或多個同源基因沿染色體相鄰排列（圖1D，內圈；補充表12）。以前也曾發現有限的隱藏基因重復現象，例如SEC10（Vuka?inovi?等，2014）（補充圖16A），而我們的發現表明這種現象更為常見（補充方法；補充表12）。不同的重復基因可能會相鄰排列。例如，Chr5中一個最近更新的區域包含兩種基因重復，一種是一個基因重復兩次，另一種是一塊三基因區域重復一次（補充表12），支持了最近的報告（Pucker等，2021）。為了進一步識別新序列中的基因，我們采用了三種獨立的方法，包括基因預測、同源搜索和參考引導的轉錄組組裝，獲得了另外68個新編碼基因，其中17個基因得到了轉錄組數據的支持（圖1F；補充圖7–11；補充表13）。這些新基因大多位于NORs和線粒體DNA插入區，一部分則分布在被著絲粒特異性組蛋白H3樣蛋白（CENH3）結合的著絲粒區域（補充圖7–11）。

由于其更高的完整性，Col-PEK在識別的非編碼RNA（ncRNA）基因數量上超過了Col-CEN和Col-XJTU。總共識別出5,959個ncRNA基因，包括3,910個編碼5S rRNA、71個編碼18S rRNA、64個編碼25S rRNA、66個編碼5.8S rRNA、648個編碼tRNA，以及1,200個編碼其他ncRNA，包括核糖開關和核糖酶（補充表6）。值得注意的是，我們的分析顯著增加了5S rRNA的數量（補充表6和8），并揭示了許多5S rRNA集中在Chr3至Chr5的著絲粒附近，并與LTR/Gypsy元素交替排列（補充圖7–11）。PacBio HiFi數據有助于填補Chr4上的間隙，并恢復易于丟失的重復序列，如5S rDNA和CEN180陣列，從而確保Col-PEK在注釋這些重復元素上的優勢（補充圖17；補充方法）。

五個完整的著絲粒為細致分析著絲粒組織提供了獨特的機會。我們共識別出66,232個著絲粒CEN180重復序列，這一數字超過了Col-CEN和Col-XJTU組裝中的數量（圖1D；補充圖7–11；補充表8）。每個著絲粒中的CEN180陣列體積從2.36 Mb到4.40 Mb不等。CENH3結合在以CEN180重復簇為中心的擴展區域，定義了功能性著絲粒。我們發現CENH3結合區域的長度大致與先前通過物理圖譜估算的著絲粒大小一致（Hosouchi等，2002；Kumekawa等，2000, 2001），并且與Col-XJTU一致，但比Col-CEN的CENH3結合區域長約1.82 Mb（補充表14）。在所有染色體中，CENH3在著絲粒核心區域富集，在LTR/Gypsy富集的區域則較少。此外，CENH3與某些CEN180子集表現出優先結合的關系。Nanopore ONT測序為檢測DNA甲基化提供了機會，這與亞硫酸鹽測序結果高度相關。我們發現NORs和5S rDNA陣列高度甲基化，而著絲粒區域的CpG甲基化水平高于染色體臂，盡管CEN180陣列相對低甲基化。此外，端粒區域則呈現低甲基化狀態（圖1D；補充圖7–11和18）。

總之，結合其他最近報告的高質量組裝（Naish等，2021；Wang等，2021），新獲得的近完整的Col-PEK組裝為擬南芥Col-0提供了一個長期期待的關鍵資源。Col-PEK的在線信息門戶，包括互動式可搜索瀏覽器以及可下載的基因組組裝和注釋文件，已上線，網址為：http://col-pek.arashare.cn/。

官網

擬南芥參考基因組_擬南芥數據庫-CSDN博客

Ensembl數據庫下載參考基因組（常見模式植物）bioinfomatics 工具37_ensembl plant數據庫-CSDN博客