綜述 2023-IEEE-TCBB:生物序列聚類方法比較

Wei, Ze-Gang, et al. "Comparison of methods for biological sequence clustering."?IEEE/ACM Transactions on Computational Biology and Bioinformatics?(2023).?https://ieeexplore.ieee.org/document/10066180

  • 被引次數:1;
  • 研究背景:測序技術進步極大促進了基因組學研究。這一巨大進步帶來了大量的測序數據。聚類分析對于研究和探索大規模序列數據具有強大的作用。過去十年中已經開發了許多可用的聚類方法。盡管發表了大量的比較研究,但我們注意到它們有兩個主要局限性:僅比較傳統的基于比對的聚類方法,并且評估指標嚴重依賴于標記的序列數據。
  • 研究意義:序列聚類有利于去除數據庫中冗余序列
  • 作者信息:

一、傳統序列聚類方法

傳統方法:基于分層策略、需要對序列進行逐對對齊來進行聚類

1. mothur

[42] P. D. Schloss et al., “Introducing mothur: Open-source, platform- independent, community-supported software for describing and compar- ing microbial communities,” Appl. Environ. Microbiol., vol. 75, no. 23,pp. 7537–7541, 2009.

2. ESPRIT

[43] Y. Sun et al., “ESPRIT: Estimating species richness using large collections of 16S rRNA pyrosequences,” Nucleic Acids Res., vol. 37, no. 10, pp. e76–e76, 2009.

3. HPC-CLUST

?[44] M. Rodrigues, J. F., and C. von Mering, “HPC-CLUST: Distributed hierarchical clustering for large sets of nucleotide sequences,” Bioinformatics,vol. 30, no. 2, pp. 287–288, 2013.

4. mcClust

[45] Q. Wang et al., “Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy,” Appl. Environ. Microbiol.,vol. 73, no. 16, pp. 5261–5267, 2007.

二、現代大規模序列聚類方法

1.?CD-HIT:應用貪婪增量策略

巧妙地應用了統計k-mer(固定長度的子序列?k) 過濾以避免不必要的成對序列比對

[46] L. Fu et al., “CD-HIT: Accelerated for clustering the next-generation sequencing data,” Bioinformatics, vol. 28, no. 23, pp. 3150–3152, 2012.

[47] Y. Huang et al., “CD-HIT Suite: A web server for clustering and comparing biological sequences,” Bioinformatics, vol. 26, no. 5, pp. 680–682, 2010.

[48] W. Li and A. Godzik, “Cd-hit: A fast program for clustering and comparing large sets of protein or nucleotide sequences,” Bioinformatics, vol. 22,no. 13, pp. 1658–1659, 2006.

2.?UCLUST :采用?USEARCH 的貪婪搜索算法

應用?k-mer 過濾器來避免不必要的低相似性序列對

[49] R. C. Edgar, “Search and clustering orders of magnitude faster than BLAST,” Bioinformatics, vol. 26, no. 19, pp. 2460–2461, 2010.

3. VSEARCH:作為 UCLUST 的替代品

VSEARCH 是一款免費的 64 位開源軟件,用于序列聚類。它使用基于?k-mers 的快速啟發式(UCLUST 中應用的類似策略)來有效檢測相似序列。 VSEARCH 實現了 UCLUST 中用于分析生物序列的大部分功能,例如序列排序和去重復。因此,評估VSEARCH和UCLUST在序列聚類方面的性能非常有意義。

[50] T. Rognes et al., “VSEARCH: A versatile open source tool for metagenomics,” PeerJ, vol. 4, 2016, Art. no. e2584.

4.?DBH:基于de Bruijn (DB) graph

克服傳統啟發式聚類算法中關鍵問題——種子選擇的敏感性,并減少大規模 16S rRNA 序列的計算負擔,我們開發了一種基于啟發式聚類方法

[51] Z. - G. Wei and S. - W. Zhang, “DBH: A de Bruijn graph-based heuristic
method for clustering large-scale 16S rRNA sequences into OTUs,” J. Theor. Biol., vol. 425, pp. 80–87, 2017.

5.?edClust:基于Edlib library

對相似序列進行分組,由 C/C++ 編程,可實現高速精確的半全局成對序列比對。 edClust 也是一種啟發式方法,遵循 CD-HIT 的貪婪增量方法。應用了Edlib中實現的半全局序列比對來計算相似度對于帶有種子的每個查詢序列。

[52] M. Cao et al., “EdClust: A heuristic sequence clustering method with higher sensitivity,” J. Bioinf. Comput. Biol., vol. 20, 2021, Art. no. 2150036.
[53] M. ?o?ic ? and M. ?ikic ?, “Edlib: A C/C++ library for fast, exact sequence alignment using edit distance,” Bioinformatics, vol. 33, no. 9, pp. 1394–1395, 2017.

在預過濾過程中,CD-HIT、UCLUST、VSEARCH、DBH 和 edClust 僅計算序列之間相同k-mers 的數量。因為這個數字隨著比較序列的相似性降低而迅速下降,所以大多數上述方法將在低聚類閾值(特別是低于 50%)下形成包含非同源序列的損壞簇的很大一部分。

6.?kClust

為了提高低聚類閾值下的聚類敏感性,開發了 kClust,可以通過查找相似的?k-mers 以實現高靈敏度。

[54] M. Hauser, C. E. Mayer, and J. S?ding, “kClust: Fast and sensitive clustering of large protein sequence databases,” BMC Bioinf., vol. 14, no. 1, 2013, Art. no. 248.

根據上面的描述,我們可以總結出CD-HIT、UCLUST、VSEARCH、DBH、edClust、kClust和MMseqs2將貪婪增量策略應用于聚類序列,計算復雜度約為O(KN),其中?N?和?K?分別是序列數和簇數。對于數億個序列,K?通常與?N?具有相似的順序,導致計算復雜度幾乎以?N?的二次方增加。

7.?Linclust: 線性時間 O(N)

對大蛋白進行聚類

[57] M. Steinegger and J. S?ding, “Clustering huge protein sequence sets in linear time,” Nature Commun., vol. 9, no. 1, 2018, Art. no. 2542.

8.?MMseq2

[55] M. Hauser, M. Steinegger, and J. S?ding, “MMseqs software suite for fast and deep clustering and searching of large protein sequence sets,” Bioinformatics, vol. 32, no. 9, pp. 1323–1330, 2016.
[56] M. Steinegger and J. S?ding, “MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets,” Nature Biotechnol.,vol. 35, no. 11, pp. 1026–1028, 2017.

9.?MeShClust:均值平移算法

對DNA序列進行聚類

[58] B. T. James, B. B. Luczak, and H. Z. Girgis, “MeShClust: An intelligent tool for clustering DNA sequences,” Nucleic Acids Res., vol. 46, no. 14, pp. e83–e83, 2018.

三、4個?Benchmark datasets

表I-四個序列數據集的簡單統計

1. 模擬數據集

模擬數據集由 James 等人[58]生成,包含 236 個序列,10 個簇,每個簇由約 23 個序列組成。 所有序列的平均長度約為1000 bp。

[58] B. T. James, B. B. Luczak, and H. Z. Girgis, “MeShClust: An intelligent tool for clustering DNA sequences,” Nucleic Acids Res., vol. 46, no. 14, pp. e83–e83, 2018.

2. Schmidt數據集

Schmidt數據集是Schmidt等人[44]構建的一個綜合性的全球16S rRNA基因序列數據集(http://meringlab.org/suppdata/2014-otu_robustness/)。 該數據集幾乎覆蓋了細菌16S rRNA基因的整個區域,包含從NCBI GenBank收集的887870個序列,平均長度約為1401 bp。

[44] M. Rodrigues, J. F., and C. von Mering, “HPC-CLUST: Distributed hierarchical clustering for large sets of nucleotide sequences,” Bioinformatics,vol. 30, no. 2, pp. 287–288, 2013.

3. Alfree 數據集

Alfree 基準數據集 [39] 是基于 ASTRAL v2.06 數據集 [65] 構建的,該數據集包含 6569 個蛋白質序列,分為 513 個家族組。 該組中的序列范圍在 20 到 1047 之間,平均長度為 184 個氨基酸。 Alfree數據集和類標簽可以從網站鏈接免費下載:http://150.254.123.165/alfree//download/data/。

[39] A. Zielezinski et al., “Alignment-free sequence comparison: Benefits, applications, and tools,” Genome Biol., vol. 18, no. 1, 2017, Art. no. 186.

[65] N. K. Fox, S. E. Brenner, and J. -M. Chandonia, “SCOPe: Structural classification of proteins—Extended, integrating SCOP and ASTRAL data and classification of new structures,” Nucleic Acids Res., vol. 42, no. D1,pp. D304–D309, 2014.

4. UniProt 序列數據集

UniProt 序列數據集 [64] 是一個精心策劃的蛋白質序列數據庫,致力于提供高水平的注釋、最小程度的冗余以及與其他數據庫的高水平集成。 UniProt 數據庫包含~562 K 蛋白質序列,平均序列長度為~359 aa。?

[64] B. E. Suzek et al., “UniRef: Comprehensive and non-redundant UniProt reference clusters,” Bioinformatics, vol. 23, no. 10, pp. 1282–1288, 2007.

四、聚類評估指標

?NMI(歸一化互信息)指標 [43]

[43] Y. Sun et al., “ESPRIT: Estimating species richness using large collections of 16S rRNA pyrosequences,” Nucleic Acids Res., vol. 37, no. 10, pp. e76–e76, 2009.

其它評估指標:cluster number, seed sensitivity (SS), clustered fraction (CF) and the wrong clustered fraction (WCF) of one seed sequence --->?have been applied in previous study 【52】

[52] M. Cao et al., “EdClust: A heuristic sequence clustering method with higher sensitivity,” J. Bioinf. Comput. Biol., vol. 20, 2021, Art. no. 2150036.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/211807.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/211807.shtml
英文地址,請注明出處:http://en.pswp.cn/news/211807.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

力扣題:數字與字符串間轉換-12.13

力扣題-12.13 [力扣刷題攻略] Re:從零開始的力扣刷題生活 力扣題1:442. 數組中重復的數據 解題思想:直接相除即可 class Solution(object):def optimalDivision(self, nums):""":type nums: List[int]:rtype: str"&qu…

Transformer 簡介

Transformer 是 Google 在 2017 年底發表的論文 Attention Is All You Need 中所提出的 seq2seq 模型。Transformer 模型的核心是 Self-Attention 機制,能夠處理輸入序列中的每個元素,并能計算其與序列中其他元素的交互關系的方法,從而能夠更…

再見了Future,圖解JDK21虛擬線程的結構化并發

Java為我們提供了許多啟動線程和管理線程的方法。在本文中,我們將介紹一些在Java中進行并發編程的選項。我們將介紹結構化并發的概念,然后討論Java 21中一組預覽類——它使將任務拆分為子任務、收集結果并對其進行操作變得非常容易,而且不會不…

Unity中Shader黑白閥值后處理效果

文章目錄 前言一、我們先來PS看一下黑白閥值的效果二、使用step(a,b)函數實現效果三、實現腳本控制黑白閥值1、在Shader屬性面板定義控制閥值變量2、把step的a改為_Value3、在后處理腳本設置公共成員變量,并且設置范圍為(0,1)4、在Graphics.B…

Cocos Creator:創建棋盤

Cocos Creator:創建棋盤 創建地圖三部曲:1. 創建layout組件2. 創建預制體Prefab,做好精靈貼圖:3. 創建腳本LayoutSprite.ts收尾工作: 創建地圖三部曲: 1. 創建layout組件 使用layout進行布局,…

優化瑞芯微rk3566 tf卡速度uhs SDR104

環境 開發板:orangepi3B CPU:rk3566 TF卡速度標識:C10,U3,V30 起因 對于tf卡啟動的系統來說,io會成為一個很關鍵的瓶頸,所以總希望系統能跑得快一點。我手頭用的是一張金士頓的高性能tf卡,開…

四十三、Redis基礎

目錄 一、認識NoSql 1、定義: 2、常見語法 3、與關系型數據庫(SQL)的區別: 二、認識Redis 1、定義: 2、特征: 3、Key的結構: 三、安裝Redis 四、Redis常見命令 1、數據結構介紹 2、…

關于DNS服務器地址總是127.0.0.1且無法解析域名地址

問題 筆者嘗試nslookup解釋域名時,出現服務器變成本地環回口地址,導致無法解析域名 C:\Users\Zsy>nslookup www.baidu.com 服務器: UnKnown Address: 127.0.0.1*** UnKnown 找不到 www.baidu.com: Server failed排查思路 嘗試關閉虛擬網卡&#…

CSS的邏輯組合偽類

CSS 的邏輯組合偽類有 4 種,分別是::not()、:is()、:where()和:has()。 否定偽類:not() :not 偽類選擇器用來匹配不符合一組選擇器的元素。由于它的作用是防止特定的元素被選中,它也被稱為反選偽類(negation pseudo-…

Torch2TRT編譯和使用踩坑

前言 Torch2TRT是英偉達提供的開源Pytorch到TensorRT模型的轉化工具。相對于其他Pytorch模型轉TensorRT的方式,我認為這是最簡單和容易上手的方式。但是該工具并不成熟,在安裝和使用過程中有一些坑。 遇到的問題 1. fatal error: xxxxxx.h: No such f…

自動化測試框架 —— pytest框架入門篇

今天就給大家說一說pytest框架。 今天這篇文章呢,會從以下幾個方面來介紹: 01、pytest框架介紹 pytest 是 python 的第三方單元測試框架,比自帶 unittest 更簡潔和高效,支持非常豐富的插件,同時兼容 unittest 框架。…

【C++】:AVL樹

朋友們、伙計們,我們又見面了,本期來給大家解讀一下有關多態的知識點,如果看完之后對你有一定的啟發,那么請留下你的三連,祝大家心想事成! C 語 言 專 欄:C語言:從入門到精通 數據結…

用python 網絡自動化統計交換機有多少端口UP

用python統計交換機有多少端口UP 用python統計交換機有多少端口UP,可以間接的反饋有多少個用戶在線。我們使用上次的腳本將可達的網絡設備ip統計到reachable_ip.txt中,這次我們使用reachable_ip.txt來登陸設備來統計多少端口是UP的 云配置 拓撲 交換機…

使用fcl庫做碰撞檢測

fcl庫是真難用,導入自己的項目的時候遇到各種坑。 第一個坑就是git clone并build fcl庫后生成的fcl-config.cmake里面有問題,需要在這里進行相應修改 set_and_check(FCL_INCLUDE_DIRS "/home/xxxx/fcl/build/include") set(FCL_LIBRARIES fc…

【Cisco Packet Tracer】VLAN通信 多臂/單臂路由/三層交換機

在進行本文的實驗之前,請確保掌握以下內容: 【Cisco Packet Tracer】交換機 學習/更新/泛洪/VLAN實驗 【Cisco Packet Tracer】路由器實驗 靜態路由/RIP/OSPF/BGP 【Cisco Packet Tracer】路由器 NAT實驗 本文介紹VLAN間的通信方法, 包括…

FreeRTOS的任務優先級、Tick以及狀態講解(尊敬的嵌入式工程師,不妨進來喝杯茶)

任務優先級和Tick 在FreeRTOS中,任務的優先級和Tick是兩個關鍵的概念,它們直接影響任務的調度和執行。 任務優先級 每個任務都被分配一個優先級,用于決定任務在系統中的調度順序。 優先級是一個無符號整數,通常從0開始&#xff0…

Mysql- 流程函數-(If, CASE WHEN)的使用及練習

目錄 4.1 If函數語法格式 4.2 CASE WHEN 條件表達式格式 4.3 update與 case when 4.4 練習題1 4.5 練習題2 4.6 練習題3-行轉列 4.7 牛客練習題 4.8 LeetCode練習題 4.1 If函數語法格式 IF(expr1,expr2,expr3) 解釋&#xff1a; 如果表達式expr1true(expr1 <>…

力扣第 119 場雙周賽(Java)

文章目錄 T1 找到兩個數組中的公共元素代碼解釋 T2 消除相鄰近似相等字符代碼解釋 T3 最多 K 個重復元素的最長子數組代碼解釋 T4 關閉分部的可行集合數目代碼解釋 鏈接&#xff1a;第 119 場雙周賽 - 力扣&#xff08;LeetCode&#xff09; T1 找到兩個數組中的公共元素 給你…

Xcode doesn’t support iOS 16.6

xocde版本低&#xff0c;手動放入16.6的依賴文件 https://gitee.com/qiu1993/iOSDeviceSupport/blob/master/iOS16/16.6.zip 路徑 /Applications/Xcode.app/Contents/Developer/Platforms/iPhoneOS.platform/DeviceSupport

JAVA全棧開發 day21_JDBC與反射結合、設計模式

一、總結 一階段 day01 java 發展&#xff0c;java 環境( path, java_home, class_path)&#xff0c;java 原理&#xff0c; java 執行 &#xff0c; jvm , jre , jdk day02 變量 標識符命名規則 數據類型 數據類型的轉換 運算符 day03 選擇結構 if , switch day04 循環結…