Smith-Waterman 算法(C++實現)

本文實現Smith-Waterman 算法案例,用于局部序列比對。該算法是生物信息學中用于尋找兩個 DNA、RNA 或蛋白質序列之間最優局部比對的經典算法,廣泛應用于序列相似性分析和功能預測。


問題描述

給定兩個生物序列 seq1seq2,如何找到它們的最優局部比對,使得比對得分最大化?


算法思想

Smith-Waterman 算法的核心思想是動態規劃,通過構建一個得分矩陣,逐步計算兩個序列的比對得分,并回溯找到最優局部比對路徑。與 Needleman-Wunsch 算法不同,Smith-Waterman 算法允許比對從任意位置開始和結束,更適合尋找局部相似性。具體步驟如下:

  1. 初始化得分矩陣,其中 dp[i][j] 表示 seq1 的前 i 個字符與 seq2 的前 j 個字符的比對得分。
  2. 填充得分矩陣,考慮四種可能的比對操作:
    • 匹配或錯配:dp[i-1][j-1] + score(seq1[i], seq2[j])
    • 插入空格:dp[i][j-1] + gap_penalty
    • 刪除空格:dp[i-1][j] + gap_penalty
    • 比對從當前位置重新開始:0
  3. 回溯得分矩陣,找到最優局部比對路徑。

C++代碼實現

#include <iostream>
#include <vector>
#include <algorithm>using namespace std;// 定義得分函數
int match_score(char a, char b) {return (a == b) ? 1 : -1; // 匹配得分為 1,錯配得分為 -1
}// Smith-Waterman 算法
pair<int, string> smithWaterman(const string& seq1, const string& seq2, int gap_penalty = -1) {int m = seq1.size();int n = seq2.size();// 初始化得分矩陣vector<vector<int>> dp(m + 1, vector<int>(n + 1, 0));int max_score = 0; // 記錄最大得分int max_i = 0, max_j = 0; // 記錄最大得分的位置// 填充得分矩陣for (int i = 1; i <= m; i++) {for (int j = 1; j <= n; j++) {int match = dp[i - 1][j - 1] + match_score(seq1[i - 1], seq2[j - 1]);int insert = dp[i][j - 1] + gap_penalty;int del = dp[i - 1][j] + gap_penalty;dp[i][j] = max({0, match, insert, del});// 更新最大得分及其位置if (dp[i][j] > max_score) {max_score = dp[i][j];max_i = i;max_j = j;}}}// 回溯找到最優局部比對string align1, align2;int i = max_i, j = max_j;while (i > 0 && j > 0 && dp[i][j] != 0) {if (dp[i][j] == dp[i - 1][j - 1] + match_score(seq1[i - 1], seq2[j - 1])) {align1 = seq1[i - 1] + align1;align2 = seq2[j - 1] + align2;i--;j--;} else if (dp[i][j] == dp[i][j - 1] + gap_penalty) {align1 = '-' + align1;align2 = seq2[j - 1] + align2;j--;} else {align1 = seq1[i - 1] + align1;align2 = '-' + align2;i--;}}return {max_score, align1 + "\n" + align2};
}int main() {string seq1 = "GATTACA";string seq2 = "GCATGCU";auto result = smithWaterman(seq1, seq2);cout << "最優局部比對得分: " << result.first << endl;cout << "最優局部比對結果: " << endl << result.second << endl;return 0;
}

關鍵解析

  1. 時間復雜度O(m * n),其中 mn 分別是兩個序列的長度。
  2. 空間復雜度O(m * n),用于存儲得分矩陣。
  3. 適用場景
    • 局部序列比對。
    • 尋找序列中的功能域或保守區域。

輸出示例

最優局部比對得分: 2
最優局部比對結果: 
AT
AT

總結

Smith-Waterman 算法是生物信息學中用于局部序列比對的經典算法,通過動態規劃和回溯找到最優局部比對。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/75239.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/75239.shtml
英文地址,請注明出處:http://en.pswp.cn/web/75239.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

安卓玩機工具-----安卓機型通用 無損備份與恢復數據的工具BackupToolkit 操作過程

常規安卓機型數據備份與恢復的方法及工具 安卓設備的數據備份與恢復是保護個人數據的重要手段之一。以下是幾種常用的方法和工具&#xff1a; 方法一&#xff1a;利用內置的云服務進行備份 許多安卓設備提供了內置的云服務&#xff0c;例如華為手機可以通過“華為云空間”來…

oracle 動態性能視圖

Oracle 數據庫中的 V$SQLAREA 是一個動態性能視圖&#xff08;Dynamic Performance View&#xff09;&#xff0c;用于記錄共享池&#xff08;Shared Pool&#xff09;中所有 SQL 語句的統計信息。每個 SQL 語句在共享池中存儲為一個游標&#xff08;Cursor&#xff09;&#x…

OceanBase V4.3.5 上線全文索引功能,讓數據檢索更高效

近日&#xff0c;OceanBase 4.3.5 BP1 版本正式推出了企業級全文索引功能。該版本在中文分詞、查詢效率及混合檢索能力上進行了全面提升。經過自然語言模式和布爾模式在不同場景下的對比測試&#xff0c;OceanBase 的全文索引性能明顯優于 MySQL。 點擊下載 OceanBase 社區版…

海康攝像頭AI報警、移動偵測報警等通過Ehome/ISUP協議上報到LiveNVR流媒體平臺時如何進行報警配置

海康攝像頭AI報警、移動偵測報警等通過Ehome/ISUP協議上報到LiveNVR流媒體平臺時如何進行報警配置 1、LiveNVR介紹2、如何配置海康攝像頭、錄像機通過Ehome/ISUP注冊到LiveNVR設備 EHOME 接入配置示例設備 ISUP 接入配置示例直播流接入類型 海康ISUP海康 ISUP 設備ID啟用保存 3…

golang gmp模型分析

思維導圖&#xff1a; 1. 發展過程 思維導圖&#xff1a; 在單機時代是沒有多線程、多進程、協程這些概念的。早期的操作系統都是順序執行 單進程的缺點有&#xff1a; 單一執行流程、計算機只能一個任務一個任務進行處理進程阻塞所帶來的CPU時間的浪費 處于對CPU資源的利用&…

Redis基礎指令(Windows)

1.cmd命令行啟動redis 直接cmd打開整個文件 1.1.啟動server 輸入指令&#xff1a; redis-server.exe redis.windows.conf 會進入serve端 1.2.啟動客戶端 &#xff01;&#xff01;重新打開一個cmd&#xff0c;方法和上面一樣&#xff01;&#xff01; 之后輸入 redis-…

vue:前端預覽 / chrome瀏覽器設置 / <iframe> 方法預覽 doc、pdf / vue-pdf 預覽pdf

一、本文目標 <iframe> 方法預覽 pdf 、word vue-pdf 預覽pdf 二、<iframe> 方法 2.1、iframe 方法預覽需要 瀏覽器 設置為&#xff1a; chrome&#xff1a;設置-隱私設置和安全性-網站設置-更多內容設置-PDF文檔 瀏覽器訪問&#xff1a; chrome://settings/co…

【C++游戲引擎開發】第11篇:GLFW、GLAD環境搭建與第一個三角形渲染

一、GLFW、GLAD安裝 1.1 vcpkg安裝相關庫 跨平臺C++包管理利器vcpkg完全指南 # 安裝GLFW vcpkg install glfw3# 安裝GLAD vcpkg install glad1.2 初始測試代碼 #include <glad/glad.h> #include <GLFW/glfw3.h> int main() {glfwInit();GLFWwindow* window = g…

西門子S7-1500與S7-200SMART通訊全攻略:從基礎配置到遠程IO集成

以下是一篇關于西門子S7-1500與S7-200SMART通訊的詳細教程&#xff0c;包含遠程IO模塊的配置方法&#xff0c;適用于工業自動化場景的博客發布&#xff1a; 西門子S7-1500與S7-200SMART通訊全攻略&#xff1a;從基礎配置到遠程IO集成 一、硬件與軟件準備 硬件設備 主站&#x…

前端性能優化的全方位方案【待進一步結合項目】

以下是前端性能優化的全方位方案,結合代碼配置和最佳實踐,涵蓋從代碼編寫到部署的全流程優化: 一、代碼層面優化 1. HTML結構優化 <!-- 語義化標簽減少嵌套 --> <header><nav>...</nav> </header> <main><article>...</arti…

前端快速入門——JavaScript變量、控制語句

1.JavaScript 定義 JavaScript 簡稱 JS. JavaScript 是一種輕量級、解釋型、面向對象的腳本語言。它主要被設計用于在網頁上實現動態效果&#xff0c;增加用戶與網頁的交互性。 作為一種客戶端腳本語言&#xff0c;JavaScript 可以直接嵌入 HTML&#xff0c;并在瀏覽器中執行。…

GitHub 趨勢日報 (2025年04月01日)

GitHub 趨勢日報 (2025年04月01日) 本日報由 TrendForge 系統生成 https://trendforge.devlive.org/ &#x1f4c8; 今日整體趨勢 Top 10 排名項目名稱項目描述今日獲星語言1punkpeye/awesome-mcp-serversA collection of MCP servers.? 3280未指定2th-ch/youtube-musicYouTu…

windows手動添加鼠標右鍵彈窗快捷方式

此處以添加Git Bash Here為例 一.操作步驟 按 Win R 鍵打開 運行 對話框&#xff0c;輸入 regedit&#xff0c;并按下回車&#xff0c;打開注冊表編輯器。 導航到 HKEY_CLASSES_ROOT\Directory\Background\shell。 右鍵單擊 shell&#xff0c;選擇 新建 → 項&#xff0c;并…

2025.04.09【Sankey】| 生信數據流可視化精講

文章目錄 引言Sankey圖簡介R語言中的Sankey圖實現安裝和加載networkD3包創建Sankey圖的數據結構創建Sankey圖繪制Sankey圖 結論 引言 在生物信息學領域&#xff0c;數據可視化是理解和分析復雜數據集的關鍵工具之一。今天&#xff0c;我們將深入探討一種特別適用于展示數據流動…

GD32H759IMT6 Cortex-M7 OpenHarmony輕量系統移植——4.1版本升級到5.0.3

筆者在去年利用國慶時間&#xff0c;將Cortex-M7 的國產廠商兆易創新GD32H459移植OpenHarmony輕量系統&#xff0c;但是適配不太完善——只能選擇liteos-m接管中斷。這樣導致使用中斷非常麻煩。于是筆者最近將接管中斷模式修改為不接管&#xff0c;這樣可以方便的使用gd32提供的…

【算法競賽】樹上最長公共路徑前綴(藍橋杯2024真題·團建·超詳細解析)

目錄 一、題目 二、思路 1. 問題轉化&#xff1a;同步DFS走樹 2. 優化&#xff1a;同步DFS匹配 3. 狀態設計&#xff1a;dfs參數含義 4. 匹配過程&#xff1a;用 map 建立權值索引 5. 終止條件&#xff1a;無法匹配則更新答案 6. 總結 三、完整代碼 四、知識點總…

開源免費虛擬化平臺PVE軟件定義網絡

一、PVE SDN&#xff08;Software Defined Networking&#xff09;原理與使用邏輯 SDN&#xff08;軟件定義網絡&#xff09; 是一種將網絡控制邏輯從傳統交換機、路由器中分離出來的技術&#xff0c;使得網絡可以通過軟件集中管理和自動化配置。 Proxmox VE&#xff08;PVE&…

mysql 8.0.41下載安裝教程(附安裝包)mysql 8.0.41圖文詳細安裝教程

文章目錄 前言一、mysql 8.0.41 簡介二、安裝前準備三、MySQL 8.0 安裝流程解析1.解壓安裝包2.啟動安裝程序3.選擇安裝類型4.選擇安裝組件5.開始安裝6.配置設置&#xff08;部分步驟&#xff09;7.設置數據庫密碼8.完成安裝配置9.配置環境變量&#xff1a;10.驗證安裝&#xff…

JAVA基礎八股復習

1.局部變量一般存放在棧中&#xff0c;成員變量一般存放在堆中 2.什么是多態&#xff1f;談談對多態的理解&#xff1f; 在面向對象語言中&#xff0c;接口的多種不同的實現方式即為多態。用白話來說&#xff0c;就是多個對象調用同一個方法&#xff0c;得到不同的結果。 多態中…

10:00開始面試,10:08就出來了,問的問題有點變態。。。

從小廠出來&#xff0c;沒想到在另一家公司又寄了。 到這家公司開始上班&#xff0c;加班是每天必不可少的&#xff0c;看在錢給的比較多的份上&#xff0c;就不太計較了。沒想到8月一紙通知&#xff0c;所有人不準加班&#xff0c;加班費不僅沒有了&#xff0c;薪資還要降40%…