PSP - 蛋白質真實長序列查找 PDB 結構短序列的算法

歡迎關注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/134599076

在蛋白質結構預測的過程中,輸入一般是蛋白質序列(長序列),預測出 PDB 三維結構,再和 Ground Truth 的 PDB 進行比較,GT 的 PDB 是實驗測出,比真實的蛋白質序列要短,需要使用算法進行查找。

滿足約束:PDB 結構序列的長度 小于 蛋白質序列的長度,并且是子集關系。

  • 黃色是 PDB 官網的結構
  • 藍色是預測的全長序列的結構
  • 粉色是通過算法,截取的子結構

即:
效果

源碼:

def match_sub_seq(seq_long, seq_short):"""匹配序列子串,返回區間范圍,一般用于長FASTA與短PDBSeq之間的預處理"""def get_seq_max_idx(seq_l, seq_s):"""序列匹配結果,返回連續最大索引"""np = len(seq_l)nf = len(seq_s)res = [0] * npi, j = 0, 0same = 0is_next, next_i = True, 0while i < np:rp = seq_l[i]  # pdb 的 殘基rf = seq_s[j]  # fasta 的殘基if is_next:next_i = i + 1is_next = Falseif rp == rf:same += 1j += 1else:j = 0same = 0if seq_l[i] == seq_s[j]:same += 1j += 1if i < np:res[i] = max(same, res[i])i += 1if j >= nf:j = 0same = 0# 避免 "AAABCDEFGAB" 與 "AABCDEFG" 情況if rp != rf:i = next_iis_next = Truereturn resnl, ns = len(seq_long), len(seq_short)size = 0gap_list = []  # 區間范圍tmp_seq_short = seq_short# print(f"[Info] seq_long: {seq_long}")# print(f"[Info] seq_short: {seq_short}")prev_idx = 0while size < ns:# print(f"[Info] tmp_seq_short: {tmp_seq_short}")res = get_seq_max_idx(seq_long, tmp_seq_short)max_val = max(res)  # 最大索引值max_indices = [i for i, x in enumerate(res) if x == max_val]for j in sorted(max_indices):# print(j, prev_idx)if j <= prev_idx:continueelse:max_idx = jbreaks_idx, e_idx = max_idx-max_val+1, max_idx+1prev_idx = e_idxgap_list.append([s_idx, e_idx])tmp_sub_long = seq_long[s_idx:e_idx]tmp_short = tmp_seq_short[:max_val]assert tmp_sub_long == tmp_shorttmp_seq_short = tmp_seq_short[max_val:]size += max_val# 驗證邏輯f_seq = ""for gap in gap_list:f_seq += seq_long[gap[0]:gap[1]]assert f_seq == seq_shortreturn gap_list

從索引中,提取 PDB:

def extract_pdb_from_gap(pdb_path, output_path, gap_list):"""從殘基的 gap list 提取新的 PDB 文件"""d3to1 = {'CYS': 'C', 'ASP': 'D', 'SER': 'S', 'GLN': 'Q', 'LYS': 'K','ILE': 'I', 'PRO': 'P', 'THR': 'T', 'PHE': 'F', 'ASN': 'N','GLY': 'G', 'HIS': 'H', 'LEU': 'L', 'ARG': 'R', 'TRP': 'W','ALA': 'A', 'VAL': 'V', 'GLU': 'E', 'TYR': 'Y', 'MET': 'M'}d1to3 = invert_dict(d3to1)# chain_idx = 0atom_num_idx = 1res_seq_num_idx = 0pre_res_seq_num = ""   # 殘基可能是52Achain_id_list = []out_lines = []line_idx = 0lines = read_file(pdb_path)res_ca_dict = dict()for idx, line in enumerate(lines):# 只處理核心行record_type = str(line[:6].strip())  # 1~6if record_type not in ["ATOM", "HETATM"]:continuerecord_type = "ATOM"line_idx += 1# 重新設置 atom_serial_num# atom_num = int(line[6:11].strip())  # 7~11atom_num = atom_num_idxatom_num_idx += 1# 替換為標準氨基酸residue_name = str(line[17:20].strip())  # 18~20if residue_name not in d3to1_ex:continueif residue_name in d3to1_ex and residue_name not in d3to1.keys():a = d3to1_ex[residue_name]residue_name = d1to3[a]# 不修改鏈名chain_id = str(line[21].strip())  # 22if chain_id not in chain_id_list:  # 更換鏈chain_id_list.append(chain_id)pre_res_seq_num = ""# chain_idx += 1# chain_id = chr(ord("A") + chain_idx - 1)# 重新設置 res_seq_numres_seq_num = line[22:27].strip()  # 23~26 \ 23~27if pre_res_seq_num != res_seq_num:  # 更換殘基pre_res_seq_num = res_seq_numres_seq_num_idx += 1res_ca_dict[res_seq_num_idx] = Falseres_seq_num = res_seq_num_idx# 確保只有一個CAatom_name = str(line[12:16].strip())  # 13~16if atom_name == "CA":if res_ca_dict[res_seq_num]:print(f"[Warning] PDB res {res_seq_num} has more than one CA! ")continueelse:res_ca_dict[res_seq_num] = Truecoordinates_x = str(line[30:38].strip())  # 31~38coordinates_y = str(line[38:46].strip())  # 39~46coordinates_z = str(line[46:54].strip())  # 47~54occupancy = str(line[54:60].strip())  # 55~60temperature_factor = str(line[60:66].strip())  # 61~66element_symbol = str(line[76:78])  # 77~78# 判斷殘基索引是否在 gap_list 中,其余保持不變is_skip = Truefor gap in gap_list:if gap[0] <= res_seq_num-1 < gap[1]:is_skip = Falseif is_skip:continueout_line = "{:<6}{:>5} {:^4} {:<3} {:<1}{:>4}    {:>8}{:>8}{:>8}{:>6}{:>6}          {:>2}".format(str(record_type), str(atom_num), str(atom_name), str(residue_name),str(chain_id), str(res_seq_num),str(coordinates_x), str(coordinates_y), str(coordinates_z),str(occupancy), str(temperature_factor),str(element_symbol))out_lines.append(out_line)create_empty_file(output_path)write_list_to_file(output_path, out_lines)def truncate_pdb_by_sub_seq(pdb_path, sub_seq, output_path):"""根據子序列提取新的 PDB 文件"""seq_str, n_chains, chain_dict = get_seq_from_pdb(pdb_path)pdb_seq = list(chain_dict.values())[0]try:gap_list = match_sub_seq(pdb_seq, sub_seq)except Exception as e:print(f"[Warning] input sub_seq is not pdb sub seq! {pdb_path}")return output_pathextract_pdb_from_gap(pdb_path, output_path, gap_list)# 驗證邏輯seq_str, n_chains, chain_dict = get_seq_from_pdb(output_path)new_seq = list(chain_dict.values())[0]assert new_seq == sub_seq, print(f"[Error] new_seq: {new_seq}, sub_seq: {sub_seq}")return output_path

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/166936.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/166936.shtml
英文地址,請注明出處:http://en.pswp.cn/news/166936.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Android:控制按鍵燈亮滅【button-backlight】

/frameworks/base/services/core/java/com/android/server/policy/PhoneWindowManager.java 1.導包 import java.io.DataOutputStream; import java.io.FileOutputStream; Handler mHandler3; 2.新建handler對象 public void init(Context context, IWindowManager windowMan…

制作linux deb安裝包

dpkg 命令命令詳解 dpkg -i手動安裝軟件包(這個命令并不能解決軟件包之前的依賴性問題),如果在安裝某一個軟件包的時候遇到了軟件依賴的問題,可以用apt-get -f install在解決信賴性這個問題.     dpkg --info “軟件包名” --列出軟件包解包后的包名稱. dpkg -l–列出當前…

java 基礎面試題——問題+答案——第1期

一、問題 在Java基礎面試中&#xff0c;面試官可能會問及一系列基礎知識&#xff0c;以確保對Java語言的核心概念和基本特性有清晰的理解。以下是一些可能的問題&#xff1a; Java基礎&#xff1a; 解釋Java的基本特性。什么是Java虛擬機&#xff08;JVM&#xff09;&#xff…

2024深圳電子展,加快粵港澳電子信息發展,重點打造“灣區經濟”

在“十四五”期間&#xff0c;中國電子信息產業面臨著新形勢和新特點。隨著國家對5G、人工智能、工業互聯網、物聯網等“新基建”的加速推進&#xff0c;以及形成“雙循環”新格局的形勢&#xff0c;新型顯示、集成電路等產業正在加速向國內轉移。這一過程不僅帶來了新的應用前…

主從復制讀寫分離?

主從復制和讀寫分離是常見的數據庫架構策略&#xff0c;它們可以提高系統的性能和可靠性。下面是一個簡單的實現方法&#xff1a; 主從復制&#xff1a; 配置主數據庫&#xff1a;在主數據庫上啟用二進制日志&#xff08;binary log&#xff09;&#xff0c;用于記錄所有修改數…

【ES6.0】-詳細模塊化、export與Import詳解

【ES6.0】-詳細模塊化、export與Import詳解 文章目錄 【ES6.0】-詳細模塊化、export與Import詳解一、模塊化概述二、ES6模塊化的語法規范三、export導出模塊3.1 單變量導出3.2 導出多個變量3.3 導出函數3.4 導出對象第一種第二種&#xff1a; 3.5 類的導出第一種第二種 四、imp…

FFNPEG編譯腳本

下面是一個ffmpeg編譯腳本&#xff1a; #!/bin/bash set -eu -o pipefail set eu o pipefailFFMPEG_TAGn4.5-dev build_path$1 git_repo"https://github.com/FFmpeg/FFmpeg.git" cache_tool"" sysroot"" c_compiler"gcc" cxx_compile…

2023年亞太地區數學建模大賽 C 題

我國新能源電動汽車的發展趨勢 新能源汽車是指以先進技術原理、新技術、新結構的非常規汽車燃料為動力來源&#xff08;非常規汽車燃料指汽油、柴油以外的燃料&#xff09;&#xff0c;將先進技術進行汽車動力控制和驅動相結合的汽車。新能源汽車主要包括四種類型&#xff1a;…

【mybatis注解實現條件查詢】

文章目錄 步驟1: 引入MyBatis依賴步驟2: 創建數據模型步驟3: 創建Mapper接口步驟4: 配置MyBatis步驟5: 執行條件查詢 步驟1: 引入MyBatis依賴 <dependency><groupId>org.mybatis</groupId><artifactId>mybatis</artifactId><version>3.x.…

MobaXterm連接節點一段時間后超時Session stopped

1、MobaXterm &#xff08;1&#xff09;設置ssh 超時時間 &#xff08;2&#xff09;設置保持連接 如果服務器端設置了超時時間&#xff0c;會以服務器為準&#xff0c;具體設置&#xff1a; 2、服務端 cat /etc/ssh/sshd_config | grep "ClientAlive" 可以把設置…

一穿一戴一世界 | 紫光展銳2023智能穿戴沙龍成功舉辦

11月23日&#xff0c;紫光展銳在深圳成功舉辦了以“一穿一戴一世界”為主題的2023智能穿戴沙龍。展銳智能穿戴沙龍已舉辦四屆&#xff0c;旨在為行業提供啟發性的觀點和前瞻性的創新理念。本屆沙龍吸引了終端廠商、行業翹楚、生態伙伴等行業各領域超過500人匯聚一堂&#xff0c…

【HTML5-webscoket實時通信(web)】

websocket是什么&#xff1f; 就是用來創建網絡聊天室&#xff0c;實時通信websocket的方法有哪些&#xff1f; https://developer.mozilla.org/zh-CN/docs/Web/API/WebSockets如何實現&#xff1a;&#xff08;以下實現流程&#xff09; 前端&#xff1a; // 直播中// 聊天web…

機器篇——決策樹(六) 細說 評估指標的交叉驗證

本小節&#xff0c;細說 評估指標的交叉驗證。 三. 評估指標 3. 交叉驗證(cross validation) (1). 概念 交叉驗證(cross validation, cv) 主要用于模型訓練或建模應用中&#xff0c;如分類預測、PCR、PLS 回歸建模等。在給定的樣本空間中&#xff0c;拿出大部分…

HCIA-RS基礎-靜態路由協議

摘要&#xff1a;靜態路由是一種在網絡中廣泛應用的路由選擇方案&#xff0c;它以其簡單的配置和低開銷而備受青睞。本文將介紹靜態路由的配置方法、默認路由的設置、路由的負載分擔和備份策略。通過學習本文&#xff0c;希望可以你能夠掌握靜態路由的基本概念和在華為模擬器中…

貪心算法個人見解

目錄 基本思想&#xff1a; 貪心算法的步驟&#xff1a; 示例&#xff1a; 貪心算法&#xff08;Greedy Algorithm&#xff09;是一種基于貪心策略的算法范式&#xff0c;它在每一步選擇中都采取當前狀態下的最優選擇&#xff0c;而不考慮全局最優解。貪心算法通常適用于那些…

U-Boot 之九 詳解 Pinctrl 子系統、命令、初始化流程、使用方法

嵌入式芯片中,引腳復用是一個非常常見的功能,U-Boot 提供一個類似 Linux Kernel 的 Pinctrl 子系統來處理引腳復用功能。正好最近用到了這部分功能,需要移植 Pinctrl 驅動,特此記錄一下學習過程。 架構 U-Boot 提供一個類似 Linux Kernel 的 Pinctrl 子系統,用來統一各芯…

Double 4 VR智能互動教學系統在小語種課堂中的教學應用

小語種課堂一直是教育領域的一個難點。由于語言本身的復雜性和文化背景的差異&#xff0c;小語種教學一直是一個挑戰。傳統的課堂教學方法往往難以激發學生的學習興趣和動力&#xff0c;教學效果不盡如人意。而Double 4 VR智能互動教學系統為小語種課堂帶來了新的可能。 Double…

視頻服務網關的三大部署(三)

視頻網關是軟硬一體的一款產品&#xff0c;可提供多協議&#xff08;RTSP/ONVIF/GB28181/海康ISUP/EHOME/大華、海康SDK等&#xff09;的設備視頻接入、采集、處理、存儲和分發等服務&#xff0c; 配合視頻網關云管理平臺&#xff0c;可廣泛應用于安防監控、智能檢測、智慧園區…

RK WiFi部分信道在部分地區無法使用的原因

不同國家支持的WiFi信道不一樣&#xff0c;需要正確設置wificountrycode 修改路徑&#xff1a; device\rockchip\common\BoardConfig.mk 修改內容&#xff1a;androidboot.wificountrycodeXX 該屬性會被解析為 ro.boot.wificountrycode framework層會在&#xff1a; framewor…

用好語言模型:temperature、top-p等核心參數解析

編者按&#xff1a;我們如何才能更好地控制大模型的輸出? 本文將介紹幾個關鍵參數&#xff0c;幫助讀者更好地理解和運用 temperature、top-p、top-k、frequency penalty 和 presence penalty 等常見參數&#xff0c;以優化語言模型的生成效果。 文章詳細解釋了這些參數的作用…