pharokka phold--快速噬菌體注釋工具

pharokka是一款專用于噬菌體基因組及宏基因組的快速標準化注釋工具。PS.仍在積極更新中,最近一次更新是在今年6.20。

若需對細菌基因組進行快速標準化注釋,建議使用Bakta。啟發pharokka開發及命名的Prokka也是優秀選擇,但Bakta實為Prokka的卓越繼任者。phold是同一作者開發的另一個噬菌體注釋軟件,其利用結構同源性來優化噬菌體注釋。phold 在注釋效果上顯著優于 pharokka,尤其對于特征較少的噬菌體(例如來自宏基因組數據集的噬菌體)。目前,pharokka 仍具備一些 phold 尚未支持的功能(如 tRNA、tmRNA、CRISPR 重復序列識別 以及 INPHARED 分類搜索),因此建議在運行 pharokka 后再運行 phold 進行補充注釋。phold 可直接將 pharokka 的 Genbank 輸出文件 作為輸入。也就是說,如果用 pharokka 注釋過的噬菌體基因組,只需通過 phold 即可輕松升級注釋結果,獲得更豐富的功能預測信息。
在這里插入圖片描述

pharokka安裝和使用

如果不想安裝,也有galaxy在線服務器可以使用:Galaxy Europe webserver
除了下面列出的conda,也可以使用Pip、源代碼或docker等容器進行安裝和使用。

# pharokka
conda install -c bioconda pharokka
# pharokka數據庫下載
install_databases.py -o <path/to/databse_dir>
# 國內估計得用這個網址或想點辦法
wget "https://zenodo.org/record/8276347/files/pharokka_v1.4.0_databases.tar.gz"
tar -xzf pharokka_v1.4.0_databases.tar.gz
# 注釋
pharokka.py -i <phage fasta file> -o <output directory> -d <path/to/database_dir> -t <threads>
# pharokka v1.7.0 新增多序列繪圖功能
pharokka_multiplotter.py -g pharokka.gbk  -o pharokka_plots_output_directory 

pharokka原理和結果說明

pharokka 是一款專為噬菌體基因組設計的快速標準化注釋工具,默認使用噬菌體特異性基因預測工具 PHANOTATE(也可選 Prodigal/pyrodigal)。它通過 MMseqs2 比對 PHROGs/CARD/VFDB 數據庫進行功能注釋,并從 v1.4.0 起新增 PyHMMER 的隱馬爾可夫模型提升 PHROGs 注釋靈敏度。其核心輸出包括可直接用于下游分析(如 Roary)的 GFF 文件,以及統計 CDS、tRNA、CRISPR 和功能注釋的 cds_functions.tsv 文件。若需進一步優化注釋,可將其 Genbank 輸出導入 phold 進行基于結構同源性的增強分析。

pharokka.py [-h] [-i 輸入文件] [-o 輸出目錄] [-d 數據庫目錄] [-t 線程數] [其他選項...]
- 必需參數-i 輸入FASTA文件 | -o 輸出目錄
- 主要選項-t 線程數 | -g 基因預測工具(phanotate/prodigal) | -e E值閾值(默認1E-05)--meta 宏基因組模式 | --fast 僅用PyHMMER加速注釋 | --dnaapler 自動調整基因組方向
- 高級控制--skip_extra_annotations 跳過tRNA/CRISPR檢測 | --genbank 輸入GenBank文件重新注釋

phold安裝和使用

phold 采用 ProstT5 蛋白質語言模型(深度學習模型),將氨基酸序列快速轉化為 3Di 結構token編碼,并通過 Foldseek 比對包含 100 萬+ 噬菌體蛋白結構的數據庫(該數據庫主要基于 Colabfold 預測構建)。

# conda安裝
mamba create -n pholdENV -c conda-forge -c bioconda phold 
# nvidia gpu版本,還有mac m芯片版本(可能用的人不多,沒摘錄)
mamba create -n pholdENV -c conda-forge -c bioconda phold pytorch=*=cuda*
# 運行
phold run -i tests/test_data/NC_043029.gbk  -o test_output_phold -t 8

phold結果說明

若本地工作站配備 GPU,建議使用完整流程命令phold run,如果沒有gpu,添加–cpu參數。

phold run 命令核心參數說明▌ 基礎參數-i  輸入文件路徑 (必需,支持GenBank/FASTA格式)-o  輸出目錄 [默認: output_phold]-t  線程數 [默認: 1]-p  輸出文件前綴 [默認: phold]▌ 數據庫與性能-d  指定phold數據庫路徑--batch_size  ProstT5批處理大小 [默認1,推薦GPU使用]--cpu         強制使用CPU模式--keep_tmp_files 保留臨時文件(含完整Foldseek結果)▌ 高級分析選項-e  Foldseek E值閾值 [默認1e-3]--card_vfdb_evalue  CARD/VFDB專用E值 [默認1e-10]--ultra_sensitive  超敏感模式(跳過預過濾,小數據集適用)--only_representatives 僅比對聚類代表序列▌ 特殊功能--separate  為每個contig生成獨立GenBank文件--finetune  啟用實驗性PhrostT5微調模型(不推薦常規使用)--save_per_residue_embeddings 保存殘基級嵌入數據使用示例:
phold run -i input.gbk -o results -t 8 --batch_size 4注:GPU環境下推薦直接使用默認參數運行,大數據集建議調整--max_seqs限制結果數量
_aa.fasta
保存所有預測編碼序列(CDS)的氨基酸序列_3di.fasta
包含由ProstT5預測的所有CDS的Foldseek 3Di結構序列.gbk
生成包含完整注釋信息的GenBank格式文件_all_cds_functions.tsv
按contig統計的匯總數據:CDS總數各PHROG功能分類的CDS數量CARD/VFDB/Defensefinder/ACR數據庫匹配的CDS數量_per_cds_predictions.tsv
每個CDS的詳細注釋信息表注:所有輸出文件均以用戶指定的前綴開頭(默認"phold_")3Di序列文件可用于后續結構比對研究

在這里插入圖片描述

參考:

  • https://github.com/gbouras13/phold
  • https://github.com/gbouras13/pharokka
  • Galaxy Europe webserver:https://usegalaxy.eu/?tool_id=toolshed.g2.bx.psu.edu%2Frepos%2Fiuc%2Fpharokka%2Fpharokka%2F1.2.1%2Bgalaxy1&version=1.2.1%20galaxy1

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90471.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90471.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90471.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入淺出 Python Asynchronous I/O:從 asyncio 入門到實戰

在現代軟件開發中&#xff0c;性能是一個永恒的話題。特別是在處理網絡請求、文件讀寫等 I/O 密集型任務時&#xff0c;傳統的同步編程模型可能會因為等待而浪費大量時間。為了解決這個問題&#xff0c;異步編程應運而生。Python 通過內置的 asyncio 庫&#xff0c;為開發者提供…

OpenCV顏色矩哈希算法------cv::img_hash::ColorMomentHash

操作系統&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 編程語言&#xff1a;C11 算法描述 該類實現了顏色矩哈希算法&#xff08;Color Moment Hash&#xff09;&#xff0c;用于圖像相似性比較。它基于圖像在HSV顏色空間中的顏色矩統計特…

上海交大醫學院張維拓老師赴同濟醫院做R語言訓練營培訓

當前&#xff0c;醫學與人工智能的深度融合正迎來歷史性發展機遇。華中科技大學同濟醫學院附屬同濟醫院&#xff08;以下簡稱“同濟醫院”&#xff09;作為醫療人工智能應用的先行探索者&#xff0c;已在電子病歷輔助書寫、科研數據分析、醫療合同自動化審核等關鍵場景完成試點…

使用阿里云/騰訊云安裝完成mysql使用不了

顯示錯誤1130 - Host 106.228.110.117 is not allowed to connect to this MySQL server解決方案進入服務器的mysql命令行mysql -u root -p查看數據庫SHOW DATABASES;選擇mysql數據庫USE mysql;查看里面的表SHOW TABLES;查詢user表格的權限限制SELECT Host, User FROM user;將權…

第35周—————糖尿病預測模型優化探索

目錄 目錄 前言 1.檢查GPU 2.查看數據 ?編輯 3.劃分數據集 4.創建模型與編譯訓練 5.編譯及訓練模型 6.結果可視化 7.總結 前言 &#x1f368; 本文為&#x1f517;365天深度學習訓練營中的學習記錄博客 &#x1f356; 原作者&#xff1a;K同學啊 1.檢查GPU import torch.n…

接口(上篇)

接口&#xff08;上篇&#xff09;1.概念2.語法規則3.使用和特性4.實現多接口5.接口間繼承1.概念 接口就是公共的行為規范標準&#xff0c;大家在實現時&#xff0c; 只要符合規范標準&#xff0c;就可以通用。 在Java中&#xff0c;接口可以看成是&#xff1a;多個類的公共規…

UE5 源碼編譯setup.bat報錯

文章目錄編譯報錯改動說明小結更新編譯報錯 改動說明 因為需要整服務器&#xff0c;就編譯源碼&#xff0c;然后就遇到這個&#xff0c;很無語。這個問題一直存在&#xff0c;UE官方也不修復&#xff0c;也算是修復了&#xff0c;只是每次都要去重新下載替換下。也可以去問問d…

Linux下PCIe子系統(二)——PCIe子系統框架詳解

Linux下PCIe子系統&#xff08;二&#xff09;——PCIe子系統框架詳解 1. 概述 PCIe&#xff08;PCI Express&#xff09;子系統是Linux內核中負責管理PCI/PCIe設備的核心組件。它提供了一套完整的框架來發現、配置和管理PCI設備&#xff0c;實現了設備的即插即用和熱插拔功能。…

[特殊字符] LLM(大型語言模型):智能時代的語言引擎與通用推理基座

本文由「大千AI助手」原創發布&#xff0c;專注用真話講AI&#xff0c;回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我&#xff0c;一起撕掉過度包裝&#xff0c;學習真實的AI技術&#xff01; 從千億參數到人類認知的AI革命 &#x1f50d; 一、核心定義與核心特征…

18-C#改變形參內容

C#改變形參內容 1.ref 參數 int A100; add1(ref A) public int add1 (ref int x) {x x 10;return x; }2.out 參數 int A100; int B200; int Z; add3(A,B, out Z) public int add3 (int x&#xff0c;int y&#xff0c;int z) {z x y;return z; }

恒盾C#混淆加密大師最新版本1.4.0更新 - 增強各類加密效果, 提升兼容性, 使.NET加密更簡單

C#/.NET作為托管語言, 其編譯生成的EXE/DLL極易被反編譯工具還原源碼。據統計&#xff0c;大量的商業軟件曾遭遇過代碼逆向風險&#xff0c;導致核心算法泄露、授權被跳過. 因此對于C#語言開發的.NET程序來說, 在發布前進行混淆和加密非常有必要. 恒盾C#混淆加密大師作為一款.N…

數學建模:非線性規劃:二次規劃問題

一、定義如果規劃模型的目標函數是決策向量的二次函數&#xff0c;約束條件都是線性的&#xff0c;那么這個模型稱為二次規劃&#xff08;QP&#xff09;模型。二次規劃模型的一般形式為二、性質凸性判定準則二次規劃問題的凸性完全由Hessian矩陣H決定&#xff1a;??嚴格凸QP…

4. 那在詳細說一下 http 2.0 的特點

總結 二進制協議&#xff1a;文本通信改為二進制幀通信&#xff0c;數據可以劃分為更小的幀&#xff0c;便于高效解析和傳輸。多路復用&#xff1a;廢除 pipeline 管道&#xff0c;避免了“隊頭阻塞”問題。允許同一個 TCP 連接同時發送多個請求和協議&#xff0c;提高網絡資源…

Qt中遍歷QMap的多種方法及性能分析

Qt中遍歷QMap的多種方法及性能分析遍歷QMap的方法**1、使用迭代器&#xff08;STL風格&#xff09;****2、使用Java風格迭代器****3、使用C11范圍循環****4、使用鍵值分離遍歷**性能分析使用建議遍歷QMap的方法 1、使用迭代器&#xff08;STL風格&#xff09; QMap<QStrin…

Unity3D物理引擎性能優化策略

前言 在Unity3D中優化物理引擎性能&#xff0c;尤其是處理3D碰撞器與2D碰撞器的映射問題&#xff0c;需要結合系統特性和最佳實踐。以下是關鍵策略和實現方案&#xff1a; 對惹&#xff0c;這里有一個游戲開發交流小組&#xff0c;希望大家可以點擊進來一起交流一下開發經驗呀…

集群與集群應用

負載均衡與高可用綜合實驗一、集群是什么&#xff1f;是有一組獨立的計算機系統構成的一個松耦合的多處理系統&#xff0c;作為一個整體向用戶提供一組網絡資源&#xff0c;這些單個的計算機就是集群的節點。二、集群類型Load Balance cluster&#xff08;負載均衡集群&#xf…

jmm,`as - if - serial` 與 `happens - before` 原則

在Java并發編程中&#xff0c;as - if - serial 與 happens - before 原則是確保程序在多線程環境下正確執行的重要規則&#xff0c;下面為你詳細講解&#xff1a; as - if - serial原則 定義&#xff1a;as - if - serial 原則是指&#xff0c;不管編譯器和處理器如何優化&…

主流大模型Agent框架 AutoGPT詳解

注&#xff1a;此文章內容均節選自充電了么創始人&#xff0c;CEO兼CTO陳敬雷老師的新書《GPT多模態大模型與AI Agent智能體》&#xff08;跟我一起學人工智能&#xff09;【陳敬雷編著】【清華大學出版社】 GPT多模態大模型與AI Agent智能體書籍本章配套視頻課程【陳敬雷】 文…

kotlin學習,val使用get()的問題

疑問&#xff1a;定義val怎么還能使用get()代碼示例&#xff1a;private val nametype:Intget()Business.carInfo?.let{carSc(it)}?:LType.AS回答&#xff1a;Kotlin 允許為屬性定義自定義 getter&#xff0c;每次訪問屬性時會執行該方法疑問&#xff1a;這里引出另一個不解&…

解決el-select數據類型相同但是顯示數字的問題

這個不是我寫的&#xff0c;只是遇到的bug&#xff0c;寫法問題&#xff0c;忽略了值的綁定的問題源代碼bug&#xff1a;<el-selectv-model"schemeInfo.horizon"placeholder"請選擇起報月份"clearablefilterable><el-option v-for"(option,i…