PMAT安裝及使用(Bioinformatics工具-021)

01 背景

PMAT 是一個高效的組裝工具包,用于利用第三代(HiFi/CLR/ONT)測序數據組裝植物線粒體基因組。PMAT 還可以用于組裝葉綠體基因組或動物線粒體基因組。

PMAT:使用低覆蓋度HiFi測序數據的高效植物線粒體組裝工具包-文獻精讀分享2

02 參考
https://github.com/bichangwei/PMAT  #官網
?03?安裝
#1 Install using gitgit clone https://github.com/bichangwei/PMAT.git
cd PMAT/bin
chmod a+x PMAT
PMAT --help#2 Install by downloading the source codeswget https://github.com/bichangwei/PMAT/archive/refs/tags/v1.5.3.tar.gz
tar -zxvf v1.5.3.tar.gz
cd PMAT-1.5.3/bin
chmod a+x PMAT
PMAT --help#3 requirementBLASTn
Singularity ≥ 1.3
Apptainer ≥ 1.3
Canu > v2.0
NextDenovo 3.1 blast詳見往期
3.2 Singularity 如下
wget https://github.com/hpcng/singularity/releases/download/v3.7.2/singularity-3.7.2.tar.gz
tar -xzf singularity-3.7.2.tar.gz
cd singularity
./mconfig
cd builddir
make
sudo make install
3.3 Apptainer如下
Building & Installing from RPM
勸退沒有root權限使用者,需要安裝GO圖形庫
https://github.com/apptainer/apptainer/blob/main/INSTALL.md
make -C builddir rpm RPMPREFIX=/opt/apptainer
更換方式,一鍵安裝
conda install conda-forge::apptainer
3.4 Canu同上
conda install -c bioconda canu

Blast安裝及使用-Blast+2.14.0(bioinfomatics tools-001)

04?使用及常用命令行
運行 PMAT --help 查看程序的使用指南。用法: PMAT <command> <arguments>```______     ___           __        ____       _____________ 
|   __  \  |   \        /   |      / __ \     |_____   _____|
|  |__)  | | |\ \      / /| |     / /  \ \          | |      
|   ____/  | | \ \    / / | |    / /____\ \         | |      
|  |       | |  \ \  / /  | |   / /______\ \        | |      
|  |       | |   \ \/ /   | |  / /        \ \       | |      
|__|       |_|    \__/    |_| /_/          \_\      |_|      
```PMAT            一個用于植物線粒體基因組高效組裝的工具包
版本           1.5.3
貢獻者         Bi,C. 和 Han,F.
電子郵件       bichwei@njfu.edu.cn, hanfc@caf.ac.cn更多關于 PMAT 的信息,請訪問 https://github.com/bichangwei/PMAT可選參數:
-h, --help     顯示此幫助信息并退出
-v, --version  顯示程序版本并退出命令:autoMito    一步完成線粒體基因組的de novo組裝。該命令可以直接從原始測序數據生成主組裝圖。graphBuild  如果'autoMito'模式無法生成線粒體基因組組裝圖,您可以使用此命令手動選擇種子進行組裝。
4.1?autoMito
autoMito
運行 PMAT autoMito --help 查看使用指南。必需參數:-i INPUT, --input INPUT輸入原始測序文件-o OUTPUT, --output OUTPUT輸出目錄-st SEQTYPE, --seqtype SEQTYPE測序平臺 (ONT/CLR/HiFi)-g GENOMESIZE, --genomesize GENOMESIZE輸入物種的基因組大小,例如 1G, 1000M可選參數:-h, --help            顯示此幫助信息并退出-tk TASK, --task TASKall/p1/ 默認: allall : de novo 組裝,包括對 ONT/CLR 數據的糾錯,以及對 HiFi 數據不糾錯p1  : 導入已糾錯的 ONT/CLR 數據進行直接組裝-tp TYPE, --type TYPEmt/pt/all 默認: mtmt   : 組裝線粒體基因組pt   : 組裝葉綠體基因組all  : 組裝線粒體和葉綠體基因組-cs CORRECTSOFT, --correctsoft CORRECTSOFT使用 nextDenovo 或 Canu 進行糾錯,默認: NextDenovo-cp CANU, --canu CANU請提供 Canu 的安裝路徑-np NEXTDENOVO, --nextDenovo NEXTDENOVO請提供 nextDenovo 的安裝路徑-cfg CORRECTCFG, --correctcfg CORRECTCFGnextDenovo 糾錯的配置文件-fc FACTOR, --factor FACTOR對錯誤糾正的 ONT、CLR 或 HiFi 數據進行子集提取,采樣比例因子為 0-1,默認: 1-sd SUBSEED, --subseed SUBSEED采樣集隨機數種子,默認: 6-bn BREAKNUM, --breaknum BREAKNUM用此參數分割長讀數 (>30k),默認: 20000-ml MINOVERLAPLEN, --minoverlaplen MINOVERLAPLEN設置最小重疊長度,默認: 40-mi MINIDENTITY, --minidentity MINIDENTITY設置最小重疊相識度,默認: 90-cpu CPU              線程數,默認: 8-l MINLINK, --minLink MINLINK根據用戶提供的最小鏈接深度進行過濾-m, --mem             將序列數據保留在內存中以加快 CPU 時間-v, --version         顯示程序版本并退出注意事項:確保 BLASTn 已安裝在 PATH 中。
-tk: 此參數有兩個選項:“all”或“p1”。對于 ONT 或 CLR 原始數據,需要糾正讀取錯誤并修剪原始數據。如果是已糾錯的 ONT/CLR 數據,可以設置“p1”以跳過糾錯步驟。對于 HiFi 數據,此參數可以忽略。
-cs: 對于 ONT 或 CLR 原始數據,用戶應提供 -cs 參數以選擇糾錯軟件,默認:Nextdenovo。
-cp: 使用 Canu 進行糾錯時,用戶需要使用 -cp 參數指定 Canu 的安裝路徑。當 Canu 已添加到 PATH 時,此參數可以忽略。
-np: 使用 NextDenovo 糾錯時,用戶需要使用 -np 參數指定 NextDenovo 的安裝路徑。此外,NextDenovo 糾錯后需要使用 canu 修剪數據,因此需要使用 -cp 參數指定 Canu 的安裝路徑。當 NextDenovo 和 Canu 已添加到 PATH 時,此參數可以忽略。
-cfg: 使用 NextDenovo 糾錯時,用戶需要使用 -cfg 參數指定配置文件,建議檢查 NextDenovo 的配置文件內容。同時建議在配置文件中為 correction_options 添加 -b 參數。
-fc: 此參數可用于隨機選擇測序數據的子集進行糾錯和組裝,默認:全部數據。
-ml: 用于組裝的參數,默認設置為 40,推薦設置:40~200。
-mi: 用于組裝的參數,默認設置為 90,推薦設置:90~98。
4.2?graphBuild
graphBuild
如果 PMAT 在 'autoMito' 模式下未能生成組裝圖,您可以使用此命令手動選擇種子進行組裝。運行 PMAT graphBuild --help 查看使用指南。必需參數:-c CONTIGGRAPH, --ContigGraph CONTIGGRAPHPMATContigGraph.txt:一個包含所有 Contig 之間連接信息的文件-a ALLCONTIGS, --AllContigs ALLCONTIGSPMATAllContigs.fna:一個包含所有 Contig 信息的文件-o OUTPUT, --output OUTPUT輸出目錄-gs GENOMESIZE, --genomesize GENOMESIZE輸入物種的基因組大小,例如 1G, 1000M-rs READSIZE, --readsize READSIZE組裝用的讀取大小或文件,例如 5G 或 assembly_seq.cut20K.fasta可選參數:-h, --help            顯示此幫助信息并退出-tp TYPE, --type TYPEmt/pt/all 默認: mtmt   : 組裝線粒體基因組pt   : 組裝葉綠體基因組all  : 組裝線粒體和葉綠體基因組-cpu CPU              線程數,默認: 8-s SEEDS [SEEDS ...], --seeds SEEDS [SEEDS ...]用于擴展的 ContigID。多個 ContigID 應以空格分隔。例如: 1 312 356-l MINLINK, --minLink MINLINK根據用戶提供的最小鏈接深度進行過濾-v, --version         顯示程序版本并退出注意事項:確保 BLASTn 已安裝在 PATH 中。
-c: 由 autoMito 命令生成的 PMATContigGraph.txt。
-a: 由 autoMito 命令生成的 PMATAllContigs.fna。
-gs: 物種的基因組大小。
-rs: 組裝使用的數據量,或提供由 graphBuild 命令生成的 assembly_seq.cut20K.fasta。
-s: 手動選擇用于擴展的種子,建議使用 3 個以上的種子。使用空格分隔不同的種子 ID,例如 1,312,356。
4.3 實例
示例集合
示例1下載一個模擬的擬南芥 HiFi 數據集:
```
wget https://github.com/bichangwei/PMAT/releases/download/v1.1.0/Arabidopsis_thaliana_550Mb.fa.gz
```
然后運行 autoMito 命令進行一鍵組裝:
```
PMAT autoMito -i Arabidopsis_thaliana_550Mb.fa.gz -o ./test1 -st hifi -g 120m -m
```
然后使用 graphBuild 命令手動選擇種子進行組裝(用于 autoMito 命令無法自動獲得 GFA 文件時):
```
# 根據 PMATContigGraph.txt 文件,手動選擇 3 個或更多匹配線粒體基因組測序深度的 Contigs
PMAT graphBuild -c ./test1/assembly_result/PMATContigGraph.txt -a ./test1/assembly_result/PMATAllContigs.fna -gs 125m -rs ./test1/subsample/assembly_seq.cut20K.fasta -o ./test1_gfa -s 343 345 905 513 1344
```
PMAT 使用不同線程數的運行時間
8 CPUs: 13m25.342s; 16 CPUs: 9m29.853s; 32 CPUs: 8m42.429s; 64 CPUs: 7m57.279s示例2下載一個模擬的蘋果 HiFi 數據集:
```
wget https://github.com/bichangwei/PMAT/releases/download/v1.1.0/Malus_domestica.540Mb.fasta.gz
```
然后運行 autoMito 命令進行一鍵組裝:
```
PMAT autoMito -i Malus_domestica.540Mb.fasta.gz -o ./test3 -st hifi -g 703m -m
```
然后使用 graphBuild 命令手動選擇種子進行組裝(用于 autoMito 命令無法自動獲得 GFA 文件時):
```
# 根據 PMATContigGraph.txt 文件,手動選擇 3 個或更多匹配線粒體基因組測序深度的 Contigs
PMAT graphBuild -c ./test3/assembly_result/PMATContigGraph.txt -a ./test3/assembly_result/PMATAllContigs.fna -gs 225m -rs ./test3/subsample/assembly_seq.cut20K.fasta -o ./test3_gfa -s 1 2 15391
```
PMAT 使用不同線程數的運行時間
8 CPUs: 21m12.306s; 16 CPUs: 12m14.663s; 32 CPUs: 7m58.749s; 64 CPUs: 6m48.915s示例3使用 IBM Aspera 下載測試的普通豆 CLR 數據:
```
ascp -v -QT -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR291/006/SRR2912756/SRR2912756_subreads.fastq.gz .
```
然后運行 autoMito 命令進行一鍵組裝(CLR):
```
PMAT autoMito -i SRR2912756_subreads.fastq.gz -o ./test_clr -st clr -g 540m -cs nextDenovo -np path/nextDenovo -cp path/canu -cfg nextdenovo.cfg -m
```示例4使用 IBM Aspera 下載測試的美國黑楊 ONT 數據:
```
ascp -v -QT -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR122/038/SRR12202038/SRR12202038_1.fastq.gz  .
```
然后運行 autoMito 命令進行一鍵組裝(ONT):
```
PMAT autoMito -i SRR12202038_1.fastq.gz -o ./test_ont -st ont -g 430m -cs nextDenovo -np path/nextDenovo -cp path/canu -cfg nextdenovo.cfg -m
```結果文件
輸出文件包括:
- */subsample/assembly_seq_subset.1.0.fasta, 組裝用的子樣數據
- */subsample/assembly_seq.cut20K.fasta, 組裝用的修剪數據
- */assembly_result/PMATAllContigs.fna, 包含 Contig 序列的組裝結果
- */assembly_result/PMATContigGraph.txt, 包含 Contig 鏈接關系的組裝結果
- */assembly_result/PMAT_mt_raw.gfa, 線粒體基因組的初始組裝圖
- */assembly_result/PMAT_mt_master.gfa, 線粒體基因組的優化組裝圖
- */assembly_result/PMAT_pt_raw.gfa, 葉綠體基因組的初始組裝圖
- */assembly_result/PMAT_pt_master.gfa, 葉綠體基因組的優化組裝圖
?05?參考文獻

Bi C, Shen F, Han F, Qu Y, Hou J, Xu K, Xu LA, He W, Wu Z, Yin T. PMAT: an efficient plant mitogenome assembly toolkit using low-coverage HiFi sequencing data. Hortic Res. 2024, 11(3):uhae023. doi: 10.1093/hr/uhae023.
Bi C, Qu Y, Hou J, Wu K, Ye N, and Yin T. Deciphering the multi-chromosomal mitochondrial genome of Populus simonii. Front. Plant Sci. 2022, 13:914635.doi:10.3389/fpls.2022.914635.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/22752.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/22752.shtml
英文地址,請注明出處:http://en.pswp.cn/web/22752.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python字符串的進階

在上一篇文章的 密碼破解器 中&#xff0c;我們回顧了循環專題的知識點。 while 循環和 for 循環是 Python 中的兩大循環語句&#xff0c;它們都可以實現循環的功能&#xff0c;但在具體使用時略有差別。當循環次數不確定時&#xff0c;我們選用 while 循環&#xff1b;當循環…

【限免】雜波環境下線性調頻脈沖、巴克碼、頻率步進脈沖雷達MTI、脈沖壓縮【附MATLAB代碼】

文章來源&#xff1a;?微信公眾號&#xff1a;EW Frontier/ 智能電磁頻譜算法 本代碼主要模擬雜波環境&#xff08;飛機、地雜波、鳥類信號&#xff09;下&#xff0c;Chirp脈沖、巴克碼脈沖、頻率步進脈沖雷達信號的脈沖壓縮及MTI、匹配濾波。 MATLAB主代碼 % 生成雷達信號…

做任務賺錢的app有哪些?(真實可靠能做任務賺錢軟件app推薦)

在數字化時代&#xff0c;通過手機APP做任務賺錢已成為一種流行的兼職方式。這些APP為用戶提供了完成小任務以賺取現金或獎勵的機會。以下是一些真實可靠的做任務賺錢的APP推薦&#xff0c;幫助您在空閑時間增加收入。 賞幫賺是一個正規的兼職接單賺錢平臺&#xff0c;在這個平…

MariaDB數據導入與導出操作演示

文章目錄 整個數據庫導出導入先刪除庫然后再導入 參考這里&#xff1a; MariaDB數據庫導出導入. 整個數據庫 該部分演示&#xff1a;導出數據庫&#xff0c;然后重建數據庫&#xff0c;并導入數據的整個過程。 導出 Win R &#xff0c;打開運行輸入cmd并回車&#xff0c;然…

迅雷極簡易下載

一、簡介 1、迅雷是一家全球領先的去中心化服務商&#xff0c;以技術構建商業&#xff0c;以服務創造共識&#xff0c;從而建立一個高效可信的存儲與傳輸網絡。 迅雷成立于2003年&#xff0c;總部位于中國深圳&#xff0c;2014年于納斯達克上市&#xff08;納斯達克股票代碼&a…

Linux系統管理磁盤管理003

操作系統&#xff1a; CentOS Stream9 測試過程&#xff1a; 模擬磁盤被沾滿&#xff0c; 創建文件 測試腳本 for i in seq 10do# echo $idd if/dev/zero of./$i-$RANDOM.txt bs1M count1024 Done[rootlocalhost ~]# vim 2.txt [rootlocalhost ~]# sh 2.txt 記錄了10240 的…

OPPO 文件傳輸 - 將文件從 OPPO 手機傳輸到 PC 的 5 種方法

OPPO手機以其出色的拍照功能而聞名&#xff0c;尤其是新推出的OPPO Find X2系列&#xff0c;它配備了高清前置鏡頭和超夜景模式&#xff0c;讓您輕松拍出精彩瞬間。當您需要將這些照片或其他文件從OPPO手機傳輸到PC時&#xff0c;以下是五種簡便的方法。 第 1 部分&#xff…

UI設計公司-藍藍設計-交通行業ui設計解決方案

來百度APP暢享高清圖片 這是北京蘭亭妙微科技有限公司&#xff08;簡稱藍藍設計&#xff09;在交通行業的一些ui設計經驗&#xff0c;我們建立了UI設計分享群&#xff0c;每天會分享國內外的一些優秀設計&#xff0c;如果有興趣的話&#xff0c;可以進入一起成長學習&#xff0…

電路方案分析(十九)快速響應過流事件檢測電路

快速響應過流事件檢測電路 1.設計需求2.設計方案3.設計說明4.仿真驗證 tips&#xff1a;方案參考來自TI參考設計&#xff0c;僅供學習交流使用。 1.設計需求 2.設計方案 這是一種快速響應單向電流檢測解決方案&#xff0c;通常稱為過流保護 (OCP)&#xff0c;可提供 < 2μ…

【AI大模型】基于Langchain和Openai借口實現英文翻譯中文應用

&#x1f680; 作者 &#xff1a;“大數據小禪” &#x1f680; 文章簡介 &#xff1a;本專欄后續將持續更新大模型相關文章&#xff0c;從開發到微調到應用&#xff0c;需要下載好的模型包可私。 &#x1f680; 歡迎小伙伴們 點贊&#x1f44d;、收藏?、留言&#x1f4ac; 目…

【python009】Python處理某區域邊界經緯度數據至geohash

1.熟悉、梳理、總結項目研發實戰中的Python開發日常使用中的問題、知識點等&#xff0c;如Python處理某區域邊界經緯度數據至geohash&#xff0c;便于時空交集。 2.歡迎點贊、關注、批評、指正&#xff0c;互三走起來&#xff0c;小手動起來&#xff01; 3.歡迎點贊、關注、批評…

net/http與gin框架的關系分析

要想學好 gin 框架&#xff0c;首先要學習 net/http 服務&#xff0c;而二者的關系又是重中之重。 本文所要做的任務就是將二者“連接” 起來&#xff0c;讓讀者掌握其中之精髓。 一、Golang HTTP 標準庫示例 使用 golang 啟動 http 服務非常簡單&#xff0c;就是一個標準的 C…

【數據庫初階】SQL--DCL

文章目錄 DCL1. 基本介紹2. 用戶管理2.1 查詢用戶2.2 創建用戶2.3 修改用戶密碼2.4 刪除用戶 3. 權限控制3.1 查詢權限3.2 授予權限3.3 撤銷權限 4. DCL總結 DCL 更多數據庫MySQL系統內容就在以下專欄&#xff1a; 專欄鏈接&#xff1a;數據庫MySQL 1. 基本介紹 DCL英文全稱是…

45-3 護網溯源 - 為什么要做溯源工作

官網:CVERC-國家計算機病毒應急處理中心 西工大遭網絡攻擊再曝細節!13名攻擊者身份查明→ (baidu.com) 護網溯源是指通過技術手段追蹤網絡攻擊的來源和行為,其重要性體現在以下幾個方面: 安全防御:了解攻擊源頭可以幫助組織加強網絡安全防御,及時采取措施防止攻擊的再次…

NXP i.MX8系列平臺開發講解 - 3.14 Linux 之Power Supply子系統(二)

專欄文章目錄傳送門&#xff1a;返回專欄目錄 Hi, 我是你們的老朋友&#xff0c;主要專注于嵌入式軟件開發&#xff0c;有興趣不要忘記點擊關注【碼思途遠】 目錄 1. 前言 2. 芯片簡介 2. 系統原理設計 2. 設備樹相關 本文實操是基于Android11 系統下i.MX8MQ環境下&#x…

基礎復習---二進制補碼

1.二進制補碼表示法基于以下原理&#xff1a; 正數的補碼&#xff1a;正數的補碼與其原碼&#xff08;即直接表示的二進制形式&#xff09;相同。 負數的補碼&#xff1a;負數的補碼是其絕對值的二進制表示&#xff08;即正數的補碼&#xff09;&#xff0c;然后取反&#xff…

代碼隨想錄算法訓練營第十三天| 102. 二叉樹的層序遍歷、226.翻轉二叉樹、101. 對稱二叉樹

102. 二叉樹的層序遍歷 題目鏈接&#xff1a;102. 二叉樹的層序遍歷 文檔講解&#xff1a;代碼隨想錄 狀態&#xff1a;dfs沒寫出來&#xff0c;bfs不知道如何分層 import java.util.*;public class BinaryTreeLevelOrderTraversal {// 用于存儲每一層的節點值List<List<…

rocketmq No route info of this topic 問題排查

Broker配置項 autoCreateTopicEnable true 如果是單節點(master),注釋掉這里的配置 #有三個值&#xff1a;SYNC_MASTER&#xff0c;ASYNC_MASTER&#xff0c;SLAVE&#xff1b;同步和異步表示Master和Slave之間同步數據的機制&#xff1b; #brokerRole SYNC_MASTER Pytho…

【2024最新華為OD-C/D卷試題匯總】[支持在線評測] 土地分配 (100分) - 三語言AC題解(Python/Java/Cpp)

?? 大家好這里是清隆學長 ,一枚熱愛算法的程序員 ? 本系列打算持續跟新華為OD-C/D卷的三語言AC題解 ?? ACM銀牌??| 多次AK大廠筆試 | 編程一對一輔導 ?? 感謝大家的訂閱? 和 喜歡?? ??在線評測鏈接 土地分配(100分) ?? 評測功能需要訂閱專欄后私信聯系清隆解…