PMAT安裝及使用（Bioinformatics工具-021）

01 背景

PMAT 是一個高效的組裝工具包，用于利用第三代（HiFi/CLR/ONT）測序數據組裝植物線粒體基因組。PMAT 還可以用于組裝葉綠體基因組或動物線粒體基因組。

PMAT：使用低覆蓋度HiFi測序數據的高效植物線粒體組裝工具包-文獻精讀分享2

02 參考

https://github.com/bichangwei/PMAT  #官網

?03?安裝

#1 Install using gitgit clone https://github.com/bichangwei/PMAT.git
cd PMAT/bin
chmod a+x PMAT
PMAT --help#2 Install by downloading the source codeswget https://github.com/bichangwei/PMAT/archive/refs/tags/v1.5.3.tar.gz
tar -zxvf v1.5.3.tar.gz
cd PMAT-1.5.3/bin
chmod a+x PMAT
PMAT --help#3 requirementBLASTn
Singularity ≥ 1.3
Apptainer ≥ 1.3
Canu > v2.0
NextDenovo 3.1 blast詳見往期
3.2 Singularity 如下
wget https://github.com/hpcng/singularity/releases/download/v3.7.2/singularity-3.7.2.tar.gz
tar -xzf singularity-3.7.2.tar.gz
cd singularity
./mconfig
cd builddir
make
sudo make install
3.3 Apptainer如下
Building & Installing from RPM
勸退沒有root權限使用者，需要安裝GO圖形庫
https://github.com/apptainer/apptainer/blob/main/INSTALL.md
make -C builddir rpm RPMPREFIX=/opt/apptainer
更換方式，一鍵安裝
conda install conda-forge::apptainer
3.4 Canu同上
conda install -c bioconda canu

Blast安裝及使用-Blast+2.14.0（bioinfomatics tools-001）

04?使用及常用命令行

運行 PMAT --help 查看程序的使用指南。用法: PMAT <command> <arguments>```______     ___           __        ____       _____________ 
|   __  \  |   \        /   |      / __ \     |_____   _____|
|  |__)  | | |\ \      / /| |     / /  \ \          | |      
|   ____/  | | \ \    / / | |    / /____\ \         | |      
|  |       | |  \ \  / /  | |   / /______\ \        | |      
|  |       | |   \ \/ /   | |  / /        \ \       | |      
|__|       |_|    \__/    |_| /_/          \_\      |_|      
```PMAT            一個用于植物線粒體基因組高效組裝的工具包
版本           1.5.3
貢獻者         Bi,C. 和 Han,F.
電子郵件       bichwei@njfu.edu.cn, hanfc@caf.ac.cn更多關于 PMAT 的信息，請訪問 https://github.com/bichangwei/PMAT可選參數:
-h, --help     顯示此幫助信息并退出
-v, --version  顯示程序版本并退出命令:autoMito    一步完成線粒體基因組的de novo組裝。該命令可以直接從原始測序數據生成主組裝圖。graphBuild  如果'autoMito'模式無法生成線粒體基因組組裝圖，您可以使用此命令手動選擇種子進行組裝。

4.1?autoMito

autoMito
運行 PMAT autoMito --help 查看使用指南。必需參數:-i INPUT, --input INPUT輸入原始測序文件-o OUTPUT, --output OUTPUT輸出目錄-st SEQTYPE, --seqtype SEQTYPE測序平臺 (ONT/CLR/HiFi)-g GENOMESIZE, --genomesize GENOMESIZE輸入物種的基因組大小，例如 1G, 1000M可選參數:-h, --help            顯示此幫助信息并退出-tk TASK, --task TASKall/p1/ 默認: allall : de novo 組裝，包括對 ONT/CLR 數據的糾錯，以及對 HiFi 數據不糾錯p1  : 導入已糾錯的 ONT/CLR 數據進行直接組裝-tp TYPE, --type TYPEmt/pt/all 默認: mtmt   : 組裝線粒體基因組pt   : 組裝葉綠體基因組all  : 組裝線粒體和葉綠體基因組-cs CORRECTSOFT, --correctsoft CORRECTSOFT使用 nextDenovo 或 Canu 進行糾錯，默認: NextDenovo-cp CANU, --canu CANU請提供 Canu 的安裝路徑-np NEXTDENOVO, --nextDenovo NEXTDENOVO請提供 nextDenovo 的安裝路徑-cfg CORRECTCFG, --correctcfg CORRECTCFGnextDenovo 糾錯的配置文件-fc FACTOR, --factor FACTOR對錯誤糾正的 ONT、CLR 或 HiFi 數據進行子集提取，采樣比例因子為 0-1，默認: 1-sd SUBSEED, --subseed SUBSEED采樣集隨機數種子，默認: 6-bn BREAKNUM, --breaknum BREAKNUM用此參數分割長讀數 (>30k)，默認: 20000-ml MINOVERLAPLEN, --minoverlaplen MINOVERLAPLEN設置最小重疊長度，默認: 40-mi MINIDENTITY, --minidentity MINIDENTITY設置最小重疊相識度，默認: 90-cpu CPU              線程數，默認: 8-l MINLINK, --minLink MINLINK根據用戶提供的最小鏈接深度進行過濾-m, --mem             將序列數據保留在內存中以加快 CPU 時間-v, --version         顯示程序版本并退出注意事項:確保 BLASTn 已安裝在 PATH 中。
-tk: 此參數有兩個選項：“all”或“p1”。對于 ONT 或 CLR 原始數據，需要糾正讀取錯誤并修剪原始數據。如果是已糾錯的 ONT/CLR 數據，可以設置“p1”以跳過糾錯步驟。對于 HiFi 數據，此參數可以忽略。
-cs: 對于 ONT 或 CLR 原始數據，用戶應提供 -cs 參數以選擇糾錯軟件，默認：Nextdenovo。
-cp: 使用 Canu 進行糾錯時，用戶需要使用 -cp 參數指定 Canu 的安裝路徑。當 Canu 已添加到 PATH 時，此參數可以忽略。
-np: 使用 NextDenovo 糾錯時，用戶需要使用 -np 參數指定 NextDenovo 的安裝路徑。此外，NextDenovo 糾錯后需要使用 canu 修剪數據，因此需要使用 -cp 參數指定 Canu 的安裝路徑。當 NextDenovo 和 Canu 已添加到 PATH 時，此參數可以忽略。
-cfg: 使用 NextDenovo 糾錯時，用戶需要使用 -cfg 參數指定配置文件，建議檢查 NextDenovo 的配置文件內容。同時建議在配置文件中為 correction_options 添加 -b 參數。
-fc: 此參數可用于隨機選擇測序數據的子集進行糾錯和組裝，默認：全部數據。
-ml: 用于組裝的參數，默認設置為 40，推薦設置：40~200。
-mi: 用于組裝的參數，默認設置為 90，推薦設置：90~98。

4.2?graphBuild

graphBuild
如果 PMAT 在 'autoMito' 模式下未能生成組裝圖，您可以使用此命令手動選擇種子進行組裝。運行 PMAT graphBuild --help 查看使用指南。必需參數:-c CONTIGGRAPH, --ContigGraph CONTIGGRAPHPMATContigGraph.txt：一個包含所有 Contig 之間連接信息的文件-a ALLCONTIGS, --AllContigs ALLCONTIGSPMATAllContigs.fna：一個包含所有 Contig 信息的文件-o OUTPUT, --output OUTPUT輸出目錄-gs GENOMESIZE, --genomesize GENOMESIZE輸入物種的基因組大小，例如 1G, 1000M-rs READSIZE, --readsize READSIZE組裝用的讀取大小或文件，例如 5G 或 assembly_seq.cut20K.fasta可選參數:-h, --help            顯示此幫助信息并退出-tp TYPE, --type TYPEmt/pt/all 默認: mtmt   : 組裝線粒體基因組pt   : 組裝葉綠體基因組all  : 組裝線粒體和葉綠體基因組-cpu CPU              線程數，默認: 8-s SEEDS [SEEDS ...], --seeds SEEDS [SEEDS ...]用于擴展的 ContigID。多個 ContigID 應以空格分隔。例如: 1 312 356-l MINLINK, --minLink MINLINK根據用戶提供的最小鏈接深度進行過濾-v, --version         顯示程序版本并退出注意事項:確保 BLASTn 已安裝在 PATH 中。
-c: 由 autoMito 命令生成的 PMATContigGraph.txt。
-a: 由 autoMito 命令生成的 PMATAllContigs.fna。
-gs: 物種的基因組大小。
-rs: 組裝使用的數據量，或提供由 graphBuild 命令生成的 assembly_seq.cut20K.fasta。
-s: 手動選擇用于擴展的種子，建議使用 3 個以上的種子。使用空格分隔不同的種子 ID，例如 1,312,356。

4.3 實例

示例集合
示例1下載一個模擬的擬南芥 HiFi 數據集：
```
wget https://github.com/bichangwei/PMAT/releases/download/v1.1.0/Arabidopsis_thaliana_550Mb.fa.gz
```
然后運行 autoMito 命令進行一鍵組裝：
```
PMAT autoMito -i Arabidopsis_thaliana_550Mb.fa.gz -o ./test1 -st hifi -g 120m -m
```
然后使用 graphBuild 命令手動選擇種子進行組裝（用于 autoMito 命令無法自動獲得 GFA 文件時）：
```
# 根據 PMATContigGraph.txt 文件，手動選擇 3 個或更多匹配線粒體基因組測序深度的 Contigs
PMAT graphBuild -c ./test1/assembly_result/PMATContigGraph.txt -a ./test1/assembly_result/PMATAllContigs.fna -gs 125m -rs ./test1/subsample/assembly_seq.cut20K.fasta -o ./test1_gfa -s 343 345 905 513 1344
```
PMAT 使用不同線程數的運行時間
8 CPUs: 13m25.342s; 16 CPUs: 9m29.853s; 32 CPUs: 8m42.429s; 64 CPUs: 7m57.279s示例2下載一個模擬的蘋果 HiFi 數據集：
```
wget https://github.com/bichangwei/PMAT/releases/download/v1.1.0/Malus_domestica.540Mb.fasta.gz
```
然后運行 autoMito 命令進行一鍵組裝：
```
PMAT autoMito -i Malus_domestica.540Mb.fasta.gz -o ./test3 -st hifi -g 703m -m
```
然后使用 graphBuild 命令手動選擇種子進行組裝（用于 autoMito 命令無法自動獲得 GFA 文件時）：
```
# 根據 PMATContigGraph.txt 文件，手動選擇 3 個或更多匹配線粒體基因組測序深度的 Contigs
PMAT graphBuild -c ./test3/assembly_result/PMATContigGraph.txt -a ./test3/assembly_result/PMATAllContigs.fna -gs 225m -rs ./test3/subsample/assembly_seq.cut20K.fasta -o ./test3_gfa -s 1 2 15391
```
PMAT 使用不同線程數的運行時間
8 CPUs: 21m12.306s; 16 CPUs: 12m14.663s; 32 CPUs: 7m58.749s; 64 CPUs: 6m48.915s示例3使用 IBM Aspera 下載測試的普通豆 CLR 數據：
```
ascp -v -QT -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR291/006/SRR2912756/SRR2912756_subreads.fastq.gz .
```
然后運行 autoMito 命令進行一鍵組裝（CLR）：
```
PMAT autoMito -i SRR2912756_subreads.fastq.gz -o ./test_clr -st clr -g 540m -cs nextDenovo -np path/nextDenovo -cp path/canu -cfg nextdenovo.cfg -m
```示例4使用 IBM Aspera 下載測試的美國黑楊 ONT 數據：
```
ascp -v -QT -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR122/038/SRR12202038/SRR12202038_1.fastq.gz  .
```
然后運行 autoMito 命令進行一鍵組裝（ONT）：
```
PMAT autoMito -i SRR12202038_1.fastq.gz -o ./test_ont -st ont -g 430m -cs nextDenovo -np path/nextDenovo -cp path/canu -cfg nextdenovo.cfg -m
```結果文件
輸出文件包括：
- */subsample/assembly_seq_subset.1.0.fasta, 組裝用的子樣數據
- */subsample/assembly_seq.cut20K.fasta, 組裝用的修剪數據
- */assembly_result/PMATAllContigs.fna, 包含 Contig 序列的組裝結果
- */assembly_result/PMATContigGraph.txt, 包含 Contig 鏈接關系的組裝結果
- */assembly_result/PMAT_mt_raw.gfa, 線粒體基因組的初始組裝圖
- */assembly_result/PMAT_mt_master.gfa, 線粒體基因組的優化組裝圖
- */assembly_result/PMAT_pt_raw.gfa, 葉綠體基因組的初始組裝圖
- */assembly_result/PMAT_pt_master.gfa, 葉綠體基因組的優化組裝圖

?05?參考文獻

Bi C, Shen F, Han F, Qu Y, Hou J, Xu K, Xu LA, He W, Wu Z, Yin T. PMAT: an efficient plant mitogenome assembly toolkit using low-coverage HiFi sequencing data. Hortic Res. 2024, 11(3):uhae023. doi: 10.1093/hr/uhae023.
Bi C, Qu Y, Hou J, Wu K, Ye N, and Yin T. Deciphering the multi-chromosomal mitochondrial genome of Populus simonii. Front. Plant Sci. 2022, 13:914635.doi:10.3389/fpls.2022.914635.