01 背景
PMAT 是一個高效的組裝工具包,用于利用第三代(HiFi/CLR/ONT)測序數據組裝植物線粒體基因組。PMAT 還可以用于組裝葉綠體基因組或動物線粒體基因組。
PMAT:使用低覆蓋度HiFi測序數據的高效植物線粒體組裝工具包-文獻精讀分享2
02 參考
https://github.com/bichangwei/PMAT #官網
?03?安裝
#1 Install using gitgit clone https://github.com/bichangwei/PMAT.git
cd PMAT/bin
chmod a+x PMAT
PMAT --help#2 Install by downloading the source codeswget https://github.com/bichangwei/PMAT/archive/refs/tags/v1.5.3.tar.gz
tar -zxvf v1.5.3.tar.gz
cd PMAT-1.5.3/bin
chmod a+x PMAT
PMAT --help#3 requirementBLASTn
Singularity ≥ 1.3
Apptainer ≥ 1.3
Canu > v2.0
NextDenovo 3.1 blast詳見往期
3.2 Singularity 如下
wget https://github.com/hpcng/singularity/releases/download/v3.7.2/singularity-3.7.2.tar.gz
tar -xzf singularity-3.7.2.tar.gz
cd singularity
./mconfig
cd builddir
make
sudo make install
3.3 Apptainer如下
Building & Installing from RPM
勸退沒有root權限使用者,需要安裝GO圖形庫
https://github.com/apptainer/apptainer/blob/main/INSTALL.md
make -C builddir rpm RPMPREFIX=/opt/apptainer
更換方式,一鍵安裝
conda install conda-forge::apptainer
3.4 Canu同上
conda install -c bioconda canu
Blast安裝及使用-Blast+2.14.0(bioinfomatics tools-001)
04?使用及常用命令行
運行 PMAT --help 查看程序的使用指南。用法: PMAT <command> <arguments>```______ ___ __ ____ _____________
| __ \ | \ / | / __ \ |_____ _____|
| |__) | | |\ \ / /| | / / \ \ | |
| ____/ | | \ \ / / | | / /____\ \ | |
| | | | \ \ / / | | / /______\ \ | |
| | | | \ \/ / | | / / \ \ | |
|__| |_| \__/ |_| /_/ \_\ |_|
```PMAT 一個用于植物線粒體基因組高效組裝的工具包
版本 1.5.3
貢獻者 Bi,C. 和 Han,F.
電子郵件 bichwei@njfu.edu.cn, hanfc@caf.ac.cn更多關于 PMAT 的信息,請訪問 https://github.com/bichangwei/PMAT可選參數:
-h, --help 顯示此幫助信息并退出
-v, --version 顯示程序版本并退出命令:autoMito 一步完成線粒體基因組的de novo組裝。該命令可以直接從原始測序數據生成主組裝圖。graphBuild 如果'autoMito'模式無法生成線粒體基因組組裝圖,您可以使用此命令手動選擇種子進行組裝。
4.1?autoMito
autoMito
運行 PMAT autoMito --help 查看使用指南。必需參數:-i INPUT, --input INPUT輸入原始測序文件-o OUTPUT, --output OUTPUT輸出目錄-st SEQTYPE, --seqtype SEQTYPE測序平臺 (ONT/CLR/HiFi)-g GENOMESIZE, --genomesize GENOMESIZE輸入物種的基因組大小,例如 1G, 1000M可選參數:-h, --help 顯示此幫助信息并退出-tk TASK, --task TASKall/p1/ 默認: allall : de novo 組裝,包括對 ONT/CLR 數據的糾錯,以及對 HiFi 數據不糾錯p1 : 導入已糾錯的 ONT/CLR 數據進行直接組裝-tp TYPE, --type TYPEmt/pt/all 默認: mtmt : 組裝線粒體基因組pt : 組裝葉綠體基因組all : 組裝線粒體和葉綠體基因組-cs CORRECTSOFT, --correctsoft CORRECTSOFT使用 nextDenovo 或 Canu 進行糾錯,默認: NextDenovo-cp CANU, --canu CANU請提供 Canu 的安裝路徑-np NEXTDENOVO, --nextDenovo NEXTDENOVO請提供 nextDenovo 的安裝路徑-cfg CORRECTCFG, --correctcfg CORRECTCFGnextDenovo 糾錯的配置文件-fc FACTOR, --factor FACTOR對錯誤糾正的 ONT、CLR 或 HiFi 數據進行子集提取,采樣比例因子為 0-1,默認: 1-sd SUBSEED, --subseed SUBSEED采樣集隨機數種子,默認: 6-bn BREAKNUM, --breaknum BREAKNUM用此參數分割長讀數 (>30k),默認: 20000-ml MINOVERLAPLEN, --minoverlaplen MINOVERLAPLEN設置最小重疊長度,默認: 40-mi MINIDENTITY, --minidentity MINIDENTITY設置最小重疊相識度,默認: 90-cpu CPU 線程數,默認: 8-l MINLINK, --minLink MINLINK根據用戶提供的最小鏈接深度進行過濾-m, --mem 將序列數據保留在內存中以加快 CPU 時間-v, --version 顯示程序版本并退出注意事項:確保 BLASTn 已安裝在 PATH 中。
-tk: 此參數有兩個選項:“all”或“p1”。對于 ONT 或 CLR 原始數據,需要糾正讀取錯誤并修剪原始數據。如果是已糾錯的 ONT/CLR 數據,可以設置“p1”以跳過糾錯步驟。對于 HiFi 數據,此參數可以忽略。
-cs: 對于 ONT 或 CLR 原始數據,用戶應提供 -cs 參數以選擇糾錯軟件,默認:Nextdenovo。
-cp: 使用 Canu 進行糾錯時,用戶需要使用 -cp 參數指定 Canu 的安裝路徑。當 Canu 已添加到 PATH 時,此參數可以忽略。
-np: 使用 NextDenovo 糾錯時,用戶需要使用 -np 參數指定 NextDenovo 的安裝路徑。此外,NextDenovo 糾錯后需要使用 canu 修剪數據,因此需要使用 -cp 參數指定 Canu 的安裝路徑。當 NextDenovo 和 Canu 已添加到 PATH 時,此參數可以忽略。
-cfg: 使用 NextDenovo 糾錯時,用戶需要使用 -cfg 參數指定配置文件,建議檢查 NextDenovo 的配置文件內容。同時建議在配置文件中為 correction_options 添加 -b 參數。
-fc: 此參數可用于隨機選擇測序數據的子集進行糾錯和組裝,默認:全部數據。
-ml: 用于組裝的參數,默認設置為 40,推薦設置:40~200。
-mi: 用于組裝的參數,默認設置為 90,推薦設置:90~98。
4.2?graphBuild
graphBuild
如果 PMAT 在 'autoMito' 模式下未能生成組裝圖,您可以使用此命令手動選擇種子進行組裝。運行 PMAT graphBuild --help 查看使用指南。必需參數:-c CONTIGGRAPH, --ContigGraph CONTIGGRAPHPMATContigGraph.txt:一個包含所有 Contig 之間連接信息的文件-a ALLCONTIGS, --AllContigs ALLCONTIGSPMATAllContigs.fna:一個包含所有 Contig 信息的文件-o OUTPUT, --output OUTPUT輸出目錄-gs GENOMESIZE, --genomesize GENOMESIZE輸入物種的基因組大小,例如 1G, 1000M-rs READSIZE, --readsize READSIZE組裝用的讀取大小或文件,例如 5G 或 assembly_seq.cut20K.fasta可選參數:-h, --help 顯示此幫助信息并退出-tp TYPE, --type TYPEmt/pt/all 默認: mtmt : 組裝線粒體基因組pt : 組裝葉綠體基因組all : 組裝線粒體和葉綠體基因組-cpu CPU 線程數,默認: 8-s SEEDS [SEEDS ...], --seeds SEEDS [SEEDS ...]用于擴展的 ContigID。多個 ContigID 應以空格分隔。例如: 1 312 356-l MINLINK, --minLink MINLINK根據用戶提供的最小鏈接深度進行過濾-v, --version 顯示程序版本并退出注意事項:確保 BLASTn 已安裝在 PATH 中。
-c: 由 autoMito 命令生成的 PMATContigGraph.txt。
-a: 由 autoMito 命令生成的 PMATAllContigs.fna。
-gs: 物種的基因組大小。
-rs: 組裝使用的數據量,或提供由 graphBuild 命令生成的 assembly_seq.cut20K.fasta。
-s: 手動選擇用于擴展的種子,建議使用 3 個以上的種子。使用空格分隔不同的種子 ID,例如 1,312,356。
4.3 實例
示例集合
示例1下載一個模擬的擬南芥 HiFi 數據集:
```
wget https://github.com/bichangwei/PMAT/releases/download/v1.1.0/Arabidopsis_thaliana_550Mb.fa.gz
```
然后運行 autoMito 命令進行一鍵組裝:
```
PMAT autoMito -i Arabidopsis_thaliana_550Mb.fa.gz -o ./test1 -st hifi -g 120m -m
```
然后使用 graphBuild 命令手動選擇種子進行組裝(用于 autoMito 命令無法自動獲得 GFA 文件時):
```
# 根據 PMATContigGraph.txt 文件,手動選擇 3 個或更多匹配線粒體基因組測序深度的 Contigs
PMAT graphBuild -c ./test1/assembly_result/PMATContigGraph.txt -a ./test1/assembly_result/PMATAllContigs.fna -gs 125m -rs ./test1/subsample/assembly_seq.cut20K.fasta -o ./test1_gfa -s 343 345 905 513 1344
```
PMAT 使用不同線程數的運行時間
8 CPUs: 13m25.342s; 16 CPUs: 9m29.853s; 32 CPUs: 8m42.429s; 64 CPUs: 7m57.279s示例2下載一個模擬的蘋果 HiFi 數據集:
```
wget https://github.com/bichangwei/PMAT/releases/download/v1.1.0/Malus_domestica.540Mb.fasta.gz
```
然后運行 autoMito 命令進行一鍵組裝:
```
PMAT autoMito -i Malus_domestica.540Mb.fasta.gz -o ./test3 -st hifi -g 703m -m
```
然后使用 graphBuild 命令手動選擇種子進行組裝(用于 autoMito 命令無法自動獲得 GFA 文件時):
```
# 根據 PMATContigGraph.txt 文件,手動選擇 3 個或更多匹配線粒體基因組測序深度的 Contigs
PMAT graphBuild -c ./test3/assembly_result/PMATContigGraph.txt -a ./test3/assembly_result/PMATAllContigs.fna -gs 225m -rs ./test3/subsample/assembly_seq.cut20K.fasta -o ./test3_gfa -s 1 2 15391
```
PMAT 使用不同線程數的運行時間
8 CPUs: 21m12.306s; 16 CPUs: 12m14.663s; 32 CPUs: 7m58.749s; 64 CPUs: 6m48.915s示例3使用 IBM Aspera 下載測試的普通豆 CLR 數據:
```
ascp -v -QT -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR291/006/SRR2912756/SRR2912756_subreads.fastq.gz .
```
然后運行 autoMito 命令進行一鍵組裝(CLR):
```
PMAT autoMito -i SRR2912756_subreads.fastq.gz -o ./test_clr -st clr -g 540m -cs nextDenovo -np path/nextDenovo -cp path/canu -cfg nextdenovo.cfg -m
```示例4使用 IBM Aspera 下載測試的美國黑楊 ONT 數據:
```
ascp -v -QT -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR122/038/SRR12202038/SRR12202038_1.fastq.gz .
```
然后運行 autoMito 命令進行一鍵組裝(ONT):
```
PMAT autoMito -i SRR12202038_1.fastq.gz -o ./test_ont -st ont -g 430m -cs nextDenovo -np path/nextDenovo -cp path/canu -cfg nextdenovo.cfg -m
```結果文件
輸出文件包括:
- */subsample/assembly_seq_subset.1.0.fasta, 組裝用的子樣數據
- */subsample/assembly_seq.cut20K.fasta, 組裝用的修剪數據
- */assembly_result/PMATAllContigs.fna, 包含 Contig 序列的組裝結果
- */assembly_result/PMATContigGraph.txt, 包含 Contig 鏈接關系的組裝結果
- */assembly_result/PMAT_mt_raw.gfa, 線粒體基因組的初始組裝圖
- */assembly_result/PMAT_mt_master.gfa, 線粒體基因組的優化組裝圖
- */assembly_result/PMAT_pt_raw.gfa, 葉綠體基因組的初始組裝圖
- */assembly_result/PMAT_pt_master.gfa, 葉綠體基因組的優化組裝圖
?05?參考文獻
Bi C, Shen F, Han F, Qu Y, Hou J, Xu K, Xu LA, He W, Wu Z, Yin T. PMAT: an efficient plant mitogenome assembly toolkit using low-coverage HiFi sequencing data. Hortic Res. 2024, 11(3):uhae023. doi: 10.1093/hr/uhae023.
Bi C, Qu Y, Hou J, Wu K, Ye N, and Yin T. Deciphering the multi-chromosomal mitochondrial genome of Populus simonii. Front. Plant Sci. 2022, 13:914635.doi:10.3389/fpls.2022.914635.