MultiQC使用指導

官網資料
文獻：MultiQC --- summarize analysis results for multiple tools and samples in a single report
參考資料一：整合 fastq 質控結果的工具

簡介

MultiQC 是一個基于Python的模塊, 用于整合其它軟件的報告結果, 目前支持以下軟件的結果整合:

Pre-alignment tools
這里寫圖片描述

Alignment tools
這里寫圖片描述

Post-alignment tools
這里寫圖片描述

參數說明及example


#如對fastqc生成的結果進行統計
cd fastqc_out
multiqc ./
ll ./
# -rw-r--r-- 1 1-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R2_paired_fastqc.zip
# drwxr-xr-x 2  multiqc_data
# -rw-r--r-- 1  multiqc_report.htmlll -h multiqc_data/
# total 36K
# -rw-r--r-- 1 multiqc_fastqc.txt
# -rw-r--r-- 1 multiqc_general_stats.txt
# -rw-r--r-- 1 multiqc.log
# -rw-r--r-- 1 multiqc_sources.txt

#也可以對多個文件夾下fastqc生成的結果進行統計
multiqc data/
multiqc data/ ../proj_one/analysis/ /tmp/results#或者對指定文件夾下fastqc生成的結果進行統計
multiqc data/*_fastqc.zip
multiqc data/sample_1*# -x/--ignore 指定的文件夾/文件不進行統計處理
multiqc . --ignore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*_R2.zip#MultiQC忽略指定文件
multiqc . --ignore-samples sample_3*#MultiQC only search the listed files which contain a list of file paths, one per row. 
#文件每行對應一個文件
multiqc --file-list my_file_list.txt# -n/--name  更改輸出文件的名稱
#默認輸出文件名：
# multiqc_data
# multiqc_report.html# -o/-outdir 指定輸出目錄# -f 覆蓋同名目錄
#-f, --force Overwrite any existing reports# -v/--verbose 當存在兩個同名的文件時，增加此參數可以區別兩者，避免前者的數據被后者所覆蓋#默認情況下，記錄的格式是：絕對路徑和文件名
#By default, --dirs will prepend the entire path to each sample name.
#-dd/--dirs-depth num 指定記錄num層路徑；當num為負整數時，則從路徑的起始處取#記錄絕對路徑
multiqc -d .
# analysis_1 | results | type | sample_1 | file.log
# analysis_2 | results | type | sample_2 | file.log
# analysis_3 | results | type | sample_3 | file.log
#num   4          3        2        1
#num   -1         -2       -3       -4#記錄一層路徑
multiqc -d -dd 1 .
# sample_1 | file.log
# sample_2 | file.log
# sample_3 | file.logmultiqc -d -dd -1 .
# analysis_1 | file.log
# analysis_2 | file.log
# analysis_3 | file.log# -t, --template [default|default_dev|geo|sections|simple],Report template to use.
#指定輸出報告的模板，模板有：default|default_dev|geo|sections|simple# --pdf     指定輸出文件是PDF文件，默認輸出是HTML文件
#指的注意的是，此參數需搭配參數-t simple, 且pandoc模塊必須存在，否則無法生成pdf
multiqc -t simple --pdf -n test ./#-k/--data-format  解析數據目錄，默認格式是：tsv; 此參數主要針對有大量樣本需要處理
#-k, --data-format [tsv|json|yaml] Output parsed data in a different format.Default: tsv# --data-dir    指定生成數據目錄，默認
# --no-data-dir     指定不生成數據目錄                              #-z/--zip-data-dir 壓縮data directory
multiqc -n test00 -z ./
#test00.html
#test00_data.zip# -m/--modules [module name]   運行指定模塊
# -e/--exclude [module name]   除指定模塊，其他模塊均運行

Fastqc 報告說明

Per base sequence quality，每個read各位置堿基的測序質量。橫軸堿基的位置，縱軸是質量分數， Quality score=-10log10p（p代表錯誤率），所以當質量分數為40的時候，p就是0.0001，質量算高了。紅色線代表中位數，藍色代表平均數，黃色是25%-75%區間，觸須是10%-90%區間（黃色和觸須我不是特別明白）。若任一位置的下四分位數低于10或者中位數低于25，出現“警告”；若任一位置的下四分位數低于5或者中位數低于20，出現“失敗，Fail”。

Per tile sequence quality，檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度，藍色代表偏離度小，質量好，越紅代表偏離度越大，質量越差。

Per sequence quality scores, reads質量的分布, 當峰值小于27時，警告；當峰值小于20時，fail。

Per base sequence content，對所有reads的每一個位置，統計ATCG四種堿基的分布，橫軸為位置，縱軸為堿基含量，正常情況下每個位置每種堿基出現的概率是相近的，四條線應該平行且相近。當部分位置堿基的比例出現bias時，即四條線在某些位置紛亂交織，往往提示我們有overrepresented sequence的污染。本結果前10個位置，每種堿基頻率有明顯的差別，說明有污染。當任一位置的A/T比例與G/C比例相差超過10%，報"WARN"；當任一位置的A/T比例與G/C比例相差超過20%，報"FAIL"。

Per base N content，當測序儀器不能辨別某條reads的某個位置到底是什么堿基時，就會產生“N”，統計N的比率。正常情況下，N值非常小。當任意位置的N的比例超過5%，報"WARN"；當任意位置的N的比例超過20%，報"FAIL"。

Sequence Length Distribution，reads長度分布，當reads長度不一致時報"WARN"；當有長度為0的read時報“FAIL”。

Sequence Duplication Levels，統計不同拷貝數的reads的頻率。測序深度越高，越容易產生一定程度的duplication，這是正常的現象，但如果duplication的程度很高，就提示我們可能有bias的存在。橫坐標是duplication的次數，縱坐標是duplicated reads的數目，以unique reads的總數作為100%。當非unique的reads占總數的比例大于20%時，報"WARN"；當非unique的reads占總數的比例大于50%時，報"FAIL“。

Overrepresented sequences，一條序列的重復數，因為一個轉錄組中有非常多的轉錄本，一條序列再怎么多也不太會占整個轉錄組的一小部分（比如1%），如果出現這種情況，不是這種轉錄本巨量表達，就是樣品被污染。這個模塊列出來大于全部轉錄組1%的reads序列，但是因為用的是前200,000條，所以其實參考意義不大，完全可以忽略。

Adapter content，接頭含量

轉載于:https://www.cnblogs.com/adawong/articles/7412764.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/540721.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/540721.shtml
英文地址，請注明出處：http://en.pswp.cn/news/540721.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！