MultiQC使用指導
官網資料
文獻:MultiQC --- summarize analysis results for multiple tools and samples in a single report
參考資料一: 整合 fastq 質控結果的工具
簡介
MultiQC 是一個基于Python的模塊, 用于整合其它軟件的報告結果, 目前支持以下軟件的結果整合:
Pre-alignment tools
Alignment tools
Post-alignment tools
參數說明及example
#如對fastqc生成的結果進行統計
cd fastqc_out
multiqc ./
ll ./
# -rw-r--r-- 1 1-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 1-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 2-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 3-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 5-WT_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-MU_R2_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R1_paired_fastqc.zip
# -rw-r--r-- 1 6-WT_R2_paired_fastqc.zip
# drwxr-xr-x 2 multiqc_data
# -rw-r--r-- 1 multiqc_report.htmlll -h multiqc_data/
# total 36K
# -rw-r--r-- 1 multiqc_fastqc.txt
# -rw-r--r-- 1 multiqc_general_stats.txt
# -rw-r--r-- 1 multiqc.log
# -rw-r--r-- 1 multiqc_sources.txt
#也可以對多個文件夾下fastqc生成的結果進行統計
multiqc data/
multiqc data/ ../proj_one/analysis/ /tmp/results#或者對指定文件夾下fastqc生成的結果進行統計
multiqc data/*_fastqc.zip
multiqc data/sample_1*# -x/--ignore 指定的文件夾/文件不進行統計處理
multiqc . --ignore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*_R2.zip#MultiQC忽略指定文件
multiqc . --ignore-samples sample_3*#MultiQC only search the listed files which contain a list of file paths, one per row.
#文件每行對應一個文件
multiqc --file-list my_file_list.txt# -n/--name 更改輸出文件的名稱
#默認輸出文件名:
# multiqc_data
# multiqc_report.html# -o/-outdir 指定輸出目錄# -f 覆蓋同名目錄
#-f, --force Overwrite any existing reports# -v/--verbose 當存在兩個同名的文件時,增加此參數可以區別兩者,避免前者的數據被后者所覆蓋#默認情況下,記錄的格式是:絕對路徑和文件名
#By default, --dirs will prepend the entire path to each sample name.
#-dd/--dirs-depth num 指定記錄num層路徑;當num為負整數時,則從路徑的起始處取#記錄絕對路徑
multiqc -d .
# analysis_1 | results | type | sample_1 | file.log
# analysis_2 | results | type | sample_2 | file.log
# analysis_3 | results | type | sample_3 | file.log
#num 4 3 2 1
#num -1 -2 -3 -4#記錄一層路徑
multiqc -d -dd 1 .
# sample_1 | file.log
# sample_2 | file.log
# sample_3 | file.logmultiqc -d -dd -1 .
# analysis_1 | file.log
# analysis_2 | file.log
# analysis_3 | file.log# -t, --template [default|default_dev|geo|sections|simple],Report template to use.
#指定輸出報告的模板,模板有:default|default_dev|geo|sections|simple# --pdf 指定輸出文件是PDF文件,默認輸出是HTML文件
#指的注意的是,此參數需搭配參數-t simple, 且pandoc模塊必須存在,否則無法生成pdf
multiqc -t simple --pdf -n test ./#-k/--data-format 解析數據目錄,默認格式是:tsv; 此參數主要針對有大量樣本需要處理
#-k, --data-format [tsv|json|yaml] Output parsed data in a different format.Default: tsv# --data-dir 指定生成數據目錄,默認
# --no-data-dir 指定不生成數據目錄 #-z/--zip-data-dir 壓縮data directory
multiqc -n test00 -z ./
#test00.html
#test00_data.zip# -m/--modules [module name] 運行指定模塊
# -e/--exclude [module name] 除指定模塊,其他模塊均運行
Fastqc 報告說明
Per base sequence quality,每個read各位置堿基的測序質量。橫軸堿基的位置,縱軸 是質量分數, Quality score=-10log10p(p代表錯誤率),所以當質量分數為40的時候,p就是0.0001,質量算高了。紅色線代表中位數,藍色代表平均數,黃色是25%-75%區間,觸須是10%-90%區間(黃色和觸須我不是特別明白)。若任一位置的下四分位數低于10或者中位數低于25,出現“警告”;若任一位置的下四分位數低于5或者中位數低于20,出現“失敗,Fail”。
Per tile sequence quality,檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度,藍色代表偏離度小,質量好,越紅代表偏離度越大,質量越差。
Per sequence quality scores, reads質量的分布, 當峰值小于27時,警告; 當峰值小 于20時,fail。
Per base sequence content,對所有reads的每一個位置,統計ATCG四種堿基的分布,橫軸為位置,縱軸為堿基含量,正常情況下每個位置每種堿基出現的概率是相近的,四條線應該平行且相近。當部分位置堿基的比例出現bias時,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染。本結果前10個位置,每種堿基頻率有明顯的差別,說明有污染。當任一位置的A/T比例與G/C比例相差超過10%,報"WARN";當任 一位置的A/T比例與G/C比例相差超過20%,報"FAIL"。
Per base N content,當測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產生“N”,統計N的比率。正常情況下,N值非常小。當任意位置的N的比例超過5%,報"WARN";當任意位置的N的比例超過20%,報"FAIL"。
Sequence Length Distribution,reads長度分布,當reads長度不一致時報"WARN";當有長度為0的read時報“FAIL”。
Sequence Duplication Levels,統計不同拷貝數的reads的頻率。測序深度越高,越容易產生一定程度的duplication,這是正常的現象,但如果duplication的程度很高,就提示我們可能有bias的存在。橫坐標是duplication的次數,縱坐標是duplicated reads的數目,以unique reads的總數作為100%。當非unique的reads占總數的比例大于20%時,報"WARN";當非unique的reads占總數的比例大于50%時,報"FAIL“。
Overrepresented sequences,一條序列的重復數,因為一個轉錄組中有非常多的轉錄本,一條序列再怎么多也不太會占整個轉錄組的一小部分(比如1%),如果出現這種情況,不是這種轉錄本巨量表達,就是樣品被污染。這個模塊列出來大于全部轉錄組1%的reads序列,但是因為用的是前200,000條,所以其實參考意義不大,完全可以忽略。
Adapter content,接頭含量