分析模塊,封裝了Trinity程序包中的“align_and_estimate_abundance.pl”腳本,進行原始數據與轉錄本序列的比對和表達量計算。其中,核心程序為,Bowtie或Bowtie2進行原始數據與轉錄本序列的比對,RSEM根據比對結果進行表達量的計算。核心程序相關參數為,Bowtie:'--all --best --strata -m 300 --chunkmbs 512'。Bowtie2:'--no-mixed --no-discordant --gbar 1000 --end-to-end'。RSEM:默認參數。
分析模塊,輸入構建好索引的轉錄本參考文件(由分析模塊“Build Transcript Reference Index”生成),以及轉錄組測序原始數據(fastq文件)。這里,推薦測序原始數據,先通過分析模塊“Trimmomatic PE/SE”進行去接頭污染和質量控制。
分析模塊,將轉錄組測序原始數據(fastq文件數據)比對回轉錄本參考序列,生成bam格式的比對結果文件,轉錄本水平表達結果文件,基因水平表達結果文件。
注:bam文件,可以利用IGV軟件打開,查看比對結果。
IGV安裝和使用,包含Windows桌面版和iPad版,官方網站提供了詳細的文檔。參考網站:(http://www.broadinstitute.org/igv/)。
輸入測序數據分兩種模式(SE/PE):
選擇Paire-End時,分析模塊處理雙末端測序數據,需提供2個fastq原始數據文件,分別對應左端和右端測序結果。
選擇Single-Single時,分析模塊處理單末端測序數據,需提供1個fastq原始數據文件。
輸入:
1、構建好索引的轉錄本參考文件,由分析模塊“Build Transcript Reference Index”生成。
2、fastq格式的測序原始數據文件。
示例:
@ecoli_section_9642_10205_3:0:0_1:0:0_0/1
CCCGCCATCTCTTGCAGAAGCGCCTGTTGCTGTACATGGTGCATTCGCATCCCCATCCCTACGCGGCTTC
+
2222222222222222222222222222222222222222222222222222222222222222222222
如果,轉錄組是鏈特異性建庫測序,則需要設置鏈特異性文庫類型。
PE測序,FR表明paired-reads與轉錄本一致,RF表明paired-reads與轉錄本反向互補鏈一致。
SE測序,F表明read與轉錄本對應,R表明read對應轉錄本反向互補鏈。
輸出:
1、bam格式的比對結果文件。
關于Bowtie輸出的BAM/SAM格式介紹,參考:(http://bowtie-bio.sourceforge.net/manual.shtml#sam-bowtie-output)。
關于Bowti2輸出的BAM/SAM格式介紹,參考:(http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#sam-output)。
2、RSEM轉錄本水平表達結果文件。
其中,每一列的含義如下所示:
ltranscript_id,transcript name of this transcript.
lgene_id,gene name of the gene which this transcript belongs to.
llength,this transcript's sequence length.
leffective_length,counts only the positions that can generate a valid fragment.
lexpected_count,the sum of the posterior probability of each read comes from this transcript over all reads.
lTPM,Transcripts Per Million. It is a relative measure of transcript abundance. The sum of all transcripts' TPM is 1 million.
lFPKM,Fragments Per Kilobase of transcript per Million mapped reads.
lIsoPct,It is the percentage of this transcript's abandunce over its parent gene's abandunce. If it’s parent gene has only one isoform, this field will be set to 100.
3、RSEM基因水平表達結果文件。
其中,一些列的含義如下所示:
lgene_id,gene name of the gene
ltranscript_id(s),a comma-separated list of transcript_ids belonging to this gene.
lLength,weighted average of its transcripts' lengths (weighted by 'IsoPct').
leffective_length,weighted average of its transcripts' effective lengths (weighted by 'IsoPct').
lexpected_count、TPM、FPKM,為對應基因包含的所有轉錄本的數值求和。
后續的下游分析,如,差異表達分析、熱圖、PCA等。通常情況下,基于expected_count和FPKM的數值進行分析,即基因原始片段數估算結果和FPKM數值估計結果。
分析模塊引用了Trinity v2.0.6程序包中的“align_and_estimate_abundance.pl”腳本(https://github.com/trinityrnaseq/trinityrnaseq/wiki)。
分析模塊引用了Bowtie-0.12.7軟件(http://bowtie-bio.sourceforge.net/index.shtml)。
分析模塊引用了Bowtie2-2.1.0軟件(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)。
分析模塊引用了RSEM-1.2.26軟件(http://deweylab.github.io/RSEM/)。
相關文獻如下所示:
Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J, Couger MB, Eccles D, Li B, Lieber M, Macmanes MD, Ott M, Orvis J, Pochet N, Strozzi F, Weeks N, Westerman R, William T, Dewey CN, Henschel R, Leduc RD, Friedman N, Regev A. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nat Protoc. 2013 Aug;8(8):1494-512. Open Access in PMC doi: 10.1038/nprot.2013.084. Epub 2013 Jul 11. PubMed PMID: 23845962.
Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol 10:R25.
Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359.
Bo Li and Colin N Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics201112:323.