以這個為例子解釋STAR參數含義
STAR 命令參數解釋
STAR \
--outFilterType BySJout \
--runThreadN 8 \
--outFilterMismatchNmax 2 \
--genomeDir <hg19_STARindex> \
--readFilesIn <un_aligned.fastq> \
--outFileNamePrefix <HEK293> \
--outSAMtype BAM SortedByCoordinate \
--quantMode TranscriptomeSAM GeneCounts \
--outFilterMultimapNmax 1 \
--outFilterMatchNmin 16 \
--alignEndsType EndToEnd
-
--outFilterType BySJout
:- 過濾類型,
BySJout
表示只輸出通過Splice Junction過濾的reads。這對于檢測新的剪接位點非常有用。
- 過濾類型,
-
--runThreadN 8
:- 使用8個線程進行計算。多線程可以加速處理速度,特別是在多核處理器上。
-
--outFilterMismatchNmax 2
:- 每個read允許的最大錯配數。如果一個read有超過2個錯配,則不會被輸出。這個參數控制比對的精確度。
-
--genomeDir <hg19_STARindex>
:- 指定參考基因組索引的目錄。這里假設是hg19基因組的STAR索引。
-
--readFilesIn <un_aligned.fastq>
:- 輸入的FASTQ文件,包含待比對的reads。
-
--outFileNamePrefix <HEK293>
:- 輸出文件的前綴。所有輸出文件的名稱都會以這個前綴開始。
-
--outSAMtype BAM SortedByCoordinate
:- 指定輸出文件類型和排序方式。這里輸出的文件格式為BAM,并按坐標排序。
-
--quantMode TranscriptomeSAM GeneCounts
:TranscriptomeSAM
:輸出轉錄組的比對結果(適用于下游轉錄組分析工具)。GeneCounts
:生成基因計數文件。
-
--outFilterMultimapNmax 1
:- 每個read允許的最大多比對數(multimapping)。設為1意味著只保留唯一比對的reads。如果一個read比對到多個位置,則不會被輸出。
-
--outFilterMatchNmin 16
:- 每個read的最小比對長度。如果一個read比對的長度小于16bp,則不會被輸出。這個參數控制比對的質量。
-
--alignEndsType EndToEnd
:- 比對模式,
EndToEnd
表示全長比對,要求read的兩端都比對到參考基因組。
- 比對模式,
是否保留多比對(multimapping)
根據參數 --outFilterMultimapNmax 1
,該設置表明只保留唯一比對的reads。如果一個read比對到多個位置,則不會被輸出。因此,該命令配置沒有保留多比對的reads,只有唯一比對的reads會被保留和輸出。
總結
--outFilterMultimapNmax 1
參數設定為1,意味著不保留多比對的reads,只保留唯一比對的reads。- 其他參數控制比對的精確度、輸出格式和質量過濾標準。
通過這些設置,STAR將只輸出那些唯一比對到參考基因組的位置、且質量符合要求的reads。