鏈特異性文庫是什么？為什么它在轉錄組測序中越來越重要？

在現代分子生物學研究中，RNA測序（RNA-seq） 是一種廣泛應用的技術，用于分析基因在不同條件下的表達情況。而在RNA-seq的眾多技術細節中，有一個“隱秘但關鍵”的環節——鏈特異性文庫構建（Strand-specific library preparation）。這項技術雖然聽起來有些專業，但它對結果的準確性有著重要影響。本文將通俗地介紹鏈特異性文庫的原理、作用、常見方法及數據分析注意事項。

1. 什么是“鏈特異性”？

DNA是一種雙鏈螺旋結構，由一條正義鏈（+鏈）和一條反義鏈（–鏈）構成。轉錄過程中，通常是由DNA的反義鏈（–鏈）作為模板合成mRNA，從而使mRNA序列與正義鏈一致（除了堿基T被替換為U）。

而在傳統的RNA-seq文庫構建中，RNA被打斷后逆轉錄成cDNA，再建庫測序，這個過程不會記錄RNA是來源于哪一條DNA鏈的信息。我們只知道這段RNA存在，但不知道其是源于正鏈還是反鏈。

鏈特異性文庫構建的目標是，在建庫過程中通過特定方法保留RNA原始的轉錄方向性信息，從而區分每一條RNA是由正鏈還是反鏈轉錄來的。
在這里插入圖片描述

2. 為什么需要鏈特異性文庫？

鏈方向的保留，在多種分析中具有不可替代的重要性：

區分重疊基因

部分基因在基因組中是反向重疊的，即它們位于同一個基因組區域的兩條鏈上。如果沒有鏈信息，無法準確判斷這段表達信號來自哪個基因。

注釋非編碼RNA

例如lncRNA、反義轉錄本等非編碼RNA，常與編碼基因反向重疊。鏈信息是這些轉錄本精確注釋的關鍵。

提高定量精度

當多個基因之間位置相近或有部分重疊時，鏈特異性測序可顯著減少表達混淆，提高定量和差異分析的準確性。

3. 鏈特異性文庫的實現原理

主流鏈特異性文庫構建方法主要分為以下幾類，它們的共同目標是在建庫過程中保留或標記RNA的方向性信息。

方法一：dUTP法（Illumina常用方案）

dUTP法是目前最常用的鏈特異性建庫策略，原理如下：

合成第一鏈cDNA（使用mRNA為模板）
合成第二鏈時，用dUTP代替dTTP，使第二鏈中含有尿嘧啶（dU）
使用**UDG（Uracil-DNA Glycosylase）**選擇性降解含dU的第二鏈
僅保留第一鏈進行接頭連接與PCR建庫

此法操作簡單、成本低、兼容性好，是Illumina TruSeq等商業試劑盒的推薦方案。

注意事項：

測序得到的read方向與原始mRNA方向相反
常用參數方向性為 RF（Read1為反義）

方法二：接頭定向連接法（如 SMARTer、ScriptSeq）

通過在第一鏈cDNA末端引入方向性接頭或模板切換寡核苷酸（TSO），實現鏈信息的標記。例如：

SMARTer法：只在第一鏈延伸出接頭，方向性由其控制。適用于低輸入甚至單細胞RNA。
ScriptSeq法：通過特定引物和接頭組合區分方向，較早用于鏈特異性建庫。

方法三：標簽標記法（Ligation-based）

該法通過在cDNA兩端連接不同標簽序列來區分方向性，部分早期方案采用，但操作復雜，使用較少。

4. 如何判斷文庫是否為鏈特異性？

在測序實驗前或數據分析時，應確認建庫是否保留方向信息，可通過以下方法判斷：

查看實驗說明書或FastQC注釋，如“stranded = yes”
使用RSeQC工具（infer_experiment.py） 判斷read是否集中來源于特定鏈
檢查比對軟件中strand參數是否正確設置，避免方向誤判

5. 鏈特異性數據的分析注意事項

分析鏈特異性RNA-seq數據時，需明確方向性設定：

分析步驟	重點參數	示例說明
比對軟件	設置strand參數	HISAT2示例：`--rna-strandness RF`
featureCounts計數工具	設定鏈信息	`-s 1`為正鏈，`-s 2`為反鏈（dUTP法用-s 2）
HTSeq-count工具	設置為reverse方向	`-s reverse`
定量分析	匹配注釋方向	lncRNA尤其敏感，方向錯會導致顯著誤判

6. 建庫方案選擇建議與參數配置

建庫方法建議

研究目標	建議建庫方案	說明
mRNA表達分析	dUTP法（TruSeq）	成熟穩定、性價比高
非編碼RNA分析（lncRNA等）	dUTP法或SMARTer法	保留方向，適合復雜轉錄本識別
單細胞或低起始量樣本	SMARTer、NEBNext Ultra II	高靈敏度，適合微量RNA
全轉錄組/非polyA分析	rRNA去除 + dUTP法	可識別非polyA RNA轉錄本

實驗參數配置參考（以dUTP法為例）

步驟	參數或建議
RNA輸入量	100 ng – 1 μg，依樣品而定
打斷條件	94°C，4–8分鐘，目標片段200–400 bp
第一鏈合成	使用SuperScript II或III等高效酶
第二鏈合成	用dUTP替代dTTP
降解第二鏈	使用USER酶去除含dU鏈
PCR擴增	控制在10–15個cycle內
文庫質控	Bioanalyzer檢測片段分布峰值約300 bp

7. 數據分析參數設置示例

HISAT2 比對示例

hisat2 -x genome_index -1 R1.fastq -2 R2.fastq --rna-strandness RF

其中 RF 表示鏈特異性雙端測序，第一條read與mRNA方向相反。

STAR 比對配置

--outSAMstrandField intronMotif
--outSAMtype BAM SortedByCoordinate
--outFilterMultimapNmax 1
--twopassMode Basic

STAR支持鏈方向性，但后續需在featureCounts中設定方向。

featureCounts 示例

featureCounts -s 2 -p -T 8 -a annotation.gtf -o counts.txt aligned.bam

-s 2 表示反向鏈特異性，適用于dUTP建庫。

HTSeq-count 示例

htseq-count -f bam -s reverse -r pos aligned.bam annotation.gtf

8. 如何驗證鏈特異性是否有效

使用RSeQC工具包中的 infer_experiment.py 命令可以判斷測序數據是否保留鏈信息：

infer_experiment.py -i aligned.bam -r ref.bed

結果會輸出reads在不同鏈的分布比例。若某一類鏈向占比超過95%，說明鏈特異性建庫成功：

Fraction of reads explained by "1++,1--,2+-,2-+": 0.958
Fraction of reads explained by "1+-,1-+,2++,2--": 0.042

9. 常見方法與參數匯總

方法類型	建庫原理	分析參數方向性	適用場景
dUTP法	第二鏈含dUTP并降解	RF 或 -s 2	主流方案，Illumina推薦
SMARTer法	模板切換接頭控制方向性	需自定義	低起始量或單細胞樣本
Ligation-based法	接頭序列標記方向性	需自定義	特殊需求項目，較復雜較少使用

小結

鏈特異性文庫技術為RNA-seq分析帶來了更高的準確性，特別適用于區分反向重疊基因、識別非編碼RNA及提高定量精度。盡管建庫成本略有增加、分析參數需設定更精確，但其帶來的數據質量提升遠大于投入。如果你正計劃開展轉錄組研究，鏈特異性文庫無疑是值得優先選擇的建庫方式之一。

如需配套文庫構建圖示、參數設定流程圖、分析代碼封裝，歡迎留言交流。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/91403.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/91403.shtml
英文地址，請注明出處：http://en.pswp.cn/web/91403.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！