單細胞轉錄組學和空間轉錄組學數據的整合方法

文章目錄

- - 問題1：現有技術是否可以拿取固定數目的細胞進行組合形成spot
  - 問題2：是否有關于這方面的研究
  - 問題3：相關論文推薦
  - 一、細胞反卷積的核心目標與挑戰
  - 二、單細胞與空間轉錄組數據的整合方法分類
  - - 1. 概率型方法（Probabilistic-based）
    - 2. 非負矩陣分解型方法（NMF-based）
    - 3. 深度學習型方法（Deep learning-based）
    - 4. 最優傳輸型方法（OT-based）
    - 5. 參考-free方法（無需scRNA-seq）
  - 三、整合的核心流程
  - 四、關鍵結論
  - 問題1：文章針對不同方法使用的數據集策略是不同的嗎？
  - 問題2：文章中存在關于構造模擬數據集的描述嗎？
  - 問題3：從Tangram開始了解單細胞轉錄組學和空間轉錄組學數據的整合方法怎么樣？同時對于無監督方法SpiceMix怎么樣，值得了解嗎？

推薦文章
1. Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram
2. Robust decomposition of cell type mixtures in spatial transcriptomics
3. Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics

問題1：現有技術是否可以拿取固定數目的細胞進行組合形成spot

從目前已有的公開技術和文獻來看，在實驗室中理論上可以通過人工操作來嘗試拿取固定數目的細胞進行組合形成類似spot的模擬樣本，但實際操作面臨諸多挑戰，且與Visium等技術的原生原理和應用場景存在差異：

實驗操作層面：利用顯微操作技術或基于微流控的單細胞分選技術，可以挑選特定類型和數量的細胞。例如，使用流式細胞儀先對上皮細胞和間質細胞進行分選標記，再通過微流控芯片上的微通道，按照5個上皮細胞、12個間質細胞這樣的設定進行組合。然而，Visium技術本身是基于組織切片自然狀態下的RNA捕獲，組織中的細胞緊密相連且存在復雜的微環境相互作用，人工組合細胞難以完全模擬這種自然的細胞間關系和微環境。
數據模擬層面：即使人工構建了模擬spot樣本，對于后續反卷積算法的模擬也存在問題。反卷積算法通常假設混合信號來自自然組織中隨機分布的細胞類型混合，而人工設定比例的數據可能與真實數據的分布特征差異較大，導致算法在這種模擬數據上的表現無法準確反映其在真實Visium數據上的性能。
Ground truth保障層面：雖然人工組合時細胞比例是已知的，看似ground truth有保障，但在實際實驗過程中，細胞的狀態、基因表達的穩定性等因素可能會因為人工操作而改變。例如，細胞在分離和重新組合過程中可能受到機械應力、滲透壓變化等影響，導致基因表達與自然狀態下不同，從而影響作為ground truth的可靠性。

問題2：是否有關于這方面的研究

關于人工構建特定細胞比例的模擬spot用于空間轉錄組反卷積研究的報道較少。原因在于這種模擬方式與實際的空間轉錄組數據產生過程差異較大，對解決實際問題的幫助有限。更多的研究是圍繞如何利用真實的單細胞轉錄組（scRNA-seq）和空間轉錄組數據進行更準確的反卷積算法開發、數據整合等。不過，在一些數據增強或算法驗證的研究中，可能會涉及到一定程度上對細胞比例的人工調整或模擬，但并非完全按照固定細胞數目組合的方式。

問題3：相關論文推薦

《Robust decomposition of cell type mixtures in spatial transcriptomics》：這篇論文提出了RCTD（Robust Cell Type Decomposition）方法，用于將單細胞RNA測序數據中的細胞類型注釋轉移到空間轉錄組學數據上。文中雖未涉及人工構建特定細胞比例的模擬spot，但詳細介紹了如何利用單細胞和空間轉錄組數據進行細胞類型反卷積分析，是空間轉錄組反卷積領域的重要文獻。
《Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics》：探討了單細胞轉錄組學和空間轉錄組學數據的整合方法，研究如何通過整合兩種數據來揭示細胞間的組織動態變化，對于理解空間轉錄組數據中細胞類型的解析和細胞間相互作用分析有重要參考價值。

該文章重點探討了空間轉錄組數據的細胞反卷積（cellular deconvolution）任務，即解析低分辨率斑點（spot）中混合的細胞類型比例，并詳細闡述了單細胞轉錄組學（scRNA-seq）與空間轉錄組學數據的整合方法。以下是核心內容：

一、細胞反卷積的核心目標與挑戰

空間轉錄組技術（如10X Visium）的低分辨率斑點常包含多種細胞類型，導致真實轉錄模式被掩蓋。反卷積的核心目標是量化每個斑點中不同細胞類型的比例，從而恢復組織的細胞水平異質性。其主要挑戰包括：斑點中細胞類型混合、scRNA-seq與空間轉錄組數據的平臺差異，以及高dropout率對稀有細胞類型檢測的影響。

二、單細胞與空間轉錄組數據的整合方法分類

文章將18種反卷積方法分為需要scRNA-seq參考和無需scRNA-seq參考兩大類，其中15種方法依賴同一組織的scRNA-seq數據作為參考，核心是通過scRNA-seq的細胞類型特征解析空間斑點的混合信號。具體整合策略基于計算技術可分為5類：

1. 概率型方法（Probabilistic-based）

原理：基于統計模型假設細胞類型比例服從特定概率分布，利用scRNA-seq的細胞類型表達譜作為先驗，推斷空間斑點中細胞類型的后驗概率。
代表方法：
- Cell2location：通過貝葉斯模型訓練，將scRNA-seq的細胞類型特征與空間轉錄組數據匹配，精準映射細胞類型比例。
- RCTD：通過校正平臺效應（如基因表達差異），利用scRNA-seq的細胞類型“簽名”（signature）識別空間斑點中的細胞類型組成。

2. 非負矩陣分解型方法（NMF-based）

原理：將空間轉錄組的基因表達矩陣分解為“細胞類型特征矩陣”（來自scRNA-seq）和“細胞類型比例矩陣”，通過迭代優化使分解結果與觀測數據匹配。
代表方法：
- CARD：結合空間位置信息（如鄰域相關性），通過NMF分解優化細胞類型比例推斷，提升空間模式一致性。
- SPOTlight：以scRNA-seq的細胞類型特征為種子，通過NMF回歸分解空間斑點的混合信號。

3. 深度學習型方法（Deep learning-based）

原理：利用神經網絡學習scRNA-seq與空間轉錄組數據的映射關系，捕捉復雜的基因表達模式。
代表方法：
- Tangram：通過深度神經網絡將scRNA-seq的細胞映射到空間位置，優化細胞類型與空間斑點的匹配度，尤其適用于大樣本數據。

4. 最優傳輸型方法（OT-based）

原理：基于最優傳輸理論，將scRNA-seq的細胞視為“源”，空間斑點視為“目標”，通過最小化傳輸成本（如基因表達差異）推斷細胞類型比例。
代表方法：
- novoSpaRc：通過最優傳輸模型匹配單細胞與空間斑點的基因表達分布，兼顧空間位置約束。

5. 參考-free方法（無需scRNA-seq）

原理：僅利用空間轉錄組的基因表達和空間位置信息，通過矩陣分解或潛在主題模型識別潛在細胞類型。
代表方法：
- STdeconvolve：借鑒自然語言處理中的潛在狄利克雷分配（LDA）模型，將基因表達視為“詞”、斑點視為“文檔”，推斷潛在“主題”（對應細胞類型）。

三、整合的核心流程

數據預處理：
- scRNA-seq數據需進行細胞類型注釋，提取每種細胞類型的特征基因表達譜；
- 空間轉錄組數據需標準化基因表達，并關聯空間坐標信息。
模型訓練與優化：
- 以scRNA-seq的細胞類型特征為參考，通過上述計算方法（如概率模型、NMF、深度學習）將空間斑點的混合表達分解為細胞類型比例；
- 部分方法（如CARD、Tangram）會結合空間鄰域信息（如斑點間的位置相關性）提升推斷準確性。
結果驗證：
- 對模擬數據（如MERFISH、seqFISH+，已知細胞類型比例），通過JSD、RMSE評估準確性；
- 對真實數據，通過細胞類型標記基因的空間表達模式與推斷比例的相關性（PCC）驗證。

四、關鍵結論

文章通過 benchmark 發現，CARD、Cell2location、Tangram 在準確性、穩健性和可用性上表現最優。這些方法均依賴scRNA-seq參考，核心是通過整合單細胞的細胞類型特征與空間轉錄組的位置信息，實現對混合斑點的精準解析。而參考-free方法（如STdeconvolve）適用于缺乏scRNA-seq數據的場景，但準確性依賴于數據的空間異質性。

綜上，該文章中的整合方法本質是將scRNA-seq的“細胞類型特征”作為“解碼器”，解析空間轉錄組中混合信號的“細胞類型比例”，從而實現從單細胞分辨率到空間位置的關聯。

問題1：文章針對不同方法使用的數據集策略是不同的嗎？

文章針對不同方法使用的數據集策略存在差異。從數據類型上看，使用了模擬數據集和真實數據集。對于模擬數據，如MERFISH和seqFISH+，其具有單細胞分辨率，通過以統一的方形大小對細胞進行分箱（binning）來模擬低分辨率斑點，根據不同細胞類型在每個斑點中的數量計算真實值（ground truth），用于評估方法在已知細胞類型比例情況下的準確性。而對于測序基的空間轉錄組數據（ST、Visium、Slide-seqV2和stereo-seq），則直接利用這些數據來模擬實際應用場景下的細胞反卷積任務。

從方法分類角度，對于需要單細胞RNA測序（scRNA-seq）參考的方法，如CARD、Cell2location等，在評估時會收集相應組織的scRNA-seq數據集作為補充資源，利用scRNA-seq數據中的細胞類型注釋和細胞類型特異性基因表達譜，來優化空間轉錄組數據中各細胞類型的比例推斷。對于無需scRNA-seq參考的方法，如Berglund、SpiceMix和STdeconvolve，僅依靠空間轉錄組數據中斑點的空間位置信息和基因表達譜來識別細胞類型特異性空間模式。

問題2：文章中存在關于構造模擬數據集的描述嗎？

文章存在關于構造模擬數據集的描述。文中利用具有單細胞分辨率的圖像基空間轉錄組數據（seqFISH+和MERFISH）來構造模擬數據集。具體方式是通過以統一的方形大小對細胞進行分箱（binning），將單細胞數據整合為低分辨率斑點，模擬空間轉錄組技術中低分辨率斑點包含多種細胞的情況。例如，seqFISH+和MERFISH數據包含基因表達譜、空間位置和細胞類型注釋，通過設定不同的分箱大小（如seqFISH+的51.5μm和100μm，MERFISH的20、50和100μm ），可以生成不同分辨率的模擬斑點。并且，根據每個模擬斑點中不同細胞類型的細胞數量，能夠計算出真實值（ground truth），用于后續評估細胞反卷積方法的準確性。

問題3：從Tangram開始了解單細胞轉錄組學和空間轉錄組學數據的整合方法怎么樣？同時對于無監督方法SpiceMix怎么樣，值得了解嗎？

從Tangram開始了解整合方法：從Tangram開始了解單細胞轉錄組學和空間轉錄組學數據的整合方法是個不錯的選擇。論文《A comprehensive benchmarking with practical guidelines for cellular deconvolution of spatial transcriptomics》對其進行了評估，Tangram是基于深度學習的方法，在研究中表現出色，在準確性、穩健性和可用性方面都有較好的表現。它通過深度神經網絡將scRNA-seq的細胞映射到空間位置，能夠以單細胞分辨率創建空間分辨率的細胞類型映射。在處理大樣本數據時，相比其他方法具有優勢，能有效整合單細胞和空間轉錄組數據，幫助理解細胞類型分布的結構以及細胞間通訊機制。
無監督方法SpiceMix：SpiceMix是值得了解的無監督方法。它基于概率潛變量模型，創新性地融合了非負矩陣分解（NMF）和隱馬爾可夫隨機場（HMRF）的優勢。NMF負責拆解基因表達尋找內在模式，HMRF負責約束空間關系尋找外在規律。該方法允許潛狀態為連續值，能捕捉細胞身份的漸變過程，還可靈活處理不同分布的細胞（如稀疏分布和層特異性分布的細胞）。在模擬數據和真實數據（如seqFISH+、STARmap、Visium平臺數據）的應用中，SpiceMix都展現出強大能力，能揭示傳統方法無法捕捉的細胞亞型和空間模式，如在解析小鼠初級視覺皮層、V1 neocortex以及人類背外側前額葉皮層的空間轉錄組數據時都有重要發現。

結合當前引用文件《A comprehensive benchmarking with practical guidelines for cellular deconvolution of spatial transcriptomics》的內容，推薦閱讀順序如下：

1. 優先閱讀《Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram》
當前文件中，Tangram被評為空間轉錄組反卷積任務中表現最優的方法之一，在準確性、穩健性（如處理大樣本量、不同分辨率數據）和可用性上均表現突出🔶3-10🔶3-60🔶。其作為深度學習方法的代表性工具，核心是通過神經網絡實現單細胞轉錄組與空間轉錄組的精準對齊，邏輯清晰且應用場景廣泛（如大組織樣本分析）。從Tangram入手，可直觀理解單細胞與空間數據整合的核心思路（如細胞類型映射、空間位置匹配），且能結合當前文件中對其性能的評估（如在MERFISH、Slide-seqV2等數據集上的表現），快速建立對整合方法的實踐認知。

2. 其次閱讀《Robust decomposition of cell type mixtures in spatial transcriptomics》
該論文對應方法RCTD，在當前文件中被提及為能有效校正scRNA-seq與空間轉錄組平臺效應的方法，尤其在處理異質性組織（如腫瘤）時表現穩健🔶3-74🔶。其核心邏輯是通過統計模型優化細胞類型“簽名”與空間斑點混合信號的匹配，與Tangram的深度學習思路形成互補（傳統統計方法vs.深度學習）。閱讀后可對比不同技術路線的優劣，加深對“平臺效應校正”這一關鍵挑戰的理解。

3. 最后閱讀《Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics》
該文更偏向整合方法的綜述性探討，當前文件中也提到單細胞與空間數據整合的核心價值是揭示細胞互作與組織微環境機制🔶3-10🔶。在理解Tangram、RCTD等具體方法后，再讀這篇可從宏觀層面梳理整合方法的整體框架（如映射、反卷積策略的共性與差異），形成“具體方法→技術路線→生物學應用”的完整認知。

綜上，從具體且表現優異的方法（Tangram） 切入，再擴展到互補方法（RCTD）和宏觀框架，能高效構建對單細胞與空間轉錄組整合方法的理解，且與當前文件的評估結果緊密呼應。