SIMBA方法解讀

fig1

目錄

  • 預處理
    • scRNA-seq
    • scATAC-seq
  • 圖構建(5種場景)
    • scRNA-seq分析
    • scATAC-seq分析
    • 多模態分析
    • 批次整合
    • 多模態整合
  • 圖學習
  • SIMBA空間中查詢實體
  • 識別TF-target genes

預處理

scRNA-seq

過濾掉在少于三個細胞中表達的基因。原始計數按文庫大小標準化,然后進行對數轉換。可選地,可以執行HVG選擇以刪除非信息性基因并加速訓練過程。在將特征輸入限制為通過HVG選擇確定的特征輸入時,未觀察到所得細胞嵌入的顯著差異,但不會生成非可變基因的 SIMBA 嵌入,因為它們未在圖中編碼。

scATAC-seq

過濾掉少于三個細胞中的peak。或者,實施一個可擴展的基于截斷 SVD 的程序來選擇峰,作為初步步驟,以額外過濾非信息峰并加速訓練過程。首先,選擇前 k 個主成分 (PC),其中 k 的選擇基于方差圖。然后,對于前 k 個 PC 中的每一個,使用由“kneed”實現的拐點檢測算法根據載荷自動選擇peak。最后,將為每個 PC 選擇的峰組合起來并表示為“變量峰”。與使用 scRNA-seq 數據的觀察結果類似,變量峰選擇的可選步驟對生成的細胞嵌入的影響可以忽略不計。盡管對生成的嵌入的影響微乎其微,但此特征選擇步驟在減少訓練過程時間方面具有顯著的實際優勢。

使用 JASPAR2020 中的“Biostrings”和“motifmatchr”包執行 k-mer 和motif掃描。SIMBA 的實現中包含一個方便的 R 命令行腳本“scan_for_kmers_motifs.R”,它將peak列表(格式為 bed 文件)轉換為稀疏的peaks-by-k mers和peaks-by-motifs矩陣,該矩陣存儲為 hdf5 格式的文件。

圖構建(5種場景)

scRNA-seq分析

在構建細胞和基因graph時,如果基因在給定細胞中表達,則在細胞和基因之間添加一條邊。為了區分每條邊的強度,提出了一種bins方法,將基因表達值分為不同的級別,同時保留原始分布。不同級別的基因表達由不同類型的關系編碼。具體來說,首先使用基于 k-means 的程序近似歸一化基因表達矩陣中非零值的分布。首先,將連續的非零值分箱到 n 個區間(默認情況下,n = 5)。使用一維 k 均值聚類定義箱寬,其中每個箱中的值分配給相同的聚類中心。然后將連續矩陣轉換為離散矩陣,其中 1、…、n 用于表示 n 個基因表達級別。零值保留在此矩陣中。然后,通過將兩種類型的實體(細胞和基因)編碼為節點,將具有 n 個不同權重的關系(即 n 個基因表達級別)編碼為邊來構建圖。這 n 個關系權重的范圍從 1.0 到 5.0,步長為 5 / n,表示基因表達水平(最低:1.0,最高:5.0),因此與高表達水平相對應的邊對嵌入的影響比中等或低表達水平的邊更大。正如預期的那樣,觀察到,隨著bins數量的增加,離散化分布接近原始分布。然而,表達分辨率的增加對生成的嵌入影響不大。此離散化是在 SIMBA 包中使用函數“si.tl.discretize()”實現的。

除了關系類型權重外,SIMBA 還支持在構建圖時將基因表達值直接編碼為邊權重。此過程會生成與分箱過程類似的嵌入。這進一步表明離散化bins在捕獲生物信息方面是有效的。這種對邊權重的支持是在 SIMBA 包中使用函數“si.tl.gen_graph(add_edge_weights=True)”實現的。

scATAC-seq分析

peak-by-cell矩陣被二值化:“1”表示峰內至少有一個read,否則分配“0”。該圖是通過將兩種類型的實體(細胞和峰)編碼為節點,將它們之間的關系(表示給定峰在細胞中的存在)編碼為邊來構建的。單個關系類型的權重為 1.0。當 DNA 序列特征可用時,它們被使用 k-mer 和motif實體作為節點編碼到圖中。這是通過首先將peak-by-k mer或peak-by-motif矩陣二值化,然后使用peak、k-mer 和motif作為節點,并使用peak內這些實體的存在作為這些額外節點和峰節點之間的邊來構建原始peak-by-cell圖的擴展。k-mer 和峰之間的關系被分配了 0.02 的權重,而 TF 基序之間的關系被分配了 0.2 的權重。值得注意的是,根據具體的分析任務,k-mers 和motif可以彼此獨立地用作圖的節點輸入。

多模態分析

將上述使用 scRNA-seq 和 scATAC-seq 數據構建圖的策略結合起來,構建了多組學圖。

批次整合

按照“scRNA-seq分析”中所述構建每個批次的圖。通過基于截斷隨機 SVD 的程序推斷不同批次細胞之間的邊緣,以鏈接不同批次的不相交圖。更具體地說,在 scRNA 序列數據的情況下,考慮兩個基因表達矩陣 X 1 n 1 × m X1_{n_{1}\times m} X1n1?×m? X 2 n 2 × m X2_{n_{2}\times m} X2n2?×m?,其中 n 1 n_{1} n1? n 2 n_{2} n2?分別是兩個批次的細胞數量, m m m是gene數量。

然后計算: X = X 1 × X 2 T X=X1\times X2^{T} X=X1×X2T隨后對 X X X 執行截斷隨機 SVD: X = U × Σ × V T X=U\times \Sigma\times V^{T} X=U×Σ×VT其中, U U U n 1 × d n_{1}\times d n1?×d的矩陣, Σ \Sigma Σ d × d d\times d d×d的矩陣, V V V n 2 × d n_{2}\times d n2?×d的矩陣,默認 d = 20 d=20 d=20

U U U V V V 都進一步進行了 L2 歸一化。對于 U U U 中的每個細胞,我們在 V V V 中搜索 k 個最近鄰居,反之亦然(默認情況下,k = 20)。最終,只有 U U U V V V 之間的相互最近鄰居被保留為細胞之間的邊(注意是推斷的邊)。推斷不同批次細胞之間的邊的過程在 SIMBA 包中的函數“si.tl.infer_edges()”中實現。

對于多個批次,SIMBA 可以靈活地推斷任意一對batch-pair之間的邊。然而,在實踐中,邊是在最大的數據集或包含最完整預期細胞類型集的數據集與其他數據集之間推斷的。

多模態整合

scRNA-seq 和 scATAC-seq 圖分別按照“scRNA-seq 分析”和“scATAC-seq 分析”中的步驟構建。為了推斷 scRNA-seq 和 scATAC-seq 細胞之間的邊,首先計算 scATAC-seq 數據的基因活性分數(gene activity score)。更具體地說,對于每個基因,考慮 TSS (轉錄起始位點)上游和下游 100 kb 內的peak。與基因體區域重疊或在基因體上游 5 kb 內的peak的權重為 1.0。否則,使用指數衰減函數根據peak value與 TSS 的距離對其進行加權: e x p ( ? d i s t a n c e 5000 ) exp(\frac{-distance}{5000}) exp(5000?distance?)。隨后,將每個基因的gene score計算為所考慮峰值的加權和。然后將這些基因得分縮放到相應的基因大小。這些步驟由 SIMBA 中的函數“si.tl.gene_scores()”實現。為了方便用戶,SIMBA 包整理了幾個常用參考基因??組的基因注釋,包括 hg19、hg38、mm9 和 mm10。一旦獲得基因得分,就執行“批次整合”中描述的相同程序,使用 SIMBA 中的函數“si.tl.infer_edges()”推斷 scRNA-seq 和 scATAC-seq 分析的細胞之間的邊。

生成圖的過程在 SIMBA 包中的函數“si.tl.gen_graph()”中實現。

圖學習

在構建生物實體之間的多關系圖之后,作者采用了知識圖譜和推薦系統中的圖嵌入技術來為這些實體構建無監督表示。

提供一個input無向圖 G = ( V , E ) G=(V,E) G=(V,E),其中 V V V是一組實體(節點) E E E是一組邊,在源實體 u u u 和目標實體 v v v 之間存在通用邊 e = ( u , v ) e = (u, v) e=(u,v)。進一步假設每個實體都有不同的已知類型(例如,細胞或peak)。

圖嵌入方法通過隨機梯度下降優化edge預測目標,為每個 v ∈ V v ∈ V vV 學習一個 D D D 維嵌入向量,其中實驗中使用 D = 50 D = 50 D=50。實體 v v v的embedding記為 θ v \theta_{v} θv?

對于edge e = ( u , v ) e=(u,v) e=(u,v),記 s e = θ u ? θ v s_{e}=\theta_{u}\cdot\theta_{v} se?=θu??θv? e e e的得分,損失為: L e = ? l o g e x p ( s e ) ∑ e ′ ∈ N e x p ( s e ′ ) w e L_{e}=-log\frac{exp(s_{e})}{\sum_{e'\in N}exp(s_{e'})}w_{e} Le?=?logeN?exp(se?)exp(se?)?we?其中, N N N是通過破壞 e e e 生成的一組“負樣本”候選邊, w e w_e we? 是邊權重,默認情況下是關系權重,但在每種關系類型中可能因邊而異。例如,細胞和基因之間的邊可以編碼為具有不同邊權重的單一關系,這些邊權重編碼標準化的基因表達水平(見“scRNA-seq分析”)。

通過將目標邊 e = ( u , v ) e = (u, v) e=(u,v) 中的源實體或目標實體替換為隨機采樣的實體來構建負樣本。因此,例如,對于cell-peak的邊,僅對cell和peak實體之間的負候選樣本進行采樣。這種設置至關重要,因為大多數隨機選擇的邊是無效的(例如,峰-峰)。

使用了 PyTorch-BigGraph 框架,該框架可以高效計算多種實體類型的多關系圖嵌入,并且可以擴展到包含數百萬或數十億個實體的圖。對于 130 萬個細胞,PyTorch-BigGraph 訓練本身僅需大約 1.5 小時,使用 12 個 CPU 核心,無需 GPU。

SIMBA空間中查詢實體

信息豐富的 SIMBA 嵌入空間可用作實體(包括細胞和特征)的數據庫。為了在“SIMBA 數據庫”中查詢給定細胞或特征的鄰近實體,我們首先根據其 SIMBA 嵌入構建所有實體的 k-d 樹。然后,使用歐幾里得距離在樹中搜索最近的鄰居。為此,SIMBA 查詢可以在指定半徑內執行 k 最近鄰居 (KNN) 或最近鄰居搜索。SIMBA 還提供了將搜索限制為某些類型實體的選項,當某種類型的實體數量遠遠超過其他實體時,這很有用。例如,給定細胞的 k 個最近特征可能都是峰值,而基因是感興趣的特征。在這種情況下,SIMBA 允許用戶添加“過濾器”以確保在指定類型的實體內執行最近鄰居搜索。此過程在函數“st.tl.query()”中實現,其可視化在 SIMBA 包中的函數“st.pl.query()”中實現。

識別TF-target genes

為了推斷給定主調節因子的靶基因,我們假定,在共享的 SIMBA 嵌入空間中,(1)靶基因靠近 TF 基序和 TF 基因,表明靶基因的表達與 TF 的表達和 TF 基序的可及性高度相關,并且以細胞類型特異性的方式呈現;(2)靶基因位點附近的可及區域(峰)必須靠近 TF 基序和靶 TF 基因,表明靶基因位點附近的順式調控元件的可及性與 TF 的表達和 TF 基序的可及性高度相關,并且以細胞類型特異性的方式呈現。

給定一個主調節因子,通過比較 SIMBA 共嵌入空間中 TF 基因、TF 基序和候選靶基因基因組位點附近的峰的位置來識別其靶基因。

更具體地說,我們首先分別搜索該主調節因子的基序(TF 基序)和基因(TF 基因)周圍的 k 個最近鄰基因(默認 k = 200)。這些鄰居基因的并集就是初始的候選靶基因集。然后根據以下標準對這些基因進行篩選:假定靶基因 TSS 上游和下游 100 kb 內的開放區域(峰)必須包含 TF 基序。

接下來,對于每個候選靶基因,我們計算了 SIMBA 嵌入空間中的四種距離:(1) 候選靶基因與 TF 基因的嵌入之間的距離;(2) 候選靶基因與 TF 基序的嵌入之間的距離;(3) 候選靶基因與 TF 基序的基因組位點附近的峰之間的距離;以及 (4) 候選靶基因與其基因組位點附近的峰之間的距離。所有距離(默認為歐幾里得距離)都轉換為所有基因或所有峰之間的等級,以使距離在不同的主調節器之間具有可比性。

最終的靶基因列表由計算出的排名決定,使用兩個標準:(1)TF 基因或 TF 基序最近的峰值中至少有一個在預定范圍內;(2)候選靶基因的平均排名在預定范圍內。此過程在 SIMBA 中的函數“st.tl. find_target_genes ()”中實現。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/23523.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/23523.shtml
英文地址,請注明出處:http://en.pswp.cn/web/23523.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DDS自動化測試落地方案 | 懌星科技攜最新技術亮相是德科技年度盛會

5月28日,懌星科技作為是德科技的重要合作伙伴亮相Keysight World Tech Day 2024。在此次科技盛會上,懌星科技不僅展示了領先的DDS自動化測試解決方案等前沿技術,還分享了在“周期短、任務重”的情況下,如何做好軟件開發和測試驗證…

前端開發之性能優化

本文章 對各大學習技術論壇知識點,進行總結、歸納自用學習,共勉🙏 文章目錄 1. [CDN](https://www.bootcdn.cn/)2.懶加載3.緩存4.圖片壓縮5.圖片分割6.sprite7.Code Splitting8.gzip9.GPU加速10.Ajax11.Tree Shaking12.Resource Hints 1. CD…

YOLO系列模型 pt文件轉化為ONNX導出

文章目錄 啥是onnx怎么導出導出之后 啥是onnx Microsoft 和合作伙伴社區創建了 ONNX 作為表示機器學習模型的開放標準。許多框架(包括 TensorFlow、PyTorch、scikit-learn、Keras、Chainer、MXNet 和 MATLAB)的模型都可以導出或轉換為標準 ONNX 格式。 在…

C++筆試強訓day40

目錄 1.游游的字母串 2.體育課測驗(二) 3.合唱隊形 1.游游的字母串 鏈接https://ac.nowcoder.com/acm/problem/255195 英文字母一共就26個&#xff0c;因此可以直接暴力枚舉以每個字母作為最后的轉變字母。最后去最小值即可 #include <iostream> #include <cmath&…

趕緊收藏!2024 年最常見 20道 Kafka面試題(十)

上一篇地址&#xff1a;趕緊收藏&#xff01;2024 年最常見 20道 Kafka面試題&#xff08;九&#xff09;-CSDN博客 十九、在分布式情況下&#xff0c;Kafka 如何保證消息的順序消費&#xff1f; 在分布式系統中&#xff0c;Kafka保證消息順序消費主要依賴于其分區機制和消費…

項目實戰系列——WebSocket——websock簡介

最近項目中需要用到mes和本地客戶端進行實時通訊&#xff0c;本來想用webapi進行交互的&#xff0c;但是考慮到高效和實時性&#xff0c;就采用這一項技術。 以往采用的方式——長輪詢 客戶端主動向服務器發送一個請求&#xff0c;如果服務器沒有更新的數據&#xff0c;客戶端…

Jtti:docker部署數據庫有哪些優缺點?

在Docker中部署數據庫有其獨特的優缺點。以下是一些主要的優點和缺點&#xff1a; 優點 環境一致性&#xff1a;Docker容器提供了一致的運行環境&#xff0c;從開發到生產環境&#xff0c;確保數據庫運行環境的一致性&#xff0c;減少因環境差異導致的問題。 快速部署和遷移&am…

內置類型知多少?

內置類型&#xff08;也稱為基本類型或原生類型&#xff09;是C/C本身定義的數據類型&#xff0c;它們直接由編譯器支持&#xff0c;不需要用戶自定義。 內置類型主要包括以下幾類&#xff1a; 1&#xff0e;算術類型&#xff1a; (1)整型&#xff1a;int、short、long、lon…

【ARM Cache 系列文章 1.1 -- Cache size 讀取詳細介紹及代碼實現】

請閱讀【ARM Cache 及 MMU/MPU 系列文章專欄導讀】 及【嵌入式開發學習必備專欄】 文章目錄 ARMv8/v9 CPU Cache SizeCache Size 的計算方法Cache Size 讀取代碼實現ARMv8/v9 CPU Cache Size ARM架構通過一系列的系統寄存器來提供CPU和系統的詳細信息,包括緩存的大小和配置。…

五.應用層協議——HTTP協議

HTTP協議 在上一節中&#xff0c;我們提到了協議的本質&#xff0c;其實是雙方約定好的某種格式的數據&#xff0c;常見的就是用結構體或者類來進行表達 而上層的業務邏輯決定了我們協議的定制&#xff0c;有了協議&#xff0c;雙方就可以按照同樣的角度&#xff0c;去解讀數據…

【硬件工程師面試寶典】常見面試題其二

17. 單片機上電后沒有運轉&#xff0c;首先要檢查什么 當單片機上電后沒有運轉時&#xff0c;首先要檢查以下幾方面&#xff1a; 電源電壓&#xff1a;確保電源電壓穩定且符合單片機要求。時鐘信號&#xff1a;檢查時鐘電路是否正常工作&#xff0c;晶振是否振蕩。復位電路&a…

集合體學習01

集合體系結構 Collection 單列集合 Map 雙列集合 Collection 1.List 1.ArrayList 2.LinkedList 3.Vector 2.Set 1.HashSet 1.LinkedHashSet 2.TreeSet 其中Collection&#xff0c;List&#xff0c;Set 為接口&#xff0c;其余為實現類。 List系列集合&#xff1a;添加的元素…

一篇文章帶你入門XXE

1.什么是XXE&#xff1f; XML External Entity&#xff08;XXE&#xff09;攻擊是一種利用 XML 處理器的漏洞&#xff0c;通過引入惡意的外部實體來攻擊應用程序的安全性。這種攻擊通常發生在對用戶提供的 XML 數據進行解析時&#xff0c;攻擊者利用了 XML 規范允許引用外部實體…

kafka-集群搭建(在docker中搭建)

文章目錄 1、kafka集群搭建1.1、下載鏡像文件1.2、創建zookeeper容器并運行1.3、創建3個kafka容器并運行1.3.1、9095端口1.3.2、9096端口1.3.3、9097端口 1.4、重啟kafka-eagle1.5、查看 efak1.5.1、查看 brokers1.5.2、查看 zookeeper 1、kafka集群搭建 1.1、下載鏡像文件 d…

實時監控電腦屏幕軟件有哪些?(珍藏篇)

在當今的數字化工作環境中&#xff0c;實時監控電腦屏幕軟件是企業管理、遠程協助、教育監控等領域不可或缺的工具。 這些軟件能夠幫助管理者了解員工的工作狀態、提升團隊協作效率、確保數據安全&#xff0c;同時在家庭教育和遠程技術支持中也有廣泛應用。 以下是精選的幾款實…

Python數據框操作 -- 刪除數據(去除空值或者特定值)

先創建一個數據框&#xff1a; import pandas as pd df pd.DataFrame({a:[1,1,np.nan,np.nan,4], b:[5,6,np.nan,8,np.nan]}) 刪除特定值存在的行 數據框刪去特定值所在行&#xff1a; df1 df.drop(df[df[a]4].index, inplace True) 刪除存在空值的行 刪除有空值的所…

創意SQL,高考祝福!一起為學子們加油助威!

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 作者&#xff1a;IT邦德 中國DBA聯盟(ACDU)成員&#xff0c;10余年DBA工作經驗&#xff0c; Oracle、PostgreSQL ACE CSDN博客專家及B站知名UP主&#xff0c;全網粉絲10萬 擅長主流Oracle、My…

【java11】java11新特性之嵌套類

Java 11在嵌套類方面主要關注的是通過JEP 181來改進訪問控制&#xff0c;解決之前版本中存在的權限不一致問題。 下面先來看下嵌套類的使用&#xff1a; 靜態嵌套類&#xff08;Static Nested Class&#xff09; 定義&#xff1a;靜態嵌套類&#xff08;也稱為靜態內部類&am…

X-Caps

用于對視覺屬性進行編碼的膠囊 補充信息 數據集太大&#xff0c;不建議復現

【西瓜書】4.決策樹

1 遞歸返回情況 &#xff08;1&#xff09;結點包含樣本全為同一類別 &#xff08;2&#xff09;屬性集為空&#xff0c;沒有屬性可供劃分了 或 有屬性&#xff0c;但是在屬性上劃分的結果都一樣 &#xff08;3&#xff09;結點為空結點 **結束時判定該結點的類別遵循如下規則&…