Scanpy(4)用與數據整合和批次處理

Scanpy包,用與數據整合和批次處理,包含批次效應的BBKNN算法和用于對比的ingest基礎算法比較,及其原理簡介。

1. 依賴:

(1)數據集(全部需要掛VPN):

  1. PBMC:pbmc3k_processed()(需要下載);pbmc68k_reduced()(scanpy自帶)
  2. Pancreas(需要下載)

(2)Python包:Scanpy、BBKNN

2. PBMC數據集

導入所需的包

import scanpy as sc
import pandas as pd
import seaborn as sns
# 參考數據集(已預處理、降維、聚類、注釋)
adata_ref = sc.datasets.pbmc3k_processed()  # this is an earlier version of the dataset from t
# 參考數據集(已預處理、降維、聚類、注釋)
adata = sc.datasets.pbmc68k_reduced()
print(adata_ref)

生成:

上面下載數據自動放入這里

data

? pancreas.h5ad

? pbmc3k_processed.h5ad

2.1 重點數據結構分析

# 1. adata_ref
AnnData object with n_obs × n_vars = 2638 × 1838obs: 'n_genes', 'percent_mito', 'n_counts', 'louvain'var: 'n_cells'uns: 'draw_graph', 'louvain', 'louvain_colors', 'neighbors', 'pca', 'rank_genes_groups'obsm: 'X_pca', 'X_tsne', 'X_umap', 'X_draw_graph_fr'varm: 'PCs'obsp: 'distances', 'connectivities'
在 `scanpy` 中,`AnnData`(Annotated Data)是一個用于存儲和操作單細胞RNA-seq等生物學數據的數據結構。以下是對`adata_ref`對象中各個字段的解釋:- `obs`:觀測(observations)信息,即每個細胞或樣本的元信息。在這個例子中包括:- `'n_genes'`:每個細胞中表達的基因數量。- `'percent_mito'`:每個細胞中線粒體基因的百分比。- `'n_counts'`:每個細胞的總計數。- `'louvain'`:【聚類結果,表示每個細胞屬于哪個聚類。】- `var`:變量信息,即基因的元信息。在這個例子中包括:- `'n_cells'`:每個基因在多少個細胞中被檢測到。- `uns`:未結構化的數據,可以存儲各種附加信息。在這個例子中包括:- `'draw_graph'`:用于存儲繪圖圖形的信息。- `'louvain'`:用于存儲Louvain聚類的信息。- `'louvain_colors'`:Louvain聚類結果的顏色映射。- `'neighbors'`:用于存儲鄰域信息的數據。- `'pca'`:用于存儲主成分分析(PCA)的信息。- `'rank_genes_groups'`:用于存儲基因組中基因排序的信息。- `obsm`:觀測矩陣,包含與觀測相關的矩陣數據。在這個例子中包括:- `'X_pca'`:PCA降維后的坐標。- `'X_tsne'`:t-SNE降維后的坐標。- `'X_umap'`:UMAP降維后的坐標。- `'X_draw_graph_fr'`:繪圖圖形的坐標。- `varm`:變量矩陣,包含與變量相關的矩陣數據。在這個例子中包括:- `'PCs'`:主成分分析的主成分。- `obsp`:觀測矩陣中的矩陣,包含與觀測相關的矩陣數據。在這個例子中包括:- `'distances'`:細胞之間的距離矩陣。- `'connectivities'`:細胞之間的連接性矩陣。這些字段提供了關于單細胞RNA-seq數據集的豐富信息,包括細胞的特征、基因的特征、降維后的坐標、聚類結果等。# 2. adata
AnnData object with n_obs × n_vars = 700 × 765obs: 'bulk_labels', 'n_genes', 'percent_mito', 'n_counts', 'S_score', 'G2M_score', 'phase', 'louvain'var: 'n_counts', 'means', 'dispersions', 'dispersions_norm', 'highly_variable'uns: 'bulk_labels_colors', 'louvain', 'louvain_colors', 'neighbors', 'pca', 'rank_genes_groups'obsm: 'X_pca', 'X_umap'varm: 'PCs'obsp: 'distances', 'connectivities'

2.2 原始數據可視化

sc.pl.umap(adata_ref, color='louvain')
sc.pl.umap(adata, color='bulk_labels') # obs: 'bulk_labels',

adata_ref 數據可視化

adata_ref

adata 數據可視化

image-20231113165058028

adata_ref.obs和adata.obs

# adata_ref.obsn_genes  percent_mito  n_counts          louvain
index                                                             
AAACATACAACCAC-1      781      0.030178    2419.0      CD4 T cells
AAACATTGAGCTAC-1     1352      0.037936    4903.0          B cells
AAACATTGATCAGC-1     1131      0.008897    3147.0      CD4 T cells
AAACCGTGCTTCCG-1      960      0.017431    2639.0  CD14+ Monocytes
AAACCGTGTATGCG-1      522      0.012245     980.0         NK cells
...                   ...           ...       ...              ...
TTTCGAACTCTCAT-1     1155      0.021104    3459.0  CD14+ Monocytes
TTTCTACTGAGGCA-1     1227      0.009294    3443.0          B cells
TTTCTACTTCCTCG-1      622      0.021971    1684.0          B cells
TTTGCATGAGAGGC-1      454      0.020548    1022.0          B cells
TTTGCATGCCTCAC-1      724      0.008065    1984.0      CD4 T cells# adata.obsbulk_labels  n_genes  percent_mito  n_counts   S_score  G2M_score phase louvain
index                                                                                                
AAAGCCTGGCTAAC-1   CD14+ Monocyte     1003      0.023856    2557.0 -0.119160  -0.816889    G1       1
AAATTCGATGCACA-1        Dendritic     1080      0.027458    2695.0  0.067026  -0.889498     S       1
AACACGTGGTCTTT-1         CD56+ NK     1228      0.016819    3389.0 -0.147977  -0.941749    G1       3
AAGTGCACGTGCTA-1  CD4+/CD25 T Reg     1007      0.011797    2204.0  0.065216   1.469291   G2M       9
ACACGAACGGAGTG-1        Dendritic     1178      0.017277    3878.0 -0.122974  -0.868185    G1       2
...                           ...      ...           ...       ...       ...        ...   ...     ...
TGGCACCTCCAACA-8        Dendritic     1166      0.008840    3733.0 -0.124456  -0.867484    G1       2
TGTGAGTGCTTTAC-8        Dendritic     1014      0.022068    2311.0 -0.298056  -0.649070    G1       1
TGTTACTGGCGATT-8  CD4+/CD25 T Reg     1079      0.012821    3354.0  0.216895  -0.527338     S       0
TTCAGTACCGGGAA-8          CD19+ B     1030      0.014169    2823.0  0.139054  -0.981590     S       4
TTGAGGTGGAGAGC-8        Dendritic     1552      0.010886    4685.0 -0.148449  -0.674752    G1       2
# adata_ref.obs_names
Index(['AAACATACAACCAC-1', 'AAACATTGAGCTAC-1', 'AAACATTGATCAGC-1','AAACCGTGCTTCCG-1', 'AAACCGTGTATGCG-1', 'AAACGCACTGGTAC-1','AAACGCTGACCAGT-1', 'AAACGCTGGTTCTT-1', 'AAACGCTGTAGCCA-1','AAACGCTGTTTCTG-1',...'TTTCAGTGTCACGA-1', 'TTTCAGTGTCTATC-1', 'TTTCAGTGTGCAGT-1','TTTCCAGAGGTGAG-1', 'TTTCGAACACCTGA-1', 'TTTCGAACTCTCAT-1','TTTCTACTGAGGCA-1', 'TTTCTACTTCCTCG-1', 'TTTGCATGAGAGGC-1','TTTGCATGCCTCAC-1'],dtype='object', name='index', length=2638)# var_names
Index(['TNFRSF4', 'SRM', 'TNFRSF1B', 'EFHD2', 'C1QA', 'C1QB', 'STMN1','MARCKSL1', 'SMAP2', 'PRDX1',...'EIF3D', 'LGALS2', 'ADSL', 'TTC38', 'TYMP', 'ATP5O', 'TTC3', 'SUMO3','S100B', 'PRMT2'],dtype='object', name='index', length=208)

也可以看到數據本身還有其他的:

image-20231113154626731

以下信息放置到文章上方,本實例并沒有采用。

sc.settings.verbosity = 1             # verbosity: errors (0), warnings (1), info (2), hints (3)
sc.logging.print_versions()
sc.settings.set_figure_params(dpi=80, frameon=False, figsize=(8</

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/23316.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/23316.shtml
英文地址,請注明出處:http://en.pswp.cn/web/23316.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Python】把xmind轉換為指定格式txt文本

人工智能訓練通常需要使用文本格式&#xff0c;xmind作為一種常規格式不好進行解析&#xff0c;那如何把xmind轉換為txt格式呢&#xff1f; 軟件信息 python python -v Python 3.9.13 (tags/v3.9.13:6de2ca5, May 17 2022, 16:36:42) [MSC v.1929 64 bit (AMD64)] on win32…

Python 包安裝及常用命令【python 入門】

背景&#xff1a; 近期看到一個項目&#xff0c;做微信只能機器人&#xff0c;服務是使用python搭建的&#xff0c;于是拷貝下來自己打算跑一跑&#xff0c;部署一下&#xff0c;可是自己又沒有python的經驗&#xff0c;于是各種查資料學習&#xff0c;跟著敲一敲&#xff0c;順…

Go 1.19.4 切片與子切片-Day 05

1. 切片 1.1 介紹 切片在Go中是一個引用類型&#xff0c;它包含三個組成部分&#xff1a;指向底層數組的指針&#xff08;pointer&#xff09;、切片的長度&#xff08;length&#xff09;以及切片的容量&#xff08;capacity&#xff09;&#xff0c;這些信息共同構成了切片的…

單片機排水泵高壓方案

靈動微多顆算力高、高可靠性的通用系列和電機專用系列MCU&#xff0c;配合成熟的控制算法&#xff0c;覆蓋了包括洗衣機在內的各種大小家電市場。 RAMSUN提供的MM32 MCU種類較多&#xff0c;例如洗衣機內部的排水泵系統&#xff0c;排水泵控制首選電控高性價比產品MM32SPIN023…

JavaWeb_SpringBootWeb案例

環境搭建&#xff1a; 開發規范 接口風格-Restful&#xff1a; 統一響應結果-Result&#xff1a; 開發流程&#xff1a; 第一步應該根據需求定義表結構和定義接口文檔 注意&#xff1a; 本文代碼從上往下一直添加功能&#xff0c;后面的模塊下的代碼包括前面的模塊&#xff0c…

Xmind Pro 2024 專業版激活碼(附下載鏈接)

說到思維導圖&#xff0c;就不能不提 Xmind。這是一款優秀的思維導圖工具&#xff0c;擁有著豐富的導圖模板&#xff0c;漂亮的界面和配色&#xff0c;以及各種各樣的創意工具。 新架構速度更快 采用全新 Snowdancer 引擎&#xff0c;一種堪稱「黑科技」的先進圖形渲染技術。…

翹首以盼的抗鋸齒

Antialiasing 實際的圖形學中是怎么實現反走樣的呢&#xff1f; 我們不希望實際產出的圖形有鋸齒效果&#xff0c;那怎么辦呢&#xff1f; 從采樣的理論開始談起吧 Simpling theory 照片也是一種采樣&#xff0c;把景象打散成像素放到屏幕上的過程&#xff1a; 還可以在不…

14、企業數據資源相關會計處理暫行規定

為規范企業數據資源相關會計處理, 強化相關會計信息披露, 根據《中華人民共和國會計法》 和企業會計準則等相關規定, 現對企業數據資源的相關會計處理規定如下: 一、 關于適用范圍 本規定適用于企業按照企業會計準則相關規定確認為無形資產或存貨等資產類別的數據資源,以…

21 - 即時食物配送 II(高頻 SQL 50 題基礎版)

21 - 即時食物配送 II -- sum(if(order_datecustomer_pref_delivery_date,1,0))/count(*)sum(order_datecustomer_pref_delivery_date)/count(*) -- count(*),表示數據的行數&#xff0c;如果有分組&#xff0c;為分組后數據的行數select round(100*sum(if(order_datecustomer_…

【名詞解釋】Unity的Button組件及其使用示例

Unity的Button組件是Unity引擎中UI系統的一部分&#xff0c;它允許用戶創建可交互的按鈕&#xff0c;用戶可以點擊這些按鈕來觸發事件。Button組件通常用于游戲界面中&#xff0c;比如開始游戲、暫停游戲、選擇選項等。 Button組件的主要屬性包括&#xff1a; interactable: …

原來Stable Diffusion是這樣工作的

stable diffusion是一種潛在擴散模型&#xff0c;可以從文本生成人工智能圖像。為什么叫做潛在擴散模型呢&#xff1f;這是因為與在高維圖像空間中操作不同&#xff0c;它首先將圖像壓縮到潛在空間中&#xff0c;然后再進行操作。 在這篇文章中&#xff0c;我們將深入了解它到…

達摩院重大“遺產”!fluxonium量子比特初始化300納秒且保真度超過99%

通用量子計算機開發的主要挑戰之一是制備量子比特。十多年來&#xff0c;研究人員在構建量子計算機的過程中主要使用了transmon量子比特&#xff0c;這也是迄今為止商業上最成功的超導量子比特。 但與業界多數選擇transmon量子比特不同&#xff0c;&#xff08;前&#xff09;…

npm運行報錯:無法加載文件 C:\Program Files\nodejs\npm.ps1,因為在此系統上禁止運行腳本問題解決

問題其實已經顯而易見了 系統禁止運行腳本 以管理員身份運行 PowerShell&#xff1a; 右鍵點擊“開始”按鈕或按 Win X&#xff0c;然后選擇“Windows PowerShell(管理員)”。 查看當前執行策略&#xff1a; 在 PowerShell 中輸入以下命令來查看當前的執行策略&#xff1a; G…

Python文本處理利器:jieba庫全解析

文章目錄 Python文本處理利器&#xff1a;jieba庫全解析第一部分&#xff1a;背景和功能介紹第二部分&#xff1a;庫的概述第三部分&#xff1a;安裝方法第四部分&#xff1a;常用庫函數介紹1. 精確模式分詞2. 全模式分詞3. 搜索引擎模式分詞4. 添加自定義詞典5. 關鍵詞提取 第…

服務器遭遇UDP攻擊時的應對與解決方案

UDP攻擊作為分布式拒絕服務(DDoS)攻擊的一種常見形式&#xff0c;通過發送大量的UDP數據包淹沒目標服務器&#xff0c;導致網絡擁塞、服務中斷。本文旨在提供一套實用的策略與技術手段&#xff0c;幫助您識別、緩解乃至防御UDP攻擊&#xff0c;確保服務器穩定運行。我們將探討監…

最新PHP眾籌網站源碼 支持報名眾籌+商品眾籌+公益眾籌等多種眾籌模式 含完整代碼包和部署教程

在當今互聯網飛速發展的時代&#xff0c;眾籌模式逐漸成為了創新項目、商品銷售和公益活動融資的重要渠道。分享一款最新版的PHP眾籌網站源碼&#xff0c;支持報名眾籌、商品眾籌和公益眾籌等多種眾籌模式。該源碼包含了完整的代碼包和詳細的部署教程&#xff0c;讓新手也可以輕…

利用醫學Twitter進行病理圖像分析的視覺-語言基礎模型| 文獻速遞-視覺通用模型與疾病診斷

Title 題目 A visual–language foundation model for pathology image analysis using medical Twitter 利用醫學Twitter進行病理圖像分析的視覺-語言基礎模型 01 文獻速遞介紹 缺乏公開可用的醫學圖像標注是計算研究和教育創新的一個重要障礙。同時&#xff0c;許多醫生…

自動化測試-Selenium(一),簡介

自動化測試-Selenium 1. 什么是自動化測試 1.1 自動化測試介紹 自動化測試是一種通過自動化工具執行測試用例來驗證軟件功能和性能的過程。與手動測試不同&#xff0c;自動化測試使用腳本和軟件來自動執行測試步驟&#xff0c;記錄結果&#xff0c;并比較預期輸出和實際輸出…

【Python報錯】已解決ModuleNotFoundError: No module named ‘timm’

成功解決“ModuleNotFoundError: No module named ‘timm’”錯誤的全面指南 一、引言 在Python編程中&#xff0c;經常會遇到各種導入模塊的錯誤&#xff0c;其中“ModuleNotFoundError: No module named ‘timm’”就是一個典型的例子。這個錯誤意味著你的Python環境中沒有安…

Navicate 導入導出數據庫

導出數據庫 找地方存在來&#xff0c;別忘了放在那里。 新建一個數據庫&#xff0c;記得要和導出數據庫的 字符集與排序規則 相同 打開數據庫后&#xff0c;我們選擇它&#xff08;就是單擊它&#xff09;然后右鍵打開菜單-運行sql文件 找到剛才存儲的位置&#xff0c;開始 &a…