一、單細胞轉錄組測序流程介紹
單細胞測序能夠探索復雜組織中單個細胞的不同生物學特性,幫助我們認識細胞與細胞之間的差異。這些檢測方法有助于研究細胞譜系、細胞功能、細胞分化、細胞增殖和細胞應答,提升我們對復雜生物系統的理解,包括腫瘤、中樞神經系統(CNS)、免疫系統和生殖發育等。
1.一般基礎分析流程
01 測序原始數據的處理
測序原始數據通常指測序下機得到的fastq文件,需要經過一定的處理,將其中我們需要的信息,如barcode,UMI以及基因的序列等,給提取出來,方便下一步分析。通過這步分析,我們可以得到關注的barcode、UMI以及基因的序列。
工具:fastp、 cutadapt、 trimmomatic等分析工具
目的:去除測序時引入的連續的N、低質量reads、以及建庫時引入的接頭序列等。
02 獲得表達矩陣
處理完fastq之后,我們需要從中分析出每個細胞中基因表達的信息,即獲得表達矩陣。表達矩陣中包含了每個細胞轉錄組中各個基因表達水平的信息,是我們后續各類分析的基礎。我們可以統計得到細胞的個數,各個細胞表達的基因數等信息。同時,通過對這些信息的統計分析,我們還可以判斷單細胞測序數據整體的質量,為后面的分析步驟提供依據和參考。
工具:STAR或者salmon,kallisto等比對工具
目的:將測得的序列片段比對到參考基因組或者轉錄組,同時根據建庫時的barcode白名單對每個真實捕獲到的細胞barcode進行比對,分出每個細胞的基因表達矩陣。
單細胞測序數據質控的指標有很多,比如:
①細胞數 Number of Cells:即捕獲到的細胞數,是通過分析與細胞關聯的條形碼的數目計算出來的。根據這個值,我們可以知道這次單細胞測序捕獲了多少細胞。
②中值UMI數 Median UMI Counts per Cell:這個指標代表的是每個細胞中被檢測到UMI數據的中位數。UMI是目前許多高通量單細胞測序平臺用到的一種分子標簽,會給細胞中每個被捕獲的mRNA分子打上一個獨特的標簽,用來在分析中校準基因的表達量。通過這個指標,我們可以了解到每個高質量細胞中大概有多少個mRNA分子被捕獲到。
③中值基因數 Median Genes per Cell:這個指標代表的是每個細胞中被檢測到基因數目的中位數。雖然人體一共有約2萬個基因,但由于轉錄水平的不同和測序量的限制,每個細胞中能測到的基因只是這2萬個中的一部分——當然,我們希望能測到的基因越多越好。這個指標可以讓我們了解到,在這次單細胞測序實驗中,每個細胞中大概有多少個基因被測到。
03細胞過濾
上一步中我們得到了所有細胞中基因表達的信息,但并不是每個細胞中信息的質量都符合我們后續分析的標準,因此,我們需要對細胞進行過濾,以便獲得相對完好的細胞。
在單細胞測序分析中,過濾的標準往往是某些特定基因的表達量,用來鑒別出質量欠佳的細胞,將其過濾掉。其中最重要的參考標準是基因數以及線粒體基因表達情況。
以下3幅小提琴圖,分別展示了基因數,mRNA分子總數、線粒體基因占比這三個常用的過濾指標。
①首先可以通過基因數、mRNA分子數、線粒體基因占比三個參數進行質控去除質量差的細胞。
②如果nFeature_RNA 過低,表示該細胞可能已經死亡或將要死亡或者可能是空液滴。
③如果nFeature_RNA 與 nCount_RNA 數值過高,表示細胞在形成油包水的結構制備過程中,兩個或者多個細胞被包裹在一個液滴中。
④如果線粒體基因占比較高,則說明細胞的質量較差。這是因為線粒體基因會在受損或凋亡細胞表達升高,因而線粒體基因占比較高,表明細胞可能已經受損或者正處于凋亡過程中。
每種細胞或組織類型如何設定線粒體閾值,要依實際情況而定。比如某些細胞的呼吸作用很旺盛,其線粒體基因的比例就會可能很高,而不是因為細胞破裂或者細胞狀態不好引起的。而有些細胞本來基因的表達數就很少,比如中性粒細胞。所以這三個參數的設置要根據細胞類型而設置。
04降維和聚類
拿到過濾后的細胞后,我們就可以進行進一步的分析,了解樣本中有哪些類型的細胞,每個細胞分別屬于哪種細胞類型,甚至細胞亞型。要做到這一點,我們首先要知道哪些細胞是屬于同一類的,這就需要進行降維和聚類。
降維——就是把多維度的復雜數據用更少的維度展示出來,同時盡量保留原始數據中的主要信息。比如照片和地圖,從三維的地球到二維的世界地圖,就是對三維物體和真實世界的一種降維展示
聚類——就是把相似的類別聚在一起。單細胞測序分析的降維聚類圖,就是將各個細胞的基因表達情況在二維平面上展示出來,并且將基因表達特征近似的細胞聚在一起。在降維聚類圖中,細胞間的距離是由它們表達譜的相似程度決定的。表達譜相似的細胞會聚在一起,被標記為同一種顏色,提示它們可能屬于同一種細胞類型,為后續判斷細胞類型提供分析基礎。比如,
05 找到細胞簇的Maker基因
對于上一步中發現的每一個細胞簇(cluster,即降維聚類圖中聚在一起的一群細胞),我們可以通過分析找到在其中特異表達的cluster marker基因,用于后續的細胞類型注釋分析。
在通常情況下,我們會將某一個cluster與其他所有cluster相比的差異基因作為這個cluster的marker基因。當然,如果需要的話,也可以計算兩實驗組間或者兩cluster間的差異基因來作為marker。
工具:Seurat軟件包內的FindMarkers函數。
06細胞類型注釋
在得到細胞簇以及它們的marker基因后,我們就要對這些細胞簇的細胞類型進行判定,這一步就是細胞類型注釋。細胞類型注釋是基于不同細胞類型中特異表達的marker基因來進行的。在第五步中,我們找到了每個細胞簇的marker基因,如果某個細胞簇的marker和某個細胞類型的marker基因相符,就可以被判定為對應的細胞類型。
這一步是單細胞分析中非常重要的環節,有一些細胞自動注釋軟件可以幫助我們定義細胞類型,
工具:singleR或者scCATCH。?受限于前期實驗設計或數據分析的差異,自動注釋的結果有時并不能與預期相符,可以通過單細胞公共數據庫(比如CellMarker、PangLaoDB、CancerSCEM、SingleCellPortal等)或者已發表文章提高注釋準確度(相關的網站放在下方)
進行了注釋后,我們在降維聚類圖上看到的,就不再是以數字編號的細胞簇,而是有名有姓的具體細胞類型。
當我們獲得了完整的細胞類型注釋后,就可以開始進行下游的深入分析,比如不同細胞類型的差異基因、通路富集,也可以進行擬時序分析、細胞通訊分析等等,對樣本中各類細胞的功能、狀態和相互作用進行更加深入詳細的分析。
二、相關的數據庫
細胞注釋參考數據集可以參考以下網站:
(1)CellMarker:CellMarker2.0,旨在為人類和小鼠組織中的各種細胞類型提供全面而準確的細胞標記資源。通過人工整理超過100000篇已發表論文,4124 個條目,包括細胞標記信息、組織類型、細胞類型、腫瘤信息和來源,收集了158個人體組織、亞組織中467個細胞類型的13,605個細胞標記物和81個小鼠組織、亞組織中389個細胞類型的9,148個細胞標記物,并存放在CellMarker中。主要用途包括:①瀏覽人和小鼠不同組織的不同細胞中的細胞標記;②在人和小鼠的任何感興趣的組織中檢索特定細胞類型的細胞標記;③通過生動的統計圖表獲取每種細胞類型中細胞標志物的流行情況;④下載人和小鼠不同組織不同細胞類型的細胞標志物。
(2)PanglaoDB:https://panglaodb.se/index.html,是一個面向對探索小鼠和人類單細胞RNA測序結果分析的單細胞轉錄組數據庫。其中包含超過1000個單細胞實驗的預處理和預分析結果,涵蓋大多數單細胞平臺數據的分析流程,基于來自各種組織和器官超過400萬個細胞。同時包含6000多個marker基因,是一個主要用于細胞分群注釋的marker數據庫。數據主要源于已經公開發表的單細胞轉錄組數據。
(3)Single Cell Portal - Broad Institute:https://singlecell.broadinstitute.org/single_cell,該網站最初是作為BRAIN(推進創新神經技術方面的腦研究)
計劃的一部分而開發的,可以從https://github.com/broadinstitute/single_cell_portal/wiki獲得網站布局概覽,該數據庫目前收錄99個study中的340萬種細胞,主要用于多個高度交互的可視化分析,了解細胞和細胞子集如何聚集。通過可視化細胞繪制并按元數據分組的基因表達,例如,通過不同測試或通過新細胞群來探索基因。發現基因在不同細胞簇上的表達,探索其在不同細胞群中的表達模式。此外,用戶還可以下載數據、表達矩陣或FASTQ文件進行個性化分析。
(4)Single Cell Expression Atlas - EMBL-EBI:Home < Single Cell Expression Atlas < EMBL-EBI,該數據庫由歐洲分子生物學實驗室(EMBL)進行統計分析,是世界上最大的基因組學科學和技術專業知識集合之一。如果要搜索mouse的xxx data,點擊Browse experiments,將Kingdom調成Animals,在Search all columns中輸入“xxx”,可以看到有關lung的experiments。
(5)Mouse Cell Atlas:MCA | Mouse Cell Atlas,浙江大學郭國驥團隊的小鼠單細胞數據庫,也可以從文章中(Mapping the Mouse Cell Atlas by Microwell-Seq)直接下載:MCA DGE Data
(6)CancerSEA:CancerSEA - Database Commons,以單細胞水平全面解碼腫瘤細胞不同功能狀態的數據庫,用途包括:①提供腫瘤單細胞功能狀態圖譜,涉及25種腫瘤類型的41900個腫瘤單細胞的14種功能狀態;②查詢基因(包括PCG 和 lncRNA)或感興趣的基因列表與不同腫瘤類型相關的功能狀態;③以單細胞分辨率提供與功能狀態高度相關的pCG/lncRNA庫。?
(7)Mouse Cell Atlas:MCA | Mouse Cell Atlas,SCPortalen
收錄的信息包括了單細胞的圖片、數據和序列,在這個數據庫中可以通過細胞和數據集(dataset)進行搜索下載,點擊Datasets→transcriptome data,數據下載。
(8)scRNASeqDB:scRNASeqDB,
是由休斯頓德克薩斯大學健康科學中心的研究人員設計,幾乎包括所有目前可用的人類單細胞轉錄組數據集(n = 38),涵蓋有人類細胞系或細胞類型共計200種和13,440個樣本。該?數據庫還提供了不同狀態細胞基因表達的詳細信息,以及一些特征,包括基因表達的熱圖和箱線圖、基因相關矩陣、GO分析和通路注釋。用戶還可以將scRNASeq數據集提交到數據庫進行分析。檢索時,可以通過基因或者細胞來進行分析。
(9)Human cell atlas, HCA:HCA Data Portal ,在單細胞水平研究人體,①人類細胞圖譜對人體中的所有細胞類型和亞型進行分類,②識別、比較細胞的不同狀態;③追蹤細胞發育軌跡,④揭示從發育至成年期間所涉及的細胞和過程。
(10)Jingle Bells: Jinglebells – Tal Shay,從單細胞水平可視化分析RNA-Seq數據的標準化單細胞數據集庫,根據文獻研究對象將單細胞數據劃分為免疫和非免疫類。
(11)DISCO: https://www.immunesinglecell.org/,DISCO整合了來自4593個樣本的超過1800萬個細胞,涵蓋107個組織、細胞系或類器官、158種疾病和20個平臺,數據以模塊化形式呈現。該數據庫提供了三種在線工具,即Online FastIntegration、Online CELLiD和CellMapper,用于單細胞RNA-seq數據的集成、注釋和投影到選定的圖集中。
(12)SC2disease:http://easybioai.com/sc2disease/,主要用來分析不同疾病中異常細胞和正常細胞的差異基因表達譜。疾病包括:乳腺癌、黑色素瘤、2型糖尿病、少突膠質細胞瘤、慢性粒細胞白血病、肝癌、肺癌、H3K27M膠質瘤、巴雷特食管、老年癡呆癥、類風濕關節炎、自閉癥譜系障礙、狼瘡性腎炎、胰腺導管腺癌、多發性硬化癥、髓母細胞瘤、星形細胞瘤、亨廷頓病、雷特綜合征、年齡相關性黃斑變性、動脈粥樣硬化和皰疹病毒感染。
(13)scQuery:https://scquery.cs.cmu.edu/,通過自動化管道來下載、處理和注釋公開可用scRNA-seq數據集的方法,以實現大規模的監督表征。該數據集代表來自500多個不同scRNA-seq 研究的表達實驗,代表 300種獨特的細胞類型,以及總計近150K的表達譜。數據來源是GEO和ArrayExpress數據庫中的scRNA-seq數據。可以上傳數據進行單細胞分析,用于確定細胞類型、關鍵基因等。
(14)BloodSpot:http://servers.binf.ku.dk/bloodspot/,是一個提供健康和惡性造血中基因和基因特征的基因表達譜DE 數據庫,包含來自人類和小鼠的數據。還可顯示樣本之間層次關系的交互式樹,以及Kaplan-Meier生存圖。該數據庫被細分為幾個可供瀏覽的數據集,是一個專門用于健康和血液病單細胞轉錄組分析的數據庫。
(15)SCPortalen:http://single-cell.clst.riken.jp/,是日本開發的一個單細胞測序數據庫,旨在使在不同的環境中得到的單細胞測序數據具有可比性和可重用性,涵蓋了人類和小鼠單細胞轉錄組學數據集,這些數據集可從INSDC網站公開獲得。除了轉錄組學數據,SCPortalen還提供了對單細胞圖像的訪問權限。通過SCPortalen的Web界面,用戶可以輕松搜索、分析和下載感興趣的單細胞數據集。
(16)SCDevDB:https://scdevdb.deepomics.org/,包含10個數據集,涵蓋18413個單細胞和176個細胞組。根據數據資源號,這些細胞群被分為35個發育階段,每個哺乳動物個體都是從全能受精卵發育而來的。哺乳動物的著床前發育是一個復雜的過程,包括從1細胞到2細胞、2細胞到4細胞、4細胞到8細胞、8細胞到16細胞以及16細胞到胚泡的一系列細胞分裂。幾乎所有的人體組織都來自胚胎細胞,然后根據多細胞生物的發育過程構建發育樹。SCDevDB是一個發育相關的單細胞數據庫。
(17)KIT:http://humphreyslab.com/SingleCell/,是一個用于腎臟單細胞數據集的在線數據庫,允許用戶從小鼠或人腎和人腎類器官單細胞數據集中查詢基因表達。文庫是使用所示的細胞或細胞核以及InDrop、DropSeq或10X Chromium平臺創建的。數據庫涵蓋健康成人腎臟-上皮細胞,人體排斥腎同種異體移植活檢組織,健康成人腎臟組織,腎臟類器官,人類胎兒腎臟,人類糖尿病腎和人腎snRNA/ATAC-seq等組織器官的空間轉錄組數據。
(18)VascularSingleCells:http://betsholtzlab.org/VascularSingleCells/database.html,該數據庫是成年小鼠腦和肺血管和血管周圍細胞的單細胞基因表達數據庫,Christer Betsholtz團隊主要研究胚胎發育、成人健康和疾病中血管生成、血管通透性和其他血管功能的細胞和分子機制,主要關注微血管周細胞和血管周圍成纖維細胞,這是圍繞大腦血管的兩組不同的細胞。他們還開發了其他針對小鼠腦組織單細胞測序的數據庫。
(19)TISCH:http://tisch.comp-genomics.org/home/,TISCH數據庫是專門用于腫瘤免疫浸潤分析的單細胞數據庫。數據來源明確,主要是GEO和ArrayExpress的數據,包括28種腫瘤類型,79個數據集,2045746個細胞,既有人類細胞,也有小鼠細胞;既有治療的,也有未治療的。因此,涵蓋的單細胞類型比較全面。數據處理的流程包括數據收集、樣本質控、數據前處理,數據集信息,數據集模塊,基因模塊和數據下載。
(20)scTPA:http://sctpa.bio-data.cn/sctpa/,用于通路激活特征的單細胞轉錄組分析的網絡工具。scTPA用于分析人和小鼠中通路激活特征的單細胞基因表達。基于眾所周知的生物通路或用戶定義的通路,scTPA通過測量單個細胞的通路激活,進行聚類分析并識別細胞類型特異性激活通路,從而更好地了解通路中的細胞類型和狀態取向的觀點。
(21)SpatialDB:https://www.spatialomics.org/SpatialDB/,是第一個專門從已發表論文中整理空間轉錄組數據的公共數據庫,旨在為組織中的空間基因表達譜提供全面而準確的資源。目前,SpatialDB包含由8種空間分辨轉錄組技術生成的24個數據集的詳細信息,允許用戶在線瀏覽所有 8 種技術的空間基因表達譜,并比較相同或不同技術生成的任意兩個數據集的空間基因表達譜。SpatialDB提供了由SpatialDE和Trendsceek識別的空間可變 (SV) 基因,能提供空間分辨轉錄組圖譜,包括人類、小鼠、果蠅、秀麗隱桿線蟲和斑馬魚組織的數據集,用于快速檢索特定組織中空間基因表達的分析,GO和KEGG富集分析。
(22)iSyTE:https://research.bioinformatics.udel.edu/iSyTE/ppi/index.php,眼科研究界已經在不同階段的野生型小鼠晶狀體和來自表現晶狀體缺陷或白內障的特定基因擾動小鼠突變體的晶狀體組織上生成了數百個微陣列數據集。該數據庫分析了使用標準 Affymetrix 和 Illumina 平臺生成的所有晶狀體微陣列基因表達數據集,并開發了iSyTE用于眼睛基因發現的集成系統工具。它允許有效訪問和可視化這些分析的數據集,同時也促進各種下游分析,是一個專注于研究眼睛發育的單細胞數據庫。
(23)DBTMEE:https://dbtmee.hgc.jp/,DBTMEE是一個小鼠早期胚胎轉錄組的數據庫,通過超大規模全轉錄組分析建立基因表達譜。通過對超過1.5×10^5個MII 卵母細胞進行測序,以分析男性和女性基因組結構從受精到ZGA,到合子基因組依賴性細胞周期的轉變。DBTMEE還包含其他公共資源,可以系統地了解從受精到ZGA的男性和女性基因組動態,可用于探索參與基因組激活程序的基因的遺傳和表觀遺傳特征,特別是確定參與受精卵母細胞轉錄起始的潛在關鍵轉錄因子 (TF)。
(24)CeDR Atlas:https://ngdc.cncb.ac.cn/cedr,CeDR是從單細胞水平對人類、小鼠和細胞系的組織細胞類型特異性藥物反應分析的數據庫。CeDR為細胞的藥物反應譜提供了直接參考,不僅包括疾病細胞類型,還包括正常細胞類型。CeDR 以細胞分辨率推斷藥物反應,并闡明聯合治療的設計和耐藥性甚至藥物副作用的識別。
(25)Aging Atlas:https://ngdc.cncb.ac.cn/aging/index,旨在編譯由一系列高通量組學技術創建的大型基因表達和調控數據集。數據庫目前包括五個模塊:轉錄組學、表觀組學、單細胞轉錄組學、蛋白組學和藥物基因組學。Aging Atlas提供用戶友好的功能來探索與年齡相關的基因表達變化,并為來自衰老相關研究的原始多組學數據提供下載服務。
(26)Gut Cell Atlas:https://www.gutcellatlas.org/,該數據庫是一個腸道組織的單細胞測序數據庫。其中,時空腸細胞圖譜,來自胎兒、兒科、成人供體和多達 11 個腸道區域的428K 腸道細胞的完整單細胞 RNA-seq 數據集;胎兒和兒科細胞圖譜,從受孕后 6-11 周的人類腸道發育中分離出的62,849 個細胞?的單細胞轉錄組。該數據包括來自雙空腸、回腸和結腸的腸細胞;結腸免疫圖譜,結腸作為屏障組織,代表了一種獨特的免疫環境,免疫細胞對不同的微生物群落表現出耐受性,這些微生物群落統稱為微生物組。
(27)StemMapper:http://stemmapper.sysbiolab.eu/,擁有超過798個小鼠和166個人類的干細胞轉錄組,數據主要從GEO收集,代表51種小鼠干細胞、祖細胞及其后代的表達譜和19種人類干細胞、祖細胞及其子代的表達譜。
(28)ColorCells:https://rna.sysu.edu.cn/colorcells/,一個比較分析lncRNAs和miRNA在單細胞RNA-Seq數據中的表達、分類和功能的平臺。ColorCells分析了5個物種的167913個scRNA-Seq數據。lncRNA的整合注釋揭示了大量細胞特異性lncrRNA及其性質。
(29)SPICA:https://spica.epfl.ch/projects,是免疫細胞單細胞 RNA-seq 數據的網絡資源。與其他單細胞數據庫相比,SPICA 擁有精心策劃的細胞類型特異性參考圖譜,這些參考圖譜以高分辨率描述免疫細胞狀態,并發布了在這些圖譜背景下分析的單細胞數據集。此外,用戶可以在現有圖集的上下文中私下分析自己的數據。
(30)GRNdb:http://www.grndb.com/,基因調控網絡對于理解基因表達調控和表達異質性的機制至關重要。GRNdb是一個免費訪問且用戶友好的數據庫,用于方便地探索和可視化由轉錄因子(TF)和下游靶基因形成的預測調控網絡,基于大規模 RNA-seq 數據以及已知的TF-各種人和小鼠條件的目標關系。GRNdb 中的所有規則都是根據組學數據預測的,而不是通過實驗確定的。用戶可以輕松搜索、瀏覽和下載單細胞或批量水平的各種條件的 TF-target 對和相應的基序,同時研究一系列基因的表達譜并分析基因之間的關聯不同TCGA腫瘤的表達水平和患者的存活率。
(31) CellPhoneDB:https://www.cellphonedb.org/,是一個公開的受體、配體及其相互作用的資料庫。亞基結構包括配體和受體,準確地代表異質復合物。這是至關重要的,因為細胞-細胞之間的通信依賴于多亞基蛋白復合體,這超越了大多數數據庫和研究中使用的二進制表示。集成了與蜂窩通信有關的現有數據集和新的人工審查信息。CellPhoneDB利用來自以下數據庫的信息:UniProt, Ensembl, PDB, IMEx聯盟,IUPHAR。
(32)scMetabolism:http://www.cancerdiversity.asia/scMetabolism/,旨在為擁有單細胞測序數據的用戶提供便利。用戶可以使用自己的scRNA-seq數據探索代謝活動,是由復旦大學附屬中山醫院開發的在線單細胞代謝數據庫。
(33)CDCP:https://db.cngb.org/cdcp/,(細胞組學數據坐標平臺)共享和整合復雜的單細胞數據集,并提供單細胞分析工具和可視化服務,以方便研究人員訪問和探索已發表的單細胞數據集。其中包括病毒數據庫VThunter和HCL數據庫。
(34)THPA:https://www.proteinatlas.org/humanproteome/single+cell+type,THPA數據庫單細胞部分,基于來自25個人體組織和外周血單個核細胞 (PBMCs)的單細胞RNA測序 (scRNAseq)數據,以及內部生成的顯示相應空間蛋白表達模式的免疫組化切片。scRNAseq分析基于公開的全基因組表達數據,包含對應于15個不同細胞類型的444個單細胞類型簇中的所有蛋白編碼基因。進行特異性和分布分類,以確定這些單細胞類型中升高的基因數量,以及分別在一個、幾個或所有細胞類型中檢測到的基因數量。
(35)lungcancer:http://lung.cancer-pku.cn/index.php,通過單細胞測序對非小細胞肺癌中 T 細胞的全局表征,深層單細胞轉錄組數據以及完整的 T 細胞受體信息確定NSCLC浸潤淋巴細胞的多維特征。這是張澤民教授團隊開發的、專門用于非小細胞肺癌免疫分析的單細胞數據庫。最終獲得12598個基因和7183個細胞的注釋。
參考資料:
可能是最全的單細胞數據庫匯總!張澤民團隊開發的排名35!
最強攻略:史上最全單細胞數據庫匯總解讀
七龍珠 |召喚一份單細胞數據庫匯總
https://zhuanlan.zhihu.com/p/532134856