Galaxy平臺上的文件稱為數據集(Dataset),如果將多個文件組合在一起,則形成數據集合(Dataset collection)。
上傳文件后,可以通過工具將文件構建成數據集合。具體操作可以參考前面介紹轉錄組流程的文章:
上傳數據,輕松分析 | 云上轉錄組標準分析流程使用指南
構建數據集合的工具有下圖所示的4種:
Build Dataset List,將多個文件組合成一個列表,每行一個數據集。
Build Dataset Pair,將一對雙端測序數據組合成一個數據集對。
Build List of Dataset Pairs,將多個樣本的雙端測序數據構建成數據集對列表,每行一個數據集對。
Build Collection from Rules,在一個表格工具中,通過各種規則,將數據構建成數據集合。
有了數據集合之后,還有許多工具對數據集合進行操作,以下是這些工具的簡要介紹。
Apply rules
這個工具允許用戶將現有的 Galaxy 數據集合的元數據處理為表格數據,應用一系列規則,并生成一個新的集合。
Build list
從單個數據集或集合構建一個新的列表集合。
Collapse Collection into single dataset in order of the collection
將列表集合合并為一個單一文件數據集,可以選擇包含數據集名稱或合并共同的標題行。
Duplicate file to collection
通過將輸入數據集重復N次(其中N是用戶指定的整數),創建一個任意大小的集合。
Extract dataset
根據位置或標識符從集合中提取數據集。
Extract element identifiers?of a list collection
該工具接受一個列表類型的集合,并生成一個文本數據集作為輸出,其中包含集合中所有數據集的元素標識符。
Filter collection
使用文件中提供的列表,從集合中過濾元素。
Filter empty datasets
從集合中移除空元素。
該工具接受一個數據集合并過濾(移除)空數據集。這對于繼續多樣本分析很有用,因為下游工具要求數據集具有內容。
Filter failed datasets
從集合中移除錯誤(紅色)的數據集。
該工具接受一個數據集合并過濾(移除)處于失敗(紅色)狀態的數據集。這對于在多個樣本分析中繼續進行時,當一個或多個樣本在某個時刻失敗時非常有用。
Flatten collection
將嵌套集合展平為簡單列表。
該工具接受嵌套集合,例如列表的列表或數據集對的列表,并從輸入生成一個扁平化的列表。它有效地“展平”了層次結構。集合標識符被合并在一起(默認使用“_”),以創建扁平化結果中的新集合標識符。
Merge collections
接受兩個或更多集合,并從它們創建一個單一的集合。
Relabel identifiers
使用提供的文件中的標識符,更改集合中數據集的標識符。
Sort collection
按字母順序、數字順序或使用提供的文件中預定的順序對數據集合進行排序。
Split by group
給定單個輸入數據集,該工具根據指定列中的唯一值將文件拆分。
Split file to dataset collection
該工具將由記錄組成的數據集拆分為集合中的多個數據集。記錄可以是一行、一個FASTA序列(標題+序列)、一個FASTQ序列(標題+序列+質量值)等。重要的屬性是記錄要么具有特定的長度(例如,FASTQ有4行),要么可以通過正則表達式指定新記錄的開始/結束,例如,對于行可以使用 ".",對于FASTA可以使用">."。
Tag elements
向集合元素添加標簽(包括名稱(name:)和組(group:)標簽)。
Unzip Unzip a file
解壓包含各種類型文件的文件夾。如果要求保留多個文件,則輸出將是一個包含壓縮文件或tar存檔中的所有文件的集合。
Unzip collection
將配對集合“解壓縮”為兩個簡單的數據集集合(數據集的列表)。
給定一個包含正向和反向讀取的配對集合,該工具將把它“解壓縮”成兩個分別包含正向和反向讀取的集合。
Zip collections
接受兩個集合并將它們構建成一個配對集合。
如果您有一個僅包含正向讀取的集合和一個僅包含反向讀取的集合,這個工具將把它們“壓縮”到一起,形成一個簡單的配對集合。例如,給定兩個包含正向和反向讀取的集合,它們可以被“壓縮”成一個單一的配對集合:
關于簡說基因
生信平臺
Galaxy中國(UseGalaxy.cn)致力于打造中國人的云上生物信息基礎設施。大量在線工具免費使用。無需安裝,用完即走。活躍的用戶社區,隨時交流使用心得。
生信分析
我們能夠承接所有 NGS 組學數據分析業務,包括但不限于 WGS / WES / RNA-seq 等。基因組組裝、注釋,以及各種重測序業務都可以與簡說基因合作。
生信培訓
簡說基因的生信培訓班,榮獲學員的一致好評。如果你也對生物信息學感興趣,歡迎來跟簡說基因,學真生信。
聯系方式
QQ交流群(免費):925694514
微信交流群(免費):加微信好友,邀請入群
客服微信:usegalaxy