Galaxy生信云平臺:集合操作工具大全

Galaxy平臺上的文件稱為數據集(Dataset),如果將多個文件組合在一起,則形成數據集合(Dataset collection)。

上傳文件后,可以通過工具將文件構建成數據集合。具體操作可以參考前面介紹轉錄組流程的文章:

上傳數據,輕松分析 | 云上轉錄組標準分析流程使用指南

構建數據集合的工具有下圖所示的4種:

84d10849cdcd9b271bf06b2c8afde1ea.png

  1. Build Dataset List,將多個文件組合成一個列表,每行一個數據集。

  2. Build Dataset Pair,將一對雙端測序數據組合成一個數據集對。

  3. Build List of Dataset Pairs,將多個樣本的雙端測序數據構建成數據集對列表,每行一個數據集對。

  4. Build Collection from Rules,在一個表格工具中,通過各種規則,將數據構建成數據集合。

有了數據集合之后,還有許多工具對數據集合進行操作,以下是這些工具的簡要介紹。

Apply rules

這個工具允許用戶將現有的 Galaxy 數據集合的元數據處理為表格數據,應用一系列規則,并生成一個新的集合。

Build list

從單個數據集或集合構建一個新的列表集合。

942bfd223eed31f6cd7a317f23dbd921.png

Collapse Collection into single dataset in order of the collection

將列表集合合并為一個單一文件數據集,可以選擇包含數據集名稱或合并共同的標題行。

Duplicate file to collection

通過將輸入數據集重復N次(其中N是用戶指定的整數),創建一個任意大小的集合。

Extract dataset

根據位置或標識符從集合中提取數據集。

Extract element identifiers?of a list collection

該工具接受一個列表類型的集合,并生成一個文本數據集作為輸出,其中包含集合中所有數據集的元素標識符。

Filter collection

使用文件中提供的列表,從集合中過濾元素。

Filter empty datasets

從集合中移除空元素。

該工具接受一個數據集合并過濾(移除)空數據集。這對于繼續多樣本分析很有用,因為下游工具要求數據集具有內容。

2059e7b06cb7af5b2c29e6cf9cc1821e.png

Filter failed datasets

從集合中移除錯誤(紅色)的數據集。

該工具接受一個數據集合并過濾(移除)處于失敗(紅色)狀態的數據集。這對于在多個樣本分析中繼續進行時,當一個或多個樣本在某個時刻失敗時非常有用。

cd08b29f02b8b3e65629846006db82f8.png

Flatten collection

將嵌套集合展平為簡單列表。

該工具接受嵌套集合,例如列表的列表或數據集對的列表,并從輸入生成一個扁平化的列表。它有效地“展平”了層次結構。集合標識符被合并在一起(默認使用“_”),以創建扁平化結果中的新集合標識符。

38700e32fc477a630781405fb4f97180.png

Merge collections

接受兩個或更多集合,并從它們創建一個單一的集合。

Relabel identifiers

使用提供的文件中的標識符,更改集合中數據集的標識符。

Sort collection

按字母順序、數字順序或使用提供的文件中預定的順序對數據集合進行排序。

Split by group

給定單個輸入數據集,該工具根據指定列中的唯一值將文件拆分。

Split file to dataset collection

該工具將由記錄組成的數據集拆分為集合中的多個數據集。記錄可以是一行、一個FASTA序列(標題+序列)、一個FASTQ序列(標題+序列+質量值)等。重要的屬性是記錄要么具有特定的長度(例如,FASTQ有4行),要么可以通過正則表達式指定新記錄的開始/結束,例如,對于行可以使用 ".",對于FASTA可以使用">."。

Tag elements

向集合元素添加標簽(包括名稱(name:)和組(group:)標簽)。

Unzip Unzip a file

解壓包含各種類型文件的文件夾。如果要求保留多個文件,則輸出將是一個包含壓縮文件或tar存檔中的所有文件的集合。

Unzip collection

將配對集合“解壓縮”為兩個簡單的數據集集合(數據集的列表)。

給定一個包含正向和反向讀取的配對集合,該工具將把它“解壓縮”成兩個分別包含正向和反向讀取的集合。

d4bb3f0ebccdd79ffbd7c186a1a395e4.png

Zip collections

接受兩個集合并將它們構建成一個配對集合。

如果您有一個僅包含正向讀取的集合和一個僅包含反向讀取的集合,這個工具將把它們“壓縮”到一起,形成一個簡單的配對集合。例如,給定兩個包含正向和反向讀取的集合,它們可以被“壓縮”成一個單一的配對集合:

05550f5b664055a7b9540ffc2647ee65.png

關于簡說基因

  • 生信平臺

    Galaxy中國(UseGalaxy.cn)致力于打造中國人的云上生物信息基礎設施。大量在線工具免費使用。無需安裝,用完即走。活躍的用戶社區,隨時交流使用心得。

  • 生信分析

    我們能夠承接所有 NGS 組學數據分析業務,包括但不限于 WGS / WES / RNA-seq 等。基因組組裝、注釋,以及各種重測序業務都可以與簡說基因合作。

  • 生信培訓

    簡說基因的生信培訓班,榮獲學員的一致好評。如果你也對生物信息學感興趣,歡迎來跟簡說基因,學真生信

  • 聯系方式

    QQ交流群(免費):925694514

    微信交流群(免費):加微信好友,邀請入群

    客服微信:usegalaxy

a764afc3a1b0389cf8a365d615bbc58f.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/713413.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/713413.shtml
英文地址,請注明出處:http://en.pswp.cn/news/713413.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

后臺組件體系

從今天開始進入更細粒度說明。后臺微服務是由組件構成的。平臺的開發理念是為甲方打造一個生態環境。安裝實施時為客戶安裝私倉來管理組件。開發微服務時鼓勵拆分為組件。開發新功能時,先看有沒有相關組件,有的話就在pom.xml文件(不要問我這個…

OpenDDS中避免訂閱發布同一主題時的自環現象(適用于所有DDS)

目錄 1、摘要2、理解"自反傳輸"2、解決方案2.1、使用 DataReaderListener 進行過濾3.2、使用 Partition 進行隔離3.3、 使用不同的 Topic 總結 1、摘要 在 OpenDDS 中,同時訂閱并發布同一主題會導致自環現象,即接收到自己發送的消息。本文介紹…

Day10:基礎入門-HTTP數據包Postman構造請求方法請求頭修改狀態碼判斷

目錄 數據-方法&頭部&狀態碼 案例-文件探針 案例-登錄爆破 工具-Postman自構造使用 思維導圖 章節知識點: 應用架構:Web/APP/云應用/三方服務/負載均衡等 安全產品:CDN/WAF/IDS/IPS/蜜罐/防火墻/殺毒等 滲透命令:文件…

最新消息:英特爾宣布成立全新獨立運營的FPGA公司——Altera

今天,英特爾宣布成立全新獨立運營的FPGA公司——Altera(2015年6月Intel以 167 億美元的價格,收購FPGA廠商Altera)。首席執行官Sandra Rivera和首席運營官Shannon Poulin分享展示其在超過550億美元的市場中保持領先性的戰略規劃&am…

什么是端點安全以及如何保護端點

什么是端點安全 端點是指可以接收信號的任何設備,是員工使用的一種計算設備,用于保存公司數據或可以訪問 Internet。端點的幾個示例包括:服務器、工作站(臺式機和筆記本電腦)、移動設備、虛擬機、平板電腦、物聯網、可…

一【初識EMC】

在作為硬件行業相關從業者,經常接觸到EMC相關問題,下面來簡單介紹下EMC相關方面的知識 文章目錄 前言一、生活中的EMC現象?二、EMC是什么三、EMC的三要素四、EMI與EMS的評估方式1.RE2.CE3.HAR4.FLICKER5.Rs6.CS7.ESD8.EFT9.DIP10.PMS11.surge…

Zookeeper3:客戶端命令

文章目錄 客戶端命令連接服務端Zookeeper客戶端內置命令 ls - 節點信息 客戶端命令 連接服務端Zookeeper //客戶端連接服務端zookeeper 默認連的本機2181端口的zookeeper cd /opt/module/zookeeper-3.9.1/bin && sh zkCli.sh//客戶端連接遠程服務端zookeeper cd /op…

【小塵送書-第十一期】編程的基石,開發的核心:《算法秘籍》

大家好,我是小塵,歡迎你的關注!大家可以一起交流學習!歡迎大家在CSDN后臺私信我!一起討論學習,討論如何找到滿意的工作! 👨?💻博主主頁:小塵要自信 &#x1…

R語言簡介|你對R語言了解多少?

R語言是一種專門用于統計計算和圖形展示的開源編程語言,它在數據科學領域有著廣泛的應用。下面對R語言的環境、基礎語法及注釋進行解釋: R語言環境 安裝與配置 安裝R語言通常可以從官方站點下載對應操作系統的安裝包,如Windows、Linux、ma…

lotus worker停止接單

worker停止接單 會做完當前的任務 lotus-worker set --enabledfalse# lotus-worker --worker-repo/worker01 set --enabledfalse DEPRECATED: This command will be removed in the future# lotus-worker --worker-repo/worker01 info Enabled: false參考 worker停止接單

如何使用GAP-Burp-Extension掃描潛在的參數和節點

關于GAP-Burp-Extension GAP-Burp-Extension是一款功能強大的Burp擴展,該工具在getAllParams擴展的基礎上進行了升級,該工具不僅可以幫助廣大研究人員在安全審計過程中掃描潛在的參數,而且還可以搜索潛在的鏈接并使用這些參數進行測試&#…

零基礎如何快速入門倫敦金交易

倫敦金交易是金融市場中備受關注的一種投資方式。對于想要學習如何炒倫敦金并快速開始交易的人來說,本文將為您提供一份全面而詳細的指南。無論您是初學者還是有經驗的交易者,本文都將幫助您了解倫敦金交易的基本知識,并提供一些實用的技巧和…

安卓與鴻蒙的區別

安卓和鴻蒙是兩個不同的操作系統。下面是它們的一些區別: 1. 公司:安卓是由谷歌開發的操作系統,而鴻蒙是由華為開發的操作系統。 2. 開放性:安卓是開放源代碼的操作系統,可以由各種手機制造商進行定制和使用。鴻蒙也…

協議-http協議-基礎概念03-http狀態碼-http特點-http性能-壓縮和分塊傳輸-范圍請求

參考來源: 極客時間-透視HTTP協議(作者:羅劍鋒); 01-狀態碼分類 開頭的 Version 部分是 HTTP 協議的版本號,通常是HTTP/1.1,用處不是很大。后面的 Reason 部分是原因短語,是狀態碼的簡短文字描述&#xff…

04鎖機制-分布式鎖

一句話導讀 分布式鎖是一種在分布式系統中實現對共享資源的訪問控制的鎖機制,它可以確保在不同的節點上只有一個線程能夠獲取鎖,從而避免了分布式環境下的并發訪問問題 目錄 一句話導讀 一、什么是分布式鎖 二、實現分布式鎖的方式 1.基于數據庫實現…

【Redis】高級特性 - 發布和訂閱

文章目錄 1. 發布/訂閱模式概述2. 在Redis中使用發布/訂閱模式2.1 發布消息2.2 訂閱頻道2.3 接收消息 3. 示例演練3.1 啟動兩個Redis客戶端3.2 發布者發布消息3.3 訂閱者接收消息 4. 取消訂閱5. 發布/訂閱模式的優勢結語 在Redis的學習中,發布/訂閱(Pub/…

每周一算法:雙向廣搜

題目鏈接 字符串變換 題目描述 已知有兩個字串 A , B A,B A,B,及一組字串變換的規則(至多 6 6 6個規則): A 1 → B 1 A_1→B_1 A1?→B1? A 2 → B 2 A_2→B_2 A2?→B2? … 規則的含義為:在 A A A中的子串 A 1 A_1 A1?…

pytorch統計屬性

目錄 1.normal2. mean, sum, min, max, prod3.argmin, argmax4. topk kthvalue5. compare 1.normal torch.normal(mean, std, *, generatorNone, outNone) → Tensor返回一個張量,其中的每個元素隨機來自獨立的標準正態分布。這些分布具有給定的均值和標準差。 參數…

Linux 內核獲取函數size

方式一:通過objdump -t直接從目標文件中獲取函數size #objdump -t file_unread.o | grep hook 0000000000000030 l F .text 000000000000012f hook_vfs_read0000000000000030 l F .text 000000000000012f hook_vfs_read各個字段說明 0000000000000030&#x…

【cmu15445c++入門】(13)C++的std::promise

一、說明 std::promise 是C11并發編程中常用的一個類&#xff0c;常配合std::future使用。其作用是在一個線程t1中保存一個類型typename T的值&#xff0c;可供相綁定的std::future對象在另一線程t2中獲取 二、代碼 #include <chrono> #include <future> #includ…