Python在生物信息學中的應用:序列化Python對象

我們需要將Python對象序列化為字節流,這樣就可以將其保存到文件中、存儲到數據庫中或者通過網絡連接進行傳輸。

解決方案

序列化最普遍的做法是使用 pickle 模塊。為了將一個對象保存到一個文件中,可以這樣做:

import pickledata = ... # Some Python object
f = open('somefile', 'wb')
pickle.dump(data, f)

為了將一個對象轉儲為一個字符串,可以使用 pickle.dumps() :

s?=?pickle.dumps(data)

為了從字節流中恢復一個對象,使用 pickle.load() 或 pickle.loads() 函數。比如:

# Restore from a file
f = open('somefile', 'rb')
data = pickle.load(f)# Restore from a string
data = pickle.loads(s)

討論

對于大多數應用程序來講,dump() 和 load() 函數的使用就是你有效使用 pickle 模塊所需的全部了。它可適用于絕大部分Python數據類型和用戶自定義類的對象實例。如果你碰到某個庫可以讓你在數據庫中保存/恢復Python對象或者是通過網絡傳輸對象的話, 那么很有可能這個庫的底層就使用了 pickle 模塊。

pickle 是一種Python特有的自描述的數據編碼。通過自描述,被序列化后的數據包含每個對象開始和結束以及它的類型信息。因此,你無需擔心對象記錄的定義,它總是能工作。舉個例子,如果要處理多個對象,你可以這樣做:

>>> import pickle
>>> f = open('somedata', 'wb')
>>> pickle.dump([1, 2, 3, 4], f)
>>> pickle.dump('hello', f)
>>> pickle.dump({'Apple', 'Pear', 'Banana'}, f)
>>> f.close()
>>> f = open('somedata', 'rb')
>>> pickle.load(f)
[1, 2, 3, 4]
>>> pickle.load(f)
'hello'
>>> pickle.load(f)
{'Apple', 'Pear', 'Banana'}
>>>

你還能序列化函數,類,還有接口,但是結果數據僅僅將它們的名稱編碼成對應的代碼對象。例如:

>>> import math
>>> import pickle.
>>> pickle.dumps(math.cos)
b'\x80\x03cmath\ncos\nq\x00.'
>>>

當數據反序列化回來的時候,會先假定所有的源數據是可用的。模塊、類和函數會自動按需導入進來。對于Python數據被不同機器上的解析器所共享的應用程序而言, 數據的保存可能會有問題,因為所有的機器都必須訪問同一個源代碼。

千萬不要對不信任的數據使用pickle.load()。

pickle在加載時有一個副作用就是它會自動加載相應模塊并構造實例對象。

但是某個壞人如果知道pickle的工作原理,

他就可以創建一個惡意的數據導致Python執行隨意指定的系統命令。

因此,一定要保證pickle只在相互之間可以認證對方的解析器的內部使用。

有些類型的對象是不能被序列化的。這些通常是那些依賴外部系統狀態的對象, 比如打開的文件,網絡連接,線程,進程,棧幀等等。用戶自定義類可以通過提供 __getstate__() 和 __setstate__() 方法來繞過這些限制。如果定義了這兩個方法,pickle.dump() 就會調用 __getstate__() 獲取序列化的對象。類似的,__setstate__() 在反序列化時被調用。為了演示這個工作原理, 下面是一個在內部定義了一個線程但仍然可以序列化和反序列化的類:

# countdown.py
import time
import threadingclass Countdown:def __init__(self, n):self.n = nself.thr = threading.Thread(target=self.run)self.thr.daemon = Trueself.thr.start()def run(self):while self.n > 0:print('T-minus', self.n)self.n -= 1time.sleep(5)def __getstate__(self):return self.ndef __setstate__(self, n):self.__init__(n)

試著運行下面的序列化代碼:

>>> import countdown
>>> c = countdown.Countdown(30)
>>> T-minus 30
T-minus 29
T-minus 28
...>>> # After a few moments
>>> f = open('cstate.p', 'wb')
>>> import pickle
>>> pickle.dump(c, f)
>>> f.close()

然后退出Python解析器并重啟后再試驗下:

>>> f = open('cstate.p', 'rb')
>>> pickle.load(f)
countdown.Countdown object at 0x10069e2d0>
T-minus 19
T-minus 18
...

你可以看到線程又奇跡般的重生了,從你第一次序列化它的地方又恢復過來。

pickle 對于大型的數據結構比如使用 array 或 numpy 模塊創建的二進制數組效率并不是一個高效的編碼方式。如果你需要移動大量的數組數據,你最好是先在一個文件中將其保存為數組數據塊或使用更高級的標準編碼方式如HDF5 (需要第三方庫的支持)。

由于 pickle 是Python特有的并且附著在源碼上,所以如果需要長期存儲數據的時候不應該選用它。例如,如果源碼變動了,你所有的存儲數據可能會被破壞并且變得不可讀取。坦白來講,對于在數據庫和存檔文件中存儲數據時,你最好使用更加標準的數據編碼格式如XML,CSV或JSON。這些編碼格式更標準,可以被不同的語言支持,并且也能很好的適應源碼變更。

最后一點要注意的是 pickle 有大量的配置選項和一些棘手的問題。對于最常見的使用場景,你不需要去擔心這個,但是如果你要在一個重要的程序中使用pickle去做序列化的話, 最好去查閱一下 官方文檔 (https://docs.python.org/3/library/pickle.html)。

參考

  • 《Python Cookbook》第三版

  • http://python3-cookbook.readthedocs.org/zh_CN/latest/

關于簡說基因

  • 生信平臺

    Galaxy中國(UseGalaxy.cn)致力于打造中國人的云上生物信息基礎設施。大量在線工具免費使用。無需安裝,用完即走。活躍的用戶社區,隨時交流使用心得。

  • 生信培訓

    簡說基因的生信培訓班,榮獲學員的一致好評。如果你也對生物信息學感興趣,歡迎來跟簡說基因,學真生信

  • 生信分析

    我們能夠承接所有 NGS 組學數據分析業務,包括但不限于 WGS / WES / RNA-seq 等。基因組組裝、注釋,以及各種重測序業務都可以與簡說基因合作。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/696716.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/696716.shtml
英文地址,請注明出處:http://en.pswp.cn/news/696716.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

字典樹相關例題題解

一.P2580 于是他錯誤的點名開始了 這道題也類似于模版題,只要我們熟悉插入和查找的過程,一樣可以解決,這里只要注意一下第一次出現和其它次出現所輸出是不一樣的,這里我們只要在查找函數中返回不同的值,這樣就可以解決…

GEE案例——計算趕著大米、棉花和小麥等農作物的氨氣排放量(含風速計算)

簡介 氨氣是一種在農業生產中廣泛存在的氣體,主要是由肥料和畜禽糞便的分解過程中釋放出來的。氨氣對環境和生物健康造成了負面影響,所以準確計算農作物的氨氣排放量非常重要。下面是一個關于如何計算趕著大米、棉花和小麥等農作物的氨氣排放量的文檔,希望對你有幫助。 第…

MySQL優化之SQL優化詳解

(/≧▽≦)/~┴┴ 嗨~我叫小奧 ??? 👀👀👀 個人博客:小奧的博客 👍👍👍:個人CSDN ??????:傳送門 🍹 本人24應屆生一枚,技術和水平有限&am…

Laravel01 課程介紹以及Laravel環境搭建

Laravel01 課程介紹 1. Laravel2. mac開發環境搭建(通過Homebrew)3. 創建一個項目 1. Laravel 公司中面臨著PHP項目與Java項目并行,所以需要我寫PHP的項目,公司用的框架就是Laravel,所以在B站上找了一門課學習。 Laravel中文文檔地址 https…

leetcode hot 100最后一塊石頭重量Ⅱ

在本題中,我們可以知道,是要求最后石頭返還的重量,也就是,將整個數組分割成兩個子集,求讓兩個子集的差值最小。這和上一道分割整數集類似,只是需要我們返回差值。所以我們采用動態規劃01背包來做&#xff0…

象棋筆記()

文章目錄 布局要點子力及優缺點術語棋譜殘局殺法鐵門栓平頂冠大刀剜心 布局順手炮 邪門布局敢死炮應對敢死炮 一直是個象棋愛好者,水平雖然十八線,但是夢想吊打公園大爺,做個筆記吧。 布局要點 1、快速出動大子 2、車路要通 3、活通馬路 4、…

vue+element下日期組件momentjs轉換賦值問題

記錄下使用momentjs轉換日期字符串賦值給element的日期組件報錯問題&#xff1b; <el-date-pickerv-model"form.serviceTime"type"date"class"fill-w mar-t-xs"value-format"yyyy-MM-dd HH:mm:ss"placeholder"請選擇日期&quo…

StarRocks加速查詢——低基數全局字典

前言 StarRocks-2.0引入了低基數全局字典&#xff0c;可以通過全局字典將字符串的相關操作轉換成整型相關操作&#xff0c;極大提升了查詢性能。StarRocks 2.0后的版本默認會開啟低基數字典優化。 一、低基數字典 對于利用整型替代字符串進行處理&#xff0c;通常使用字典編碼…

穿越Redis單線程迷霧:從面試場景到技術內核的解讀

目錄 ?編輯 前言 Redis中的多線程 I/O多線程 Redis中的多進程 結論 延伸閱讀 前言 很多人都遇到過這么一道面試題&#xff1a;Redis是單線程還是多線程&#xff1f;這個問題既簡單又復雜。說他簡單是因為大多數人都知道Redis是單線程&#xff0c;說復雜是因為這個答案…

Leetcode - 周賽385

目錄 一&#xff0c;3042. 統計前后綴下標對 I 二&#xff0c;3043. 最長公共前綴的長度 三&#xff0c;3044. 出現頻率最高的質數 四&#xff0c;3045. 統計前后綴下標對 II 一&#xff0c;3042. 統計前后綴下標對 I 該題數據范圍小&#xff0c;可直接暴力求解&#xff0c;…

Studio One2024免費版永久使用下載

當然可以。Studio One 6是一款功能強大且易于使用的數字音頻工作站軟件&#xff0c;適用于各種音樂制作和音頻處理需求。以下是一些關于Studio One 6的詳細信息&#xff1a; Studio One6下載: https://wm.makeding.com/iclk/?zoneid39867 多軌錄音和混音&#xff1a;Studio …

Java設計模式【策略模式】

一、前言 1.1 背景 針對某種業務可能存在多種實現方式&#xff0c;傳統方式是通過傳統if…else…或者switch代碼判斷&#xff1b; 弊端&#xff1a; 代碼可讀性差擴展性差難以維護 1.2 簡介 策略模式是一種行為型模式&#xff0c;它將對象和行為分開&#xff0c;將行為定…

代碼隨想錄算法訓練營第二十四天 | 回溯算法理論基礎,77. 組合 [回溯篇]

代碼隨想錄算法訓練營第二十四天 回溯算法理論基礎什么是回溯法回溯法的理解回溯法模板 LeetCode 77.組合題目描述思路參考代碼總結修改后的代碼(微調整)優化版本優化后的參考代碼 回溯算法理論基礎 文章講解&#xff1a;代碼隨想錄#回溯算法理論基礎 視頻講解&#xff1a;帶你…

[WebDav] WebDav基礎知識

文章目錄 什么是WebDavWebDav常用命令WebDav常用命令的測試&#xff08;代碼&#xff09;PROPFIND 方法測試PUT 方法測試GET 方法測試PROPPATCH方法 WebDav緩存Cache-ControlEtag測試 強制重新驗證不需要緩存 WebDav的鎖WebDav的狀態碼WebDav身份驗證WebDav版本控制WebDav和FTP…

思考:如何寫出讓同事難以維護的代碼?

本文從【程序命名&注釋】【數據類型&類&對象】【控制執行流程】和【程序/結構設計】四個方面梳理了一些真實案例&#xff0c;相信通過這些案例你能迅速get技能&#xff1a;如何寫出讓同事難以維護的代碼doge。 比起什么程序員刪庫跑路&#xff0c;我更喜歡「寫出讓…

高校學科競賽平臺|基于springboot高校學科競賽平臺設計與實現(源碼+數據庫+文檔)

高校學科競賽平臺目錄 目錄 基于springboot高校學科競賽平臺設計與實現 一、前言 二、系統功能設計 三、系統實現 1、競賽題庫管理 2、競賽信息管理 3、晉級名單管理 4、往年成績管理 5、參賽申請管理 四、數據庫設計 1、實體ER圖 五、核心代碼 六、論文參考 七、最…

Flask框架:用Python打造精巧而強大的Web應用

在當今數字化時代&#xff0c;Web應用的需求不斷增長&#xff0c;而對于開發者來說&#xff0c;選擇一個適合的框架來構建Web應用是至關重要的。Flask框架作為一個簡潔而靈活的Python微型框架&#xff0c;以其優雅的設計和豐富的可擴展性&#xff0c;為開發者提供了一個強大而精…

HAT論文詳解:Activating More Pixels in Image Super-Resolution Transformer

code&#xff1a;https://github.com/XPixelGroup/HAT paper: https://arxiv.org/abs/2309.05239 1. 概述 本文是對Swinir的改進&#xff0c;目前很多圖像超分Benchmark的SOTA。相對于SwinIR的改進主要有三個地方&#xff1a;1. 引入Channel Attention,以獲得更好的全局能力&…

通過OCR實現純數字識別

基于飛漿paddle訓練框架 照這個改的 https://www.paddlepaddle.org.cn/documentation/docs/zh/practices/cv/image_ocr.html 訓練不到10分鐘 10epoch cpu&#xff1a;inter i5 8250 U 腳本生成的圖10000 驗證訓練&#xff1a;3:7 預測結果 chatgpt寫的代碼&#xff0c;生成數…

Prompt Engineering 高級提示工程技巧

Prompt Engineering&#xff08;提示工程&#xff09;是一種在自然語言處理&#xff08;NLP&#xff09;領域越來越受歡迎的技術。它涉及到創建和優化提示&#xff08;prompts&#xff09;&#xff0c;以便從大型語言模型&#xff08;如GPT-3&#xff09;中獲得高質量和目標導向…