我們需要將Python對象序列化為字節流,這樣就可以將其保存到文件中、存儲到數據庫中或者通過網絡連接進行傳輸。
解決方案
序列化最普遍的做法是使用 pickle 模塊。為了將一個對象保存到一個文件中,可以這樣做:
import pickledata = ... # Some Python object
f = open('somefile', 'wb')
pickle.dump(data, f)
為了將一個對象轉儲為一個字符串,可以使用 pickle.dumps() :
s?=?pickle.dumps(data)
為了從字節流中恢復一個對象,使用 pickle.load() 或 pickle.loads() 函數。比如:
# Restore from a file
f = open('somefile', 'rb')
data = pickle.load(f)# Restore from a string
data = pickle.loads(s)
討論
對于大多數應用程序來講,dump() 和 load() 函數的使用就是你有效使用 pickle 模塊所需的全部了。它可適用于絕大部分Python數據類型和用戶自定義類的對象實例。如果你碰到某個庫可以讓你在數據庫中保存/恢復Python對象或者是通過網絡傳輸對象的話, 那么很有可能這個庫的底層就使用了 pickle 模塊。
pickle 是一種Python特有的自描述的數據編碼。通過自描述,被序列化后的數據包含每個對象開始和結束以及它的類型信息。因此,你無需擔心對象記錄的定義,它總是能工作。舉個例子,如果要處理多個對象,你可以這樣做:
>>> import pickle
>>> f = open('somedata', 'wb')
>>> pickle.dump([1, 2, 3, 4], f)
>>> pickle.dump('hello', f)
>>> pickle.dump({'Apple', 'Pear', 'Banana'}, f)
>>> f.close()
>>> f = open('somedata', 'rb')
>>> pickle.load(f)
[1, 2, 3, 4]
>>> pickle.load(f)
'hello'
>>> pickle.load(f)
{'Apple', 'Pear', 'Banana'}
>>>
你還能序列化函數,類,還有接口,但是結果數據僅僅將它們的名稱編碼成對應的代碼對象。例如:
>>> import math
>>> import pickle.
>>> pickle.dumps(math.cos)
b'\x80\x03cmath\ncos\nq\x00.'
>>>
當數據反序列化回來的時候,會先假定所有的源數據是可用的。模塊、類和函數會自動按需導入進來。對于Python數據被不同機器上的解析器所共享的應用程序而言, 數據的保存可能會有問題,因為所有的機器都必須訪問同一個源代碼。
千萬不要對不信任的數據使用pickle.load()。
pickle在加載時有一個副作用就是它會自動加載相應模塊并構造實例對象。
但是某個壞人如果知道pickle的工作原理,
他就可以創建一個惡意的數據導致Python執行隨意指定的系統命令。
因此,一定要保證pickle只在相互之間可以認證對方的解析器的內部使用。
有些類型的對象是不能被序列化的。這些通常是那些依賴外部系統狀態的對象, 比如打開的文件,網絡連接,線程,進程,棧幀等等。用戶自定義類可以通過提供 __getstate__() 和 __setstate__() 方法來繞過這些限制。如果定義了這兩個方法,pickle.dump() 就會調用 __getstate__() 獲取序列化的對象。類似的,__setstate__() 在反序列化時被調用。為了演示這個工作原理, 下面是一個在內部定義了一個線程但仍然可以序列化和反序列化的類:
# countdown.py
import time
import threadingclass Countdown:def __init__(self, n):self.n = nself.thr = threading.Thread(target=self.run)self.thr.daemon = Trueself.thr.start()def run(self):while self.n > 0:print('T-minus', self.n)self.n -= 1time.sleep(5)def __getstate__(self):return self.ndef __setstate__(self, n):self.__init__(n)
試著運行下面的序列化代碼:
>>> import countdown
>>> c = countdown.Countdown(30)
>>> T-minus 30
T-minus 29
T-minus 28
...>>> # After a few moments
>>> f = open('cstate.p', 'wb')
>>> import pickle
>>> pickle.dump(c, f)
>>> f.close()
然后退出Python解析器并重啟后再試驗下:
>>> f = open('cstate.p', 'rb')
>>> pickle.load(f)
countdown.Countdown object at 0x10069e2d0>
T-minus 19
T-minus 18
...
你可以看到線程又奇跡般的重生了,從你第一次序列化它的地方又恢復過來。
pickle 對于大型的數據結構比如使用 array 或 numpy 模塊創建的二進制數組效率并不是一個高效的編碼方式。如果你需要移動大量的數組數據,你最好是先在一個文件中將其保存為數組數據塊或使用更高級的標準編碼方式如HDF5 (需要第三方庫的支持)。
由于 pickle 是Python特有的并且附著在源碼上,所以如果需要長期存儲數據的時候不應該選用它。例如,如果源碼變動了,你所有的存儲數據可能會被破壞并且變得不可讀取。坦白來講,對于在數據庫和存檔文件中存儲數據時,你最好使用更加標準的數據編碼格式如XML,CSV或JSON。這些編碼格式更標準,可以被不同的語言支持,并且也能很好的適應源碼變更。
最后一點要注意的是 pickle 有大量的配置選項和一些棘手的問題。對于最常見的使用場景,你不需要去擔心這個,但是如果你要在一個重要的程序中使用pickle去做序列化的話, 最好去查閱一下 官方文檔 (https://docs.python.org/3/library/pickle.html)。
參考
《Python Cookbook》第三版
http://python3-cookbook.readthedocs.org/zh_CN/latest/
關于簡說基因
生信平臺
Galaxy中國(UseGalaxy.cn)致力于打造中國人的云上生物信息基礎設施。大量在線工具免費使用。無需安裝,用完即走。活躍的用戶社區,隨時交流使用心得。
生信培訓
簡說基因的生信培訓班,榮獲學員的一致好評。如果你也對生物信息學感興趣,歡迎來跟簡說基因,學真生信。
生信分析
我們能夠承接所有 NGS 組學數據分析業務,包括但不限于 WGS / WES / RNA-seq 等。基因組組裝、注釋,以及各種重測序業務都可以與簡說基因合作。