任務
你想以某種可以接受的速度序列化和重建Python 數據結構,這些數據既包括基本Python 對象也包括類和實例。
解決方案
如果你不想假設你的數據完全由基本 Python 對象組成,或者需要在不同的 Python 版本之間移植,再或者需要將序列化后的形態作為文本傳遞,那么最好的序列化數據的方法是 cPickle 模塊(pickle 模塊是完全用 Python 實現的,而且完全可以替代 cPickle,但問題是它比較慢,除非你沒有cPickle用,不然它并不是最好的選擇)。舉個例子假設你有:
data = {12:'twelve', 'feep':list('ciao'), 1.23:4+5j, (1,2,3):u'wer'}
可以將 data 序列化為文本字符串:
import cPickle
text = cPickle.dumps(data)
或者轉化為二進制串,這種選擇通常更快而且更節省空間:
bytes = cPickle.dumps(data,2)
現在,可以將text和 bytes按照意愿進行各種處理(比如,通過網絡傳遞,作為BLOB放入數據庫中,見 7.10節、7.11節和 7.12節),只要你不修改 text和 bytes 本身。對于bytes 而言,那意味著應該保證其二進制字節序不被改變,對于text 而言,應該保證它的文本結構不被改變,包括換行符。之后,無論在什么計算機體系結構之下,無論用什么版本的 Python,你都可以重新構建出那些數據:
redata1 = cPickle.loads(text)
redata2 = cPickle.loads(bytes)
每個調用創建出來的數據結構都等于原數據。比較特別的是,字典的鍵在原數據和新建數據中的順序都是任意的,但這個順序本身是有意義的,因此也會被保存。無須告訴 cPickle.loads 原先的 dumps 是否使用了文本模式(這是默認的模式,可以由一些很老的 Python 版本讀取)或二進制模式(快速目緊湊),loads 可以通過檢查參數的內容自行判斷。
當你希望將數據寫入文件時,可以直接使用cPickle的dump函數,它允許你將多個數據結構一個接一個地寫入到同一個文件:
ouf = open('datafile.txt','w')
cPickle.dump(data,ouf)
cPickle.dump('some string',ouf)
cPickle.dump(range(19),ouf)
ouf.close()
一旦你做完這些事,就可以從 datafle.txt 中以相同的順序一個接一個地恢復原來的數據結構:
inf = open('datafile.txt')
a = cPickle.load(inf)
b = cPickle.load(inf)
c = cPickle.load(inf)
inf.close()
還可以給 cPickle.dump 傳遞值為2的第三個參數,這相當于告訴 cPickle.dump 以二進制的形式(快速且緊湊)序列化數據,但同時數據文件也必須以二進制模式打開,而不能是默認的文本模式,無論你是想寫入或是取出數據。
討論
Python 提供了幾種方法來序列化數據(比如,將數據轉化為字節串,存入磁盤或數據庫,或者通過網絡傳遞)以及從序列化形式重新構建數據。最好的方式是使用cPickle模塊。它有一個純 Python 的對應物,叫做 pickle(cPickle 模塊是用C編寫的 Python 擴展),但速度就慢得多了,只有在沒有cPickle 的情況下才應該考慮使用它(比如,將Python 移植到容量很小的手機中,必須節省每一個字節,所以只能安裝那些完全不可或缺的 Python 標準庫的子集)。然而,在任何能夠使用 pickle 的地方,都可以將其替換為 cPickle:可以用其中的一個將數據序列化,用另一個恢復并重新構建數據,而不會有任何問題。
cPickle 支持絕大多數的基本數據類型(如字典、列表、元組、數字、字符串)以及它們的各種組合形式,同時也支持類和實例。而對類和實例所做的處理僅僅涉及到數據與代碼無關(cPikle 對象并不知道怎樣序列化代碼對象,這可能是因為在不同的 Python發行版之間的可移植性完全無法保證,因此序列化代碼對象意義不大。如果你不需要考慮跨版本問題的話,可參看7.6節介紹的對代碼對象的序列化方法)。7.4節還有更多的用 cPickle 處理類和實例的細節。
cPickle 保證了在不同 Python 發行版之間的兼容性,也保證了對于特定計算機體系結構的獨立性。即使你升級了你的Python 發行版,通過cPickle處理的序列化數據仍然可以被讀取,而且即使在不同的計算機上,這種序列化和反序列化操作也是保證可用的。
cPickle 的 dumps 函數接受任何 Python 數據結構作為參數,并返回一個字符串。如果用2 作為 dumps 的第二個參數,dumps 將返回一個字節串:操作速度會更快,而且產生的串長度會更短。可以給 loads函數傳遞字符串或者字節串,它都將返回一個Python 數據結構,此數據等同于(=)原來的數據。在 dumps 和 loads 調用之間,可以以任意方式處置那個字符串或字節串,比如通過網絡傳輸,存入數據庫并讀取,或者加密之后再解密。只要這個串本身的結構沒有被改變,loads都能夠正確地讀取(即使是在不同的平臺上,或者用更新的發行的版本)。如果需要用老版本(早于2.3)的Python 處理數據,可考慮用1作為第二個參數:其操作速度會比較慢,產生的結果串也不如用2作參數產生的串緊湊短小,但這個串可以被老版本和最新的 Python,甚至以后的Python版本讀取。
當需要將數據存入文件時,可以使用cPickle的dump函數,它接受兩個參數:需要處理的數據結構和一個打開的文件對象,或者一個類文件對象。如果文件是以二進制輸入輸出方式打開的,而不是默認方式(文本模式),可以把2作為它的第三個參數,明確要求使用二進制格式,這樣速度更快也更緊湊(或用1作為第三個參數來產生結果串,這樣速度不快,要求的空間也更多,但是它能夠被很老的,甚至早于 2.3的 Python版本讀取)。dump 優于 dumps 的地方在于,通過 dump,可以進行幾個調用,一個接一個地將不同的數據結構存入到同一個打開的文件。每個數據結構在存入時還會帶有附加的信息,如這個串的長度。因此,當你以后打開此文件讀取數據(二進制讀取,如果你當初要求以二進制格式存入的話)并反復調用cPickle.load 時,可將文件作為其參數,根據順序一個接一個地構建出原來的數據結構。而load 的返回值,就像 loads 的返回值一樣,是一個完全等同于原數據的新的數據結構。
那些習慣于其他語言和庫提供的“序列化”工具的用戶可能會問,對于想要序列化和反序列化的對象的大小,pickle會不會有什么限制。答案是:沒有。你的計算機的內存可能是唯一的限制,如果你的計算機的內存非常大,pickle 在實踐中幾乎是沒有限制的。