您可以像這樣嘗試
using multiple processes:
import multiprocessing as mp
def compute(j):
# compute a bunch of data
return data
def write(data):
# write data to disk
if __name__ == '__main__':
pool = mp.Pool()
for j in xrange(200):
pool.apply_async(compute, args=(j, ), callback=write)
pool.close()
pool.join()
pool = \\ tmp.Pool()將創建一個工作進程池.默認情況下,工作器數等于計算機具有的CPU核心數.
每個pool.apply_async調用將由工作進程池中的工作程序運行的任務排隊.當一個worker可用時,它運行compute(j).當worker返回一個值data時,主進程中的一個線程運行回調函數write(data),數據是worker返回的數據.
一些警告:
>數據必須是可選擇的,因為它是從數據傳輸的
工人通過Queue返回主流程.
>無法保證工人完成的順序
任務與任務發送到的任務順序相同
池.因此,數據寫入磁盤的順序可能不會
對應于j范圍從0到199.解決這個問題的一種方法
將數據寫入sqlite(或其他類型)數據庫
j作為數據領域之一.然后,當你想閱讀
按順序排列數據,你可以SELECT * FROM表ORDER BY j.
>使用多個進程將增加所需的內存量
因為數據是由工作進程生成的,等待寫入磁盤的數據會累積在隊列中.您
可能能夠減少使用NumPy所需的內存量
陣列.如果那是不可能的,那么你可能不得不減少
進程數:
pool = mp.Pool(processes=1)
這將創建一個工作進程(運行計算),離開
運行寫入的主要進程.由于計算需要更長時間
寫,隊列將不會備份超過一個塊
要寫入磁盤的數據.但是,您仍然需要足夠的內存
在寫一個不同的塊時計算一個數據塊
數據到磁盤.
如果你沒有足夠的內存來同時執行這兩個操作,那么你別無選擇 – 你的原始代碼是運行計算和順序寫入的唯一方法.