簡介
在介紹如何最簡單地利用 python 實現并行前,我們先來看一個簡單的代碼。
words = ['apple', 'bananan', 'cake', 'dumpling']
for word in words:
print word
上面的例子中,我們用一個 for 循環打印出 words 列表中的每個單詞。問題來了,這里我們打印完一個單詞才能接著打印另一個單詞,能不能同時打印呢?好比如在銀行的營業廳排隊,如果只開一個窗口辦理業務,你需要等前面一個人辦完,才輪到你,如果能開多個窗口,顯然會快很多。
我們將上面的代碼抽象成下面的模式:
items = list()
for item in items:
process(item)
其中,items 是一個列表,process(arg) 是一個函數,可以有返回值也可以沒有。我們希望可以將這種模式改成并行處理的方式,比如可以引入多線程等處理方式,但是這些處理方式往往會讓代碼變得更加復雜。那么有什么簡單的處理方式嗎?
并行化
我們將上面的串行模式進行簡單地改造,使之可以并行處理:
from multiprocessing.dummy import Pool as ThreadPool
items = list()
pool = ThreadPool()
pool.map(process, items)
pool.close()
pool.join()
下面我們進行測試:
# -*- coding: utf-8 -*-
import time
from multiprocessing.dummy import Pool as ThreadPool
def get_logger(name):
logger = logging.getLogger(name)
logger.setLevel(logging.DEBUG)
stream_handler = logging.StreamHandler()
stream_handler.setLevel(logging.DEBUG)
formatter = logging.Formatter(
'%(asctime)s - %(name)s [%(levelname)s] %(message)s')
stream_handler.setFormatter(formatter)
logger.addHandler(stream_handler)
return logger
def process(item):
log = _get_logger(item)
log.info("item: %s" % item)
time.sleep(5)
items = ['apple', 'bananan', 'cake', 'dumpling']
pool = ThreadPool()
pool.map(process, items)
pool.close()
pool.join()
輸出結果:
2016-06-07 11:23:57,530 - apple [INFO] word: apple
2016-06-07 11:23:57,530 - bananan [INFO] word: bananan
2016-06-07 11:23:57,530 - cake [INFO] word: cake
2016-06-07 11:23:57,531 - dumpling [INFO] word: dumpling
從上面顯示的時間可以看到,我們已經由原來的串行打印變成并行打印了。
另外,上面的處理函數 process 是沒有返回值的。假設 process 函數的返回值是 result,那么 results = pool.map(process, items) 的返回值是一個列表,每個元素對應著處理每個 item 的結果。
因此,
results = list()
for item in item_list:
result = process(item)
results.append(result)
return results
上面的串行處理可以改成下面的并行處理:
from multiprocessing.dummy import Pool as ThreadPool
pool = ThreadPool()
results = pool.map(process, item_list)
pool.close()
pool.join()
本文作者:FunHacks