Python中yield簡單用法
你或許知道帶有yield的函數在Python中被稱之為generator,那何為 generator?
我們暫時拋開generator,先從一個常見編程題目開始,循序漸進了解yield的概念。
生成Fibonacci數列
Fibonacci數列是一個經典遞歸數列,第0個數為0,第1個數為1,除第0個和第1個數外,任意一個數都可由前兩個數相加得到。
Fibonacci數列(版本一)
一種Fibonacci數列簡單實現:
def fab(max):n, a, b = 0, 0, 1while n < max:print ba, b = b, a + bn = n + 1
fab(5)
運行結果:
1
1
2
3
5
結果沒有問題,但有經驗的開發者會指出,直接在fab函數中用print打印數字會導致該函數可復用性較差,因為fab函數返回 None,其他函數無法獲得該函數生成的數列。
要提高fab函數的可復用性,最好不要直接打印出數列,而是返回一個list。那么我們在版本一的基礎上進行修改。
Fibonacci數列(版本二)
def fab(max):n, a, b = 0, 0, 1L = []while n < max:L.append(b)a, b = b, a + bn = n + 1return Lfor n in fab(5):print n
運行結果:
1
1
2
3
5
改寫后的fab函數通過返回List能滿足復用性的要求,但是更有經驗的開發者會指出,該函數在運行中占用的內存會隨著參數max的增大而增大。
如果要控制內存占用,最好不要用List來保存中間結果,而是通過iterable對象來迭代。
例如,在 Python2.x中,代碼:
for i in range(1000): pass
上述代碼會導致生成一個1000個元素的List。
for i in xrange(1000): pass
上述代碼不會生成一個1000個元素的List,而是在每次迭代中返回下一個數值,內存空間占用很小。因為 xrange不返回List,而是返回一個 iterable 對象。
利用iterable我們可以把fab函數改寫為一個支持iterable的class,以下是第三個版本的fab:
Fibonacci數列(版本三)
class Fab(object):def __init__(self, max):self.max = maxself.n, self.a, self.b = 0, 0, 1def __iter__(self):return selfdef next(self):if self.n < self.max:r = self.bself.a, self.b = self.b, self.a + self.bself.n = self.n + 1return rraise StopIteration()for n in Fab(5):print n
Fab類通過next()不斷返回數列的下一個數,內存占用始終為常數:
1
1
2
3
5
然而,使用class改寫的這個版本,代碼遠遠沒有第一版的fab函數來得簡潔。如果我們想要保持第一版fab函數的簡潔性,同時又要獲得iterable的效果,yield閃亮登場:
Fibonacci數列(版本四)(yield)
def fab(max):n, a, b = 0, 0, 1while n < max:yield b # 使用 yield# print ba, b = b, a + bn = n + 1for n in fab(5):print n
第四個版本的fab和第一版相比,僅僅把print b
改為了yield b
,就在保持簡潔性的同時獲得了 iterable的效果。
調用第四版的fab和第二版的fab完全一致:
1
1
2
3
5
簡單地講,yield的作用就是把一個函數變成一個generator,帶有yield的函數不再是一個普通函數,Python解釋器會將其視為一個generator,調用 fab(5)不會執行fab函數,而是返回一個 iterable對象!
在for循環執行時,每次循環都會執行fab函數內部的代碼,執行到yield b
時,fab 函數就返回一個迭代值,下次迭代時,代碼從yield b
的下一條語句繼續執行,而函數的本地變量看起來和上次中斷執行前是完全一樣的,于是函數繼續執行,直到再次遇到 yield。
也可以手動調用fab(5)的next()方法(因為 fab(5) 是一個 generator 對象,該對象具有next()方法),這樣我們就可以更清楚地看到 fab 的執行流程:
>>>f = fab(5)
>>> f.next()
1
>>> f.next()
1
>>> f.next()
2
>>> f.next()
3
>>> f.next()
5
>>> f.next()
Traceback (most recent call last):File "<stdin>", line 1, in <module>
StopIteration
當函數執行結束時,generator自動拋出StopIteration異常,表示迭代完成。在for循環里,無需處理 StopIteration異常,循環會正常結束。
小結
一個帶有 yield 的函數就是一個 generator,它和普通函數不同,生成一個 generator 看起來像函數調用,但不會執行任何函數代碼,直到對其調用next()(在 for 循環中會自動調用 next())才開始執行。雖然執行流程仍按函數的流程執行,但每執行到一個 yield 語句就會中斷,并返回一個迭代值,下次執行時從yield的下一個語句繼續執行。看起來就好像一個函數在正常執行的過程中被 yield 中斷了數次,每次中斷都會通過yield返回當前的迭代值。
yield的好處是顯而易見的,把一個函數改寫為一個generator就獲得了迭代能力,比起用類的實例保存狀態來計算下一個next()的值,不僅代碼簡潔,而且執行流程異常清晰。
特殊的generator函數其他相關
如何判斷一個函數是否是一個特殊的generator函數?可以利用isgeneratorfunction判斷:
>>>import types
>>> isinstance(fab, types.GeneratorType)
False
>>> isinstance(fab(5), types.GeneratorType)
True
要注意區分 fab 和 fab(5),fab 是一個 generator function,而 fab(5) 是調用 fab 返回的一個 generator,好比類的定義和類的實例的區別:
>>>import types
>>> isinstance(fab, types.GeneratorType)
False
>>> isinstance(fab(5), types.GeneratorType)
True
fab 是無法迭代的,而 fab(5) 是可迭代的:
>>>from collections import Iterable
>>> isinstance(fab, Iterable)
False
>>> isinstance(fab(5), Iterable)
True
每次調用 fab 函數都會生成一個新的generator實例,各實例互不影響:
>>>f1 = fab(3)
>>> f2 = fab(5)
>>> print 'f1:', f1.next()
f1: 1
>>> print 'f2:', f2.next()
f2: 1
>>> print 'f1:', f1.next()
f1: 1
>>> print 'f2:', f2.next()
f2: 1
>>> print 'f1:', f1.next()
f1: 2
>>> print 'f2:', f2.next()
f2: 2
>>> print 'f2:', f2.next()
f2: 3
>>> print 'f2:', f2.next()
f2: 5
return的作用
在一個 generator function 中,如果沒有return,則默認執行至函數完畢,如果在執行過程中 return,則直接拋出StopIteration終止迭代。
另一個例子——用在文件讀取的yield
如果直接對文件對象調用read()方法,會導致不可預測的內存占用。好的方法是利用固定長度的緩沖區來不斷讀取文件內容。通過 yield,我們不再需要編寫讀文件的迭代類,就可以輕松實現文件讀取:
def read_file(fpath):BLOCK_SIZE = 1024with open(fpath, 'rb') as f:while True:block = f.read(BLOCK_SIZE)if block:yield blockelse:return
總結
以上僅僅簡單介紹了 yield 的基本概念和用法,yield 在 Python 3 中還有更強大的用法。
參考資料
Python yield 使用淺析