Python 函數式編程
轉自:https://www.liaoxuefeng.com/wiki/1016959663602400/1017328525009056,推薦去該鏈接讀原文,有習題和熱烈的評論區交流。
函數式編程
函數是Python內建支持的一種封裝,我們通過把大段代碼拆成函數,通過一層一層的函數調用,就可以把復雜任務分解成簡單的任務,這種分解可以稱之為面向過程的程序設計。函數就是面向過程的程序設計的基本單元。
而函數式編程(請注意多了一個“式”字)——Functional Programming,雖然也可以歸結到面向過程的程序設計,但其思想更接近數學計算。
我們首先要搞明白計算機(Computer)和計算(Compute)的概念。
在計算機的層次上,CPU執行的是加減乘除的指令代碼,以及各種條件判斷和跳轉指令,所以,匯編語言是最貼近計算機的語言。
而計算則指數學意義上的計算,越是抽象的計算,離計算機硬件越遠。
對應到編程語言,就是越低級的語言,越貼近計算機,抽象程度低,執行效率高,比如C語言;越高級的語言,越貼近計算,抽象程度高,執行效率低,比如Lisp語言。
函數式編程就是一種抽象程度很高的編程范式,純粹的函數式編程語言編寫的函數沒有變量,因此,任意一個函數,只要輸入是確定的,輸出就是確定的,這種純函數我們稱之為沒有副作用。而允許使用變量的程序設計語言,由于函數內部的變量狀態不確定,同樣的輸入,可能得到不同的輸出,因此,這種函數是有副作用的。
函數式編程的一個特點就是,允許把函數本身作為參數傳入另一個函數,還允許返回一個函數!
Python對函數式編程提供部分支持。由于Python允許使用變量,因此,Python不是純函數式編程語言。
高階函數
map/reduce
Python內建了map()
和reduce()
函數。
如果你讀過Google的那篇大名鼎鼎的論文 “MapReduce: Simplified Data Processing on Large Clusters”,你就能大概明白map/reduce的概念。
map
我們先看map。map()
函數接收兩個參數,一個是函數,一個是Iterable
,map
將傳入的函數依次作用到序列的每個元素,并把結果作為新的Iterator
返回。
舉例說明,比如我們有一個函數f(x)=x2,要把這個函數作用在一個list [1, 2, 3, 4, 5, 6, 7, 8, 9]
上,就可以用map()
實現如下:
f(x) = x * x││┌───┬───┬───┬───┼───┬───┬───┬───┐│ │ │ │ │ │ │ │ │▼ ▼ ▼ ▼ ▼ ▼ ▼ ▼ ▼[ 1 2 3 4 5 6 7 8 9 ]│ │ │ │ │ │ │ │ ││ │ │ │ │ │ │ │ │▼ ▼ ▼ ▼ ▼ ▼ ▼ ▼ ▼[ 1 4 9 16 25 36 49 64 81 ]
現在,我們用Python代碼實現:
>>> def f(x):
... return x * x
...
>>> r = map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> list(r)
[1, 4, 9, 16, 25, 36, 49, 64, 81]
map()
傳入的第一個參數是f
,即函數對象本身。由于結果r
是一個Iterator
,Iterator
是惰性序列,因此通過list()
函數讓它把整個序列都計算出來并返回一個list。
你可能會想,不需要map()
函數,寫一個循環,也可以計算出結果:
L = []
for n in [1, 2, 3, 4, 5, 6, 7, 8, 9]:L.append(f(n))
print(L)
的確可以,但是,從上面的循環代碼,能一眼看明白“把f(x)作用在list的每一個元素并把結果生成一個新的list”嗎?
所以,map()
作為高階函數,事實上它把運算規則抽象了,因此,我們不但可以計算簡單的f(x)=x2,還可以計算任意復雜的函數,比如,把這個list所有數字轉為字符串:
>>> list(map(str, [1, 2, 3, 4, 5, 6, 7, 8, 9]))
['1', '2', '3', '4', '5', '6', '7', '8', '9']
只需要一行代碼。
reduce
再看reduce
的用法。reduce
把一個函數作用在一個序列[x1, x2, x3, ...]
上,這個函數必須接收兩個參數,reduce
把結果繼續和序列的下一個元素做累積計算,其效果就是:
reduce(f, [x1, x2, x3, x4]) = f(f(f(x1, x2), x3), x4)
比方說對一個序列求和,就可以用reduce
實現:
>>> from functools import reduce
>>> def add(x, y):
... return x + y
...
>>> reduce(add, [1, 3, 5, 7, 9])
25
當然求和運算可以直接用Python內建函數sum()
,沒必要動用reduce
。
但是如果要把序列[1, 3, 5, 7, 9]
變換成整數13579
,reduce
就可以派上用場:
>>> from functools import reduce
>>> def fn(x, y):
... return x * 10 + y
...
>>> reduce(fn, [1, 3, 5, 7, 9])
13579
這個例子本身沒多大用處,但是,如果考慮到字符串str
也是一個序列,對上面的例子稍加改動,配合map()
,我們就可以寫出把str
轉換為int
的函數:
>>> from functools import reduce
>>> def fn(x, y):
... return x * 10 + y
...
>>> def char2num(s):
... digits = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}
... return digits[s]
...
>>> reduce(fn, map(char2num, '13579'))
13579
整理成一個str2int
的函數就是:
from functools import reduceDIGITS = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}def str2int(s):def fn(x, y):return x * 10 + ydef char2num(s):return DIGITS[s]return reduce(fn, map(char2num, s))
還可以用lambda函數進一步簡化成:
from functools import reduceDIGITS = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}def char2num(s):return DIGITS[s]def str2int(s):return reduce(lambda x, y: x * 10 + y, map(char2num, s))
也就是說,假設Python沒有提供int()
函數,你完全可以自己寫一個把字符串轉化為整數的函數,而且只需要幾行代碼!
lambda函數的用法在后面介紹。
filter
Python內建的filter()
函數用于過濾序列。
和map()
類似,filter()
也接收一個函數和一個序列。和map()
不同的是,filter()
把傳入的函數依次作用于每個元素,然后根據返回值是True
還是False
決定保留還是丟棄該元素。
例如,在一個list中,刪掉偶數,只保留奇數,可以這么寫:
def is_odd(n):return n % 2 == 1list(filter(is_odd, [1, 2, 4, 5, 6, 9, 10, 15]))
# 結果: [1, 5, 9, 15]
把一個序列中的空字符串刪掉,可以這么寫:
def not_empty(s):return s and s.strip()list(filter(not_empty, ['A', '', 'B', None, 'C', ' ']))
# 結果: ['A', 'B', 'C']
可見用filter()
這個高階函數,關鍵在于正確實現一個“篩選”函數。
注意到filter()
函數返回的是一個Iterator
,也就是一個惰性序列,所以要強迫filter()
完成計算結果,需要用list()
函數獲得所有結果并返回list。
用filter求素數
計算素數的一個方法是埃氏篩法,它的算法理解起來非常簡單:
首先,列出從2
開始的所有自然數,構造一個序列:
2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, …
取序列的第一個數2
,它一定是素數,然后用2
把序列的2
的倍數篩掉:
3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, …
取新序列的第一個數3
,它一定是素數,然后用3
把序列的3
的倍數篩掉:
5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, …
取新序列的第一個數5
,然后用5
把序列的5
的倍數篩掉:
7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, …
不斷篩下去,就可以得到所有的素數。
用Python來實現這個算法,可以先構造一個從3
開始的奇數序列:
def _odd_iter():n = 1while True:n = n + 2yield n
注意這是一個生成器,并且是一個無限序列。
然后定義一個篩選函數:
def _not_divisible(n):return lambda x: x % n > 0
最后,定義一個生成器,不斷返回下一個素數:
def primes():yield 2it = _odd_iter() # 初始序列while True:n = next(it) # 返回序列的第一個數yield nit = filter(_not_divisible(n), it) # 構造新序列
這個生成器先返回第一個素數2
,然后,利用filter()
不斷產生篩選后的新的序列。
由于primes()
也是一個無限序列,所以調用時需要設置一個退出循環的條件:
# 打印1000以內的素數:
for n in primes():if n < 1000:print(n)else:break
注意到Iterator
是惰性計算的序列,所以我們可以用Python表示“全體自然數”,“全體素數”這樣的序列,而代碼非常簡潔。
小結:filter()
的作用是從一個序列中篩出符合條件的元素。由于filter()
使用了惰性計算,所以只有在取filter()
結果的時候,才會真正篩選并每次返回下一個篩出的元素。
sorted
排序也是在程序中經常用到的算法。無論使用冒泡排序還是快速排序,排序的核心是比較兩個元素的大小。如果是數字,我們可以直接比較,但如果是字符串或者兩個dict呢?直接比較數學上的大小是沒有意義的,因此,比較的過程必須通過函數抽象出來。
Python內置的sorted()
函數就可以對list進行排序:
>>> sorted([36, 5, -12, 9, -21])
[-21, -12, 5, 9, 36]
此外,sorted()
函數也是一個高階函數,它還可以接收一個key
函數來實現自定義的排序,例如按絕對值大小排序:
>>> sorted([36, 5, -12, 9, -21], key=abs)
[5, 9, -12, -21, 36]
key指定的函數將作用于list的每一個元素上,并根據key函數返回的結果進行排序。對比原始的list和經過key=abs
處理過的list:
list = [36, 5, -12, 9, -21]keys = [36, 5, 12, 9, 21]
然后sorted()
函數按照keys進行排序,并按照對應關系返回list相應的元素:
keys排序結果 => [5, 9, 12, 21, 36]| | | | |
最終結果 => [5, 9, -12, -21, 36]
我們再看一個字符串排序的例子:
>>> sorted(['bob', 'about', 'Zoo', 'Credit'])
['Credit', 'Zoo', 'about', 'bob']
默認情況下,對字符串排序,是按照ASCII的大小比較的,由于'Z' < 'a'
,結果,大寫字母Z
會排在小寫字母a
的前面。
現在,我們提出排序應該忽略大小寫,按照字母序排序。要實現這個算法,不必對現有代碼大加改動,只要我們能用一個key函數把字符串映射為忽略大小寫排序即可。忽略大小寫來比較兩個字符串,實際上就是先把字符串都變成大寫(或者都變成小寫),再比較。
這樣,我們給sorted
傳入key函數,即可實現忽略大小寫的排序:
>>> sorted(['bob', 'about', 'Zoo', 'Credit'], key=str.lower)
['about', 'bob', 'Credit', 'Zoo']
要進行反向排序,不必改動key函數,可以傳入第三個參數reverse=True
:
>>> sorted(['bob', 'about', 'Zoo', 'Credit'], key=str.lower, reverse=True)
['Zoo', 'Credit', 'bob', 'about']
從上述例子可以看出,高階函數的抽象能力是非常強大的,而且,核心代碼可以保持得非常簡潔。
小結:sorted()
也是一個高階函數。用sorted()
排序的關鍵在于實現一個映射函數。
返回函數
高階函數除了可以接受函數作為參數外,還可以把函數作為結果值返回。
我們來實現一個可變參數的求和。通常情況下,求和的函數是這樣定義的:
def calc_sum(*args):ax = 0for n in args:ax = ax + nreturn ax
但是,如果不需要立刻求和,而是在后面的代碼中,根據需要再計算怎么辦?可以不返回求和的結果,而是返回求和的函數:
def lazy_sum(*args):def sum():ax = 0for n in args:ax = ax + nreturn axreturn sum
當我們調用lazy_sum()
時,返回的并不是求和結果,而是求和函數:
>>> f = lazy_sum(1, 3, 5, 7, 9)
>>> f
<function lazy_sum.<locals>.sum at 0x101c6ed90>
調用函數f
時,才真正計算求和的結果:
>>> f()
25
在這個例子中,我們在函數lazy_sum
中又定義了函數sum
,并且,內部函數sum
可以引用外部函數lazy_sum
的參數和局部變量,當lazy_sum
返回函數sum
時,相關參數和變量都保存在返回的函數中,這種稱為“閉包(Closure)”的程序結構擁有極大的威力。
請再注意一點,當我們調用lazy_sum()
時,每次調用都會返回一個新的函數,即使傳入相同的參數:
>>> f1 = lazy_sum(1, 3, 5, 7, 9)
>>> f2 = lazy_sum(1, 3, 5, 7, 9)
>>> f1==f2
False
f1()
和f2()
的調用結果互不影響。
閉包
注意到返回的函數在其定義內部引用了局部變量args
,所以,當一個函數返回了一個函數后,其內部的局部變量還被新函數引用,所以,閉包用起來簡單,實現起來可不容易。
另一個需要注意的問題是,返回的函數并沒有立刻執行,而是直到調用了f()
才執行。我們來看一個例子:
def count():fs = []for i in range(1, 4):def f():return i*ifs.append(f)return fsf1, f2, f3 = count()
在上面的例子中,每次循環,都創建了一個新的函數,然后,把創建的3個函數都返回了。
你可能認為調用f1()
,f2()
和f3()
結果應該是1
,4
,9
,但實際結果是:
>>> f1()
9
>>> f2()
9
>>> f3()
9
全部都是9
!原因就在于返回的函數引用了變量i
,但它并非立刻執行。等到3個函數都返回時,它們所引用的變量i
已經變成了3
,因此最終結果為9
。
返回閉包時牢記一點:返回函數不要引用任何循環變量,或者后續會發生變化的變量。
如果一定要引用循環變量怎么辦?方法是再創建一個函數,用該函數的參數綁定循環變量當前的值,無論該循環變量后續如何更改,已綁定到函數參數的值不變:
def count():def f(j):def g():return j*jreturn gfs = []for i in range(1, 4):fs.append(f(i)) # f(i)立刻被執行,因此i的當前值被傳入f()return fs
再看看結果:
>>> f1, f2, f3 = count()
>>> f1()
1
>>> f2()
4
>>> f3()
9
缺點是代碼較長,可利用lambda函數縮短代碼。
nonlocal
使用閉包,就是內層函數引用了外層函數的局部變量。如果只是讀外層變量的值,我們會發現返回的閉包函數調用一切正常:
def inc():x = 0def fn():# 僅讀取x的值:return x + 1return fnf = inc()
print(f()) # 1
print(f()) # 1
但是,如果對外層變量賦值,由于Python解釋器會把x
當作函數fn()
的局部變量,它會報錯:
def inc():x = 0def fn():# nonlocal xx = x + 1return xreturn fnf = inc()
print(f()) # 1
print(f()) # 2
運行報錯:
Traceback (most recent call last):File "/app/main.py", line 11, in <module>print(f()) # 1File "/app/main.py", line 6, in fnx = x + 1
UnboundLocalError: local variable 'x' referenced before assignment
原因是x
作為局部變量并沒有初始化,直接計算x+1
是不行的。但我們其實是想引用inc()
函數內部的x
,所以需要在fn()
函數內部加一個nonlocal x
的聲明。加上這個聲明后,解釋器把fn()
的x
看作外層函數的局部變量,它已經被初始化了,可以正確計算x+1
。
使用閉包時,對外層變量賦值前,需要先使用nonlocal聲明該變量不是當前函數的局部變量。
小結:一個函數可以返回一個計算結果,也可以返回一個函數。返回一個函數時,牢記該函數并未執行,返回函數中不要引用任何可能會變化的變量。
匿名函數
當我們在傳入函數時,有些時候,不需要顯式地定義函數,直接傳入匿名函數更方便。
在Python中,對匿名函數提供了有限支持。還是以map()
函數為例,計算f(x)=x2時,除了定義一個f(x)
的函數外,還可以直接傳入匿名函數:
>>> list(map(lambda x: x * x, [1, 2, 3, 4, 5, 6, 7, 8, 9]))
[1, 4, 9, 16, 25, 36, 49, 64, 81]
通過對比可以看出,匿名函數lambda x: x * x
實際上就是:
def f(x):return x * x
關鍵字lambda
表示匿名函數,冒號前面的x
表示函數參數,后面是返回值。
匿名函數有個限制,就是只能有一個表達式,不用寫return
,返回值就是該表達式的結果。
用匿名函數有個好處,因為函數沒有名字,不必擔心函數名沖突。此外,匿名函數也是一個函數對象,也可以把匿名函數賦值給一個變量,再利用變量來調用該函數:
>>> f = lambda x: x * x
>>> f
<function <lambda> at 0x101c6ef28>
>>> f(5)
25
同樣,也可以把匿名函數作為返回值返回,比如:
def build(x, y):return lambda: x * x + y * y
小結:Python對匿名函數的支持有限,只有一些簡單的情況下可以使用匿名函數。
裝飾器
由于函數也是一個對象,而且函數對象可以被賦值給變量,所以,通過變量也能調用該函數。
>>> def now():
... print('2015-3-25')
...
>>> f = now
>>> f()
2015-3-25
函數對象有一個__name__
屬性,可以拿到函數的名字:
>>> now.__name__
'now'
>>> f.__name__
'now'
現在,假設我們要增強now()
函數的功能,比如,在函數調用前后自動打印日志,但又不希望修改now()
函數的定義,這種在代碼運行期間動態增加功能的方式,稱之為“裝飾器”(Decorator)。
本質上,decorator就是一個返回函數的高階函數。所以,我們要定義一個能打印日志的decorator,可以定義如下:
def log(func):def wrapper(*args, **kw):print('call %s():' % func.__name__)return func(*args, **kw)return wrapper
觀察上面的log
,因為它是一個decorator,所以接受一個函數作為參數,并返回一個函數。我們要借助Python的@語法,把decorator置于函數的定義處:
@log
def now():print('2015-3-25')
調用now()
函數,不僅會運行now()
函數本身,還會在運行now()
函數前打印一行日志:
>>> now()
call now():
2015-3-25
把@log
放到now()
函數的定義處,相當于執行了語句:
now = log(now)
由于log()
是一個decorator,返回一個函數,所以,原來的now()
函數仍然存在,只是現在同名的now
變量指向了新的函數,于是調用now()
將執行新函數,即在log()
函數中返回的wrapper()
函數。
wrapper()
函數的參數定義是(*args, **kw)
,因此,wrapper()
函數可以接受任意參數的調用。在wrapper()
函數內,首先打印日志,再緊接著調用原始函數。
如果decorator本身需要傳入參數,那就需要編寫一個返回decorator的高階函數,寫出來會更復雜。比如,要自定義log的文本:
def log(text):def decorator(func):def wrapper(*args, **kw):print('%s %s():' % (text, func.__name__))return func(*args, **kw)return wrapperreturn decorator
這個3層嵌套的decorator用法如下:
@log('execute')
def now():print('2015-3-25')
執行結果如下:
>>> now()
execute now():
2015-3-25
和兩層嵌套的decorator相比,3層嵌套的效果是這樣的:
>>> now = log('execute')(now)
我們來剖析上面的語句,首先執行log('execute')
,返回的是decorator
函數,再調用返回的函數,參數是now
函數,返回值最終是wrapper
函數。
以上兩種decorator的定義都沒有問題,但還差最后一步。因為我們講了函數也是對象,它有__name__
等屬性,但你去看經過decorator裝飾之后的函數,它們的__name__
已經從原來的'now'
變成了'wrapper'
:
>>> now.__name__
'wrapper'
因為返回的那個wrapper()
函數名字就是'wrapper'
,所以,需要把原始函數的__name__
等屬性復制到wrapper()
函數中,否則,有些依賴函數簽名的代碼執行就會出錯。
不需要編寫wrapper.__name__ = func.__name__
這樣的代碼,Python內置的functools.wraps
就是干這個事的,所以,一個完整的decorator的寫法如下:
import functoolsdef log(func):@functools.wraps(func)def wrapper(*args, **kw):print('call %s():' % func.__name__)return func(*args, **kw)return wrapper
或者針對帶參數的decorator:
import functoolsdef log(text):def decorator(func):@functools.wraps(func)def wrapper(*args, **kw):print('%s %s():' % (text, func.__name__))return func(*args, **kw)return wrapperreturn decorator
import functools
是導入functools
模塊。模塊的概念稍候講解。現在,只需記住在定義wrapper()
的前面加上@functools.wraps(func)
即可。
小結:在面向對象(OOP)的設計模式中,decorator被稱為裝飾模式。OOP的裝飾模式需要通過繼承和組合來實現,而Python除了能支持OOP的decorator外,直接從語法層次支持decorator。Python的decorator可以用函數實現,也可以用類實現。
decorator可以增強函數的功能,定義起來雖然有點復雜,但使用起來非常靈活和方便。
偏函數
Python的functools
模塊提供了很多有用的功能,其中一個就是偏函數(Partial function)。要注意,這里的偏函數和數學意義上的偏函數不一樣。
在介紹函數參數的時候,我們講到,通過設定參數的默認值,可以降低函數調用的難度。而偏函數也可以做到這一點。舉例如下:
int()
函數可以把字符串轉換為整數,當僅傳入字符串時,int()
函數默認按十進制轉換:
>>> int('12345')
12345
但int()
函數還提供額外的base
參數,默認值為10
。如果傳入base
參數,就可以做N進制的轉換:
>>> int('12345', base=8)
5349
>>> int('12345', 16)
74565
假設要轉換大量的二進制字符串,每次都傳入int(x, base=2)
非常麻煩,于是,我們想到,可以定義一個int2()
的函數,默認把base=2
傳進去:
def int2(x, base=2):return int(x, base)
這樣,我們轉換二進制就非常方便了:
>>> int2('1000000')
64
>>> int2('1010101')
85
functools.partial
就是幫助我們創建一個偏函數的,不需要我們自己定義int2()
,可以直接使用下面的代碼創建一個新的函數int2
:
>>> import functools
>>> int2 = functools.partial(int, base=2)
>>> int2('1000000')
64
>>> int2('1010101')
85
所以,簡單總結functools.partial
的作用就是,把一個函數的某些參數給固定住(也就是設置默認值),返回一個新的函數,調用這個新函數會更簡單。
注意到上面的新的int2
函數,僅僅是把base
參數重新設定默認值為2
,但也可以在函數調用時傳入其他值:
>>> int2('1000000', base=10)
1000000
最后,創建偏函數時,實際上可以接收函數對象、*args
和**kw
這3個參數,當傳入:
int2 = functools.partial(int, base=2)
實際上固定了int()函數的關鍵字參數base
,也就是:
int2('10010')
相當于:
kw = { 'base': 2 }
int('10010', **kw)
當傳入:
max2 = functools.partial(max, 10)
實際上會把10
作為*args
的一部分自動加到左邊,也就是:
max2(5, 6, 7)
相當于:
args = (10, 5, 6, 7)
max(*args)
結果為10
。
小結:當函數的參數個數太多,需要簡化時,使用functools.partial
可以創建一個新的函數,這個新函數可以固定住原函數的部分參數,從而在調用時更簡單。