03_基礎篇-NumPy（下）：深度學習中的常用操作

通過上節課的學習，我們已經對NumPy數組有了一定的了解，正所謂實踐出真知，今天我們就以一個圖像分類的項目為例，看看NumPy的在實際項目中都有哪些重要功能。

我們先從一個常見的工作場景出發，互聯網教育推薦平臺，每天都有千萬量級的文字與圖片的廣告信息流入。為了給用戶提供更加精準的推薦，你的老板交代你設計一個模型，讓你把包含各個平臺Logo（比如包含極客時間Logo）的圖片自動找出來。

想要解決這個圖片分類問題，我們可以分解成數據加載、訓練與模型評估三部分（其實基本所有深度學習的項目都可以這樣劃分）。其中數據加載跟模型評估中，就經常會用到NumPy數組的相關操作。

那么我們先來看看數據的加載。

數據加載階段

這個階段我們要做的就是把訓練數據讀進來，然后給模型訓練使用。訓練數據不外乎這三種：圖片、文本以及類似二維表那樣的結構化數據。

不管使用PyTorch還是TensorFlow，或者是傳統機器學習的scikit-learn，我們在讀入數據這一塊，都會先把數據轉換成NumPy的數組，然后再進行后續的一系列操作。

對應到我們這個項目中，需要做的就是把訓練集中的圖片讀入進來。對于圖片的處理，我們一般會使用Pillow與OpenCV這兩個模塊。

雖然Pillow和OpenCV功能看上去都差不多，但還是有區別的。在PyTorch中，很多圖片的操作都是基于Pillow的，所以當使用PyTorch編程出現問題，或者要思考、解決一些圖片相關問題時，要從Pillow的角度出發。

下面我們先以單張圖片為例，將極客時間的那張Logo圖片分別用Pillow與OpenCV讀入，然后轉換為NumPy的數組。

Pillow方式

首先，我們需要使用Pillow中的下述代碼讀入上面的圖片。

from PIL import Image
im = Image.open('jk.jpg')
im.size
輸出: 318, 116

Pillow是以二進制形式讀入保存的，那怎么轉為NumPy格式呢？這個并不難，我們只需要利用NumPy的asarray方法，就可以將Pillow的數據轉換為NumPy的數組格式。

import numpy as npim_pillow = np.asarray(im)im_pillow.shape
輸出：(116, 318, 3)

OpenCV方式：

OpenCV的話，不再需要我們手動轉格式，它直接讀入圖片后，就是以NumPy數組的形式來保存數據的，如下面的代碼所示。

import cv2
im_cv2 = cv2.imread('jk.jpg')
type(im_cv2)
輸出：numpy.ndarrayim_cv2.shape
輸出：(116, 318, 3)

結合代碼輸出可以發現，我們讀入后的數組的最后一個維度是3，這是因為圖片的格式是RGB格式，表示有R、G、B三個通道。對于計算視覺任務來說，絕大多數處理的圖片都是RGB格式，如果不是RGB格式的話，要記得事先轉換成RGB格式。
這里有個地方需要你關注，Pillow讀入后通道的順序就是R、G、B，而OpenCV讀入后順序是B、G、R。

模型訓練時的通道順序需與預測的通道順序要保持一致。也就是說使用Pillow訓練，使用OpenCV讀入圖片直接進行預測的話，不會報錯，但結果會不正確，所以大家一定要注意。

接下來，我們就驗證一下Pillow與OpenCV讀入數據通道的順序是否如此，借此引出有關Numpy數組索引與切片、合并等常見問題。

怎么驗證這條結論呢？只需要將R、G、B三個通道的數據單獨提取出來，然后令另外兩個通道的數據全為0即可。

這里我給你說說為什么這樣做。RGB色彩模式是工業界的一種顏色標準，RGB分別代表紅、綠、藍三個通道的顏色，將這三種顏色混合在一起，就形成了我們眼睛所能看到的所有顏色。

RGB三個通道各有256個亮度，分別用數字0到255表示，數字越高代表亮度越強，數字0則是代表最弱的亮度。在我們的例子中，如果一個通道的數據再加另外兩個全0的通道（相當于關閉另外兩個通道），最終圖像以紅色格調（可以先看一下后文中的最終輸出結果）呈現出來的話，我們就可以認為該通道的數據是來源于R通道，G與B通道的證明同樣可以如此。

好，首先我們提取出RGB三個通道的數據，這可以從數組的索引與切片說起。

索引與切片

如果你了解Python，那么索引和切片的概念你應該不陌生。

就像圖書目錄里的索引，我們可以根據索引標注的頁碼快速找到需要的內容，而Python

里的索引也是同樣的功能，它用來定位數組中的某一個值。而切片意思就相當于提取圖書中從某一頁到某一頁的內容。

NumPy數組的索引方式與Python的列表的索引方式相同，也同樣支持切片索引。

這里需要你注意的是在NumPy數組中經常會出現用冒號來檢索數據的形式，如下所示：

im_pillow[:, :, 0]

這是什么意思呢？我們一起來看看。“：”代表全部選中的意思。我們的圖片讀入后，會以下圖的狀態保存在數組中。

上述代碼的含義就是取第三個維度索引為0的全部數據，換句話說就是，取圖片第0個通道的所有數據。

這樣的話，通過下面的代碼，我們就可以獲得每個通道的數據了。

im_pillow_c1 = im_pillow[:, :, 0]
im_pillow_c2 = im_pillow[:, :, 1]
im_pillow_c3 = im_pillow[:, :, 2]

獲得了每個通道的數據，接下來就需要生成一個全0數組，該數組要與im_pillow具有相同的寬高。

全0數組你還記得怎么生成嗎？可以自己先思考一下，生成的代碼如下所示。

zeros = np.zeros((im_pillow.shape[0], im_pillow.shape[1], 1))
zeros.shape
輸出：(116, 318, 1)

然后，我們只需要將全0的數組與im_pillow_c1、im_pillow_c2、im_pillow_c3進行拼接，就可以獲得對應通道的圖像數據了。

數組的拼接

剛才我們拿到了單獨通道的數據，接下來就需要把一個分離出來的數據跟一個全0數組拼接起來。如下圖所示，紅色的可以看作單通道數據，白色的為全0數據。

NumPy數組為我們提供了np.concatenate((a1, a2, …), axis=0)方法進行數組拼接。其中，a1，a2, …就是我們要合并的數組；axis是我們要沿著哪一個維度進行合并，默認是沿著0軸方向。

對于我們的問題，是要沿著2軸的方向進行合并，也是我們最終的目標是要獲得下面的三幅圖像。

那么，我們先將im_pillow_c1與全0數組進行合并，生成上圖中最左側的數組，有了圖像的數組才能獲得最終圖像。合并的代碼跟輸出結果如下：

im_pillow_c1_3ch = np.concatenate((im_pillow_c1, zeros, zeros),axis=2)
---------------------------------------------------------------------------
AxisError                                 Traceback (most recent call last)
<ipython-input-21-e3d53c33c94d> in <module>
----> 1 im_pillow_c1_3ch = np.concatenate((im_pillow_c1, zeros, zeros),axis=2)
<__array_function__ internals> in concatenate(*args, **kwargs)
AxisError: axis 2 is out of bounds for array of dimension 2

看到這里你可能很驚訝，竟然報錯了？錯誤的原因是在2維數組中，axis如果等于2的話會越界。

我們看看im_pillow_c1與zeros的形狀。

im_pillow_c1.shape
輸出：(116, 318)
zeros.shape
輸出：(116, 318, 1)

原來是我們要合并的兩個數組維度不一樣啊。那么如何統一維度呢？將im_pillow_c1變成(116, 318, 1)即可。

方法一：使用np.newaxis

我們可以使用np.newaxis讓數組增加一個維度，使用方式如下。

im_pillow_c1 = im_pillow_c1[:, :, np.newaxis]
im_pillow_c1.shape
輸出：(116, 318, 1)

運行上面的代碼，就可以將2個維度的數組轉換為3個維度的數組了。
這個操作在你看深度學習相關代碼的時候經常會看到，只不過PyTorch中的函數名unsqueeze(), TensorFlow的話是與NumPy有相同的名字，直接使用tf.newaxis就可以了。

然后我們再次將im_pillow_c1與zeros進行合并，這時就不會報錯了，代碼如下所示：

im_pillow_c1_3ch = np.concatenate((im_pillow_c1, zeros, zeros),axis=2)
im_pillow_c1_3ch.shape
輸出：(116, 318, 3)

方法二：直接賦值

增加維度的第二個方法就是直接賦值，其實我們完全可以生成一個與im_pillow形狀完全一樣的全0數組，然后將每個通道的數值賦值為im_pillow_c1、im_pillow_c2與im_pillow_c3就可以了。我們用這種方式生成上圖中的中間與右邊圖像的數組。

im_pillow_c2_3ch = np.zeros(im_pillow.shape)
im_pillow_c2_3ch[:,:,1] = im_pillow_c2im_pillow_c3_3ch = np.zeros(im_pillow.shape)
im_pillow_c3_3ch[:,:,2] = im_pillow_c3

這樣的話，我們就可以將三個通道的RGB圖片打印出來了。
關于繪圖，你可以使用matplotlib進行繪圖，它是NumPy的繪圖庫。如果你需要繪圖，可以在這個網站上找到各種各樣的例子，然后根據它提供的代碼進行修改，具體如何繪圖我就不展開了。

說回我們的通道順序驗證問題，完成前面的操作后，你可以用下面的代碼將原圖、R通道、G通道與B通道的4幅圖打印出來，你看是不是RGB順序的呢？

from matplotlib import pyplot as plt
plt.subplot(2, 2, 1)
plt.title('Origin Image')
plt.imshow(im_pillow)
plt.axis('off')
plt.subplot(2, 2, 2)
plt.title('Red Channel')
plt.imshow(im_pillow_c1_3ch.astype(np.uint8))
plt.axis('off')
plt.subplot(2, 2, 3)
plt.title('Green Channel')
plt.imshow(im_pillow_c2_3ch.astype(np.uint8))
plt.axis('off')
plt.subplot(2, 2, 4)
plt.title('Blue Channel')
plt.imshow(im_pillow_c3_3ch.astype(np.uint8))
plt.axis('off')
plt.savefig('./rgb_pillow.png', dpi=150)

深拷貝（副本）與淺拷貝（視圖）

剛才我們通過獲取圖片通道數據的練習，不過操作確實比較繁瑣，介紹這些方法也主要是為了讓你掌握切片索引和數組拼接的知識點。

其實我們還有一種更加簡單的方式獲得三個通道的BGR數據，只需要將圖片讀入后，直接將其中的兩個通道賦值為0即可。代碼如下所示：

from PIL import Image
import numpy as npim = Image.open('jk.jpg')
im_pillow = np.asarray(im)
im_pillow[:,:,1:]=0
輸出：
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-146-789bda58f667> in <module>4 im = Image.open('jk.jpg')5 im_pillow = np.asarray(im)
----> 6 im_pillow[:,:,1:-1]=0
ValueError: assignment destination is read-only

運行剛才的代碼，報錯提示說數組是只讀數組，沒辦法進行修改。那怎么辦呢？我們可以使用copy來復制一個數組。
說到copy()的話，就要說到淺拷貝與深拷貝的概念，[上節課]我們說到創建數組時就提過，np.array()屬于深拷貝，np.asarray()則是淺拷貝。

簡單來說，淺拷貝或稱視圖，指的是與原數組共享數據的數組，請注意，只是數據，沒有說共享形狀。視圖我們通常使用view()來創建。常見的切片操作也會返回對原數組的淺拷貝。

請看下面的代碼，數組a與b的數據是相同的，形狀確實不同，但是修改b中的數據后，a的數據同樣會發生變化。

a = np.arange(6)
print(a.shape)
輸出：(6,)
print(a)
輸出：[0 1 2 3 4 5]b = a.view()
print(b.shape)
輸出：(6,)
b.shape = 2, 3
print(b)
輸出：[[0 1 2][3 4 5]]
b[0,0] = 111
print(a)
輸出：[111   1   2   3   4   5]
print(b)
輸出：[[111   1   2][  3   4   5]]

而深拷貝又稱副本，也就是完全復制原有數組，創建一個新的數組，修改新的數組不會影響原數組。深拷貝使用copy()方法。

所以，我們將剛才報錯的程序修改成下面的形式就可以了。

im_pillow = np.array(im)
im_pillow[:,:,1:]=0

可別小看深拷貝和淺拷貝的區別。這里講一個我以前遇到的坑吧，我曾經要開發一個部署在手機端的人像分割模型。

為了提高模型的分割效果，我考慮了新的實驗方法——將前一幀的數據也作為當前幀的輸入進行考慮，訓練階段沒有發生問題，但是在調試階段發現模型的效果非常差。

后來經過研究，我才發現了問題的原因。原因是我為了可視化分割效果，我將前一幀的數據進行變換打印出來。同時，我錯誤的采用了淺拷貝的方式，將前一幀的數據傳入當前幀，所以說傳入到當前幀的數據是經過變化的，而不是原始的輸出。

這時再傳入當前幀，自然無法得到正確結果。當時因為這個坑，差點產生要放棄這個實驗的想法，后面改成深拷貝才解決了問題。

好了，講到這里，你是否可以用上述的方法對OpenCV讀取圖片讀入通道順序進行一下驗證呢？

模型評估

在模型評估時，我們一般會將模型的輸出轉換為對應的標簽。

假設現在我們的問題是將圖片分為2個類別，包含極客時間的圖片與不包含的圖片。模型會輸出形狀為(2, )的數組，我們把它叫做probs，它存儲了兩個概率，我們假設索引為0的概率是包含極客時間圖片的概率，另一個是其它圖片的概率，它們兩個概率的和為1。如果極客時間對應的概率大，則可以推斷該圖片為包含極客時間的圖片，否則為其他圖片。

簡單的做法就是判斷probs[0]是否大于0.5，如果大于0.5，則可以認為圖片是我們要尋找的。

這種方法固然可以，但是如果我們需要判斷圖片的類別有很多很多種呢？

例如，有1000個類別的ImageNet。也許你會想到遍歷這個數組，求出最大值對應的索引。

那如果老板讓你找出概率最大的前5個類別呢？有沒有更簡單點的方法？我們繼續往下看。

Argmax Vs Argmin：求最大/最小值對應的索引

NumPy的argmax(a, axis=None)方法可以為我們解決求最大值索引的問題。如果不指定axis，則將數組默認為1維。

對于我們的問題，使用下述代碼即可獲得擁有最大概率值的圖片。

np.argmax(probs)

Argmin的用法跟Argmax差不多，不過它的作用是獲得具有最小值的索引。

Argsort：數組排序后返回原數組的索引

那現在我們再把問題升級一下，比如需要你將圖片分成10個類別，要找到具有最大概率的前三個類別。

模型輸出的概率如下：

probs = np.array([0.075, 0.15, 0.075, 0.15, 0.0, 0.05, 0.05, 0.2, 0.25])

這時，我們就可以借助argsort(a, axis=-1, kind=None)函數來解決該問題。np.argsort的作用是對原數組進行從小到大的排序，返回的是對應元素在原數組中的索引。
np.argsort包括后面這幾個關鍵參數：

a是要進行排序的原數組；
axis是要沿著哪一個軸進行排序，默認是-1，也就是最后一個軸；
kind是采用什么算法進行排序，默認是快速排序，還有其他排序算法，具體你可以看看數據結構的排序算法。

我們還是結合例子來理解，你可以看看下面的代碼，它描述了我們使用argsort對probs進行排序，然后返回對應坐標的全過程。

probs_idx_sort = np.argsort(-probs)  #注意，加了負號，是按降序排序
probs_idx_sort
輸出：array([8, 7, 1, 3, 0, 2, 5, 6, 4])
#概率最大的前三個值的坐標
probs_idx_sort[:3]
輸出：array([8, 7, 1])

小結

恭喜你，完成了這一節課的學習。這一節介紹了一些常用且重要的功能。幾乎在所有深度學習相關的項目中，你都會常常用到這些函數，當你閱讀別人的代碼的時候也會經常看到。

讓我們一起來復習一下今天學到的這些函數，我畫了一張表格，給你總結了它們各自的關鍵功能和使用要點。

我覺得NumPy最難懂的還是上節課的軸，如果你把軸的概念理解清楚之后，理解今天的內容會更加輕松。理解了原理之后，關鍵還是動手練習。

每課一練

給定數組scores，形狀為（256，256，2），scores[: , :, 0] 與scores[:, :, 1]對應位置元素的和為1，現在我們要根據scores生產數組mask，要求scores通道0的值如果大于通道1的值，則mask對應的位置為0，否則為1。

scores如下，你可以試試用代碼實現：

scores = np.random.rand(256, 256, 2)
scores[:,:,1] = 1 - scores[:,:,0]

歡迎你在留言區記錄你的疑問或者收獲，也推薦你把這節課分享給你的朋友。