計算機系統---GPU

硬件架構

核心處理器：
- 流處理器（SP）：是GPU進行計算的核心單元，數量眾多。例如，NVIDIA的高端GPU可能擁有數千個流處理器。它們可以并行執行大量的計算任務，如在圖形渲染中對每個頂點或像素進行獨立的運算。不同架構的流處理器在功能和性能上有所差異，新型架構的流處理器往往具有更高的計算效率和更低的能耗。
- 張量核心（Tensor Core）：這是NVIDIA在一些高端GPU中引入的特殊處理單元，主要用于加速深度學習中的張量運算。它能夠高效地處理矩陣乘法和累加等操作，大大提高了深度學習模型的訓練和推理速度。例如，在進行圖像識別任務時，張量核心可以快速處理大量的圖像數據，加速模型對圖像特征的提取和分類。
- 計算核心集群（Compute Cluster）：多個流處理器會組成計算核心集群，協同工作以提高計算效率。這些集群可以根據任務的需求動態分配資源，例如在處理復雜的3D場景時，不同的計算核心集群可以分別負責處理不同區域的圖形計算任務。
顯存：
- 容量：顯存容量決定了GPU能夠存儲多少圖形數據。從早期的幾兆字節發展到現在的幾十甚至上百GB。例如，一些專業圖形卡和用于深度學習的GPU配備了大容量的顯存，以支持處理高分辨率的紋理、大型的3D模型以及深度學習中的大規模數據集。
- 位寬：顯存位寬表示顯存與GPU之間數據傳輸通道的寬度。常見的位寬有128位、256位、512位等。位寬越大，數據傳輸速度越快，例如，512位位寬的顯存能夠在單位時間內傳輸更多的數據，從而支持更高的分辨率和更復雜的圖形處理。
- 類型：目前常見的顯存類型有GDDR（Graphics Double Data Rate）系列，如GDDR5、GDDR6等。GDDR6相比GDDR5具有更高的頻率和更低的延遲，能夠提供更快的數據傳輸速度，從而提升GPU的整體性能。
紋理單元：
- 紋理采樣：負責從紋理內存中讀取紋理數據，并根據圖形渲染的需求進行采樣。例如，在渲染一個帶有木紋紋理的桌子時，紋理單元會根據桌子表面每個點的坐標，從預先存儲的木紋紋理圖像中采樣相應的顏色和細節信息。
- 紋理過濾：在采樣過程中，為了避免紋理出現鋸齒或模糊等問題，紋理單元會進行紋理過濾操作。常見的過濾方法有雙線性過濾、三線性過濾等。雙線性過濾通過對相鄰的四個紋理像素進行加權平均來生成采樣點的顏色，使紋理在不同縮放比例下都能保持較好的視覺效果。
光柵化單元：
- 三角形設置：在光柵化之前，需要將頂點數據組成三角形面片，這是3D圖形渲染中最基本的圖元。光柵化單元會根據頂點的坐標和連接關系，設置好每個三角形的參數，為后續的光柵化過程做準備。
- 像素填充：將三角形面片轉換為屏幕上的像素點，并進行顏色填充。它會根據頂點的顏色、紋理信息以及光照模型等，計算出每個像素的最終顏色值。例如，在渲染一個紅色的三角形時，光柵化單元會根據三角形頂點的顏色和紋理坐標，為每個像素填充相應的紅色，并考慮光照效果對顏色進行調整。
- 深度測試：用于確定每個像素在場景中的深度信息，以解決遮擋問題。在渲染復雜場景時，可能會有多個物體重疊在一起，深度測試可以確保只有位于前面的物體的像素被顯示出來，而被遮擋的物體的像素則被忽略。

工作原理

圖形渲染流程：
- 頂點處理：首先，CPU將場景數據（如模型的頂點坐標、法線、紋理坐標等）發送給GPU。GPU的頂點著色器對這些頂點數據進行處理，包括坐標變換（將模型的局部坐標轉換為世界坐標，再轉換為屏幕坐標）、光照計算（根據光源的位置、強度和顏色，計算每個頂點的光照效果）等。例如，在渲染一個在陽光下的球體時，頂點著色器會根據球體上每個頂點的位置和法線方向，以及太陽的位置和光照強度，計算出每個頂點的受光程度，從而為球體表面添加光照效果。
- 幾何處理（可選）：在一些復雜的圖形渲染中，可能會使用幾何著色器對經過頂點處理后的圖形數據進行進一步的處理。幾何著色器可以根據頂點數據生成新的幾何圖形，或者對現有圖形進行修改和變換。例如，可以使用幾何著色器實現粒子系統、毛發渲染等特殊效果。
- 光柵化：經過頂點處理和幾何處理后，圖形數據進入光柵化階段。光柵化單元將圖形轉換為屏幕上的像素點。它會根據三角形的頂點坐標，確定每個像素在屏幕上的位置，并進行像素填充和深度測試等操作。
- 片段處理：在像素填充過程中，片段著色器會對每個像素進行進一步的處理。它會根據頂點的紋理坐標從紋理內存中采樣紋理數據，并結合光照模型、材質屬性等計算出每個像素的最終顏色值。例如，在渲染一個帶有紋理的墻壁時，片段著色器會根據墻壁表面每個像素的紋理坐標，從紋理圖像中采樣相應的顏色，并考慮光照對紋理顏色的影響，最終確定每個像素的顯示顏色。
- 輸出合并：最后，經過片段處理后的像素顏色值和深度信息會被輸出到幀緩沖中，與之前已經渲染好的圖像進行合并。幀緩沖中的數據最終會被輸出到顯示器上，顯示出最終的圖形畫面。
并行計算原理：
- 數據并行：GPU可以同時對多個數據進行相同的計算操作，這是通過其大量的流處理器實現的。例如，在進行圖形渲染時，每個流處理器可以獨立地處理一個頂點或一個像素的數據，多個流處理器同時工作，就可以并行處理大量的頂點和像素，大大提高了圖形渲染的速度。
- 任務并行：除了數據并行，GPU還支持任務并行。不同的計算任務可以分配到不同的計算核心集群或處理單元上同時執行。例如，在同時進行圖形渲染和深度學習推理的系統中，GPU可以將圖形渲染任務分配給一部分流處理器，將深度學習推理任務分配給張量核心等其他處理單元，實現多個任務的并行處理，提高系統的整體性能。

主要功能

3D圖形渲染：
- 幾何處理：負責處理3D模型的幾何數據，包括頂點坐標的變換、模型的平移、旋轉和縮放等操作。通過這些操作，可以將虛擬的3D模型以正確的視角和比例呈現在屏幕上。例如，在游戲中，當玩家控制角色移動時，GPU會實時地對角色模型和場景中的其他物體進行幾何變換，以保證它們在屏幕上的顯示位置和姿態正確。
- 光照計算：模擬真實世界中的光照效果，為3D模型添加陰影、高光、反射等效果，使模型看起來更加逼真。GPU會根據光源的類型（如點光源、平行光、聚光燈等）、位置、強度和顏色，以及物體的材質屬性（如漫反射系數、鏡面反射系數等），計算出每個頂點和像素的光照效果。例如，在渲染一個金屬球時，GPU會根據光源的位置和強度，計算出金屬球表面的高光和反射效果，使其看起來具有金屬的光澤。
- 紋理映射：將預先制作好的紋理圖像應用到3D模型的表面，增加模型的細節和真實感。紋理可以是各種材質的圖像，如木紋、墻壁的磚塊紋理、皮膚紋理等。GPU通過紋理單元對紋理進行采樣和過濾，將紋理圖像準確地映射到模型表面的每個像素上。例如，在渲染一個木屋時，通過紋理映射可以將木紋紋理應用到木屋的墻壁和屋頂上，使木屋看起來更加真實。
視頻解碼與編碼：
- 視頻解碼：支持各種視頻編碼格式的解碼，如H.264、H.265、VP9等。在播放視頻時，GPU可以分擔CPU的解碼任務，通過硬件加速實現流暢的視頻播放。GPU的視頻解碼單元能夠快速地解析視頻流中的編碼數據，將其轉換為原始的圖像數據，并進行色彩空間轉換、分辨率調整等操作，最終輸出到顯示器上。例如，在觀看高清視頻時，GPU可以利用其硬件解碼功能，快速地解碼視頻數據，避免出現卡頓和掉幀現象。
- 視頻編碼：一些高端的GPU也具備硬件編碼功能，可用于視頻錄制、直播和視頻轉碼等應用。在視頻編碼過程中，GPU可以將原始的圖像數據按照指定的編碼格式進行壓縮編碼，生成高質量的視頻流。與軟件編碼相比，硬件編碼具有更高的編碼速度和更低的CPU占用率，能夠在保證視頻質量的同時提高編碼效率。例如，在進行游戲直播時，GPU的硬件編碼功能可以實時地將游戲畫面編碼為視頻流，并以較低的延遲發送到直播平臺上。
深度學習：
- 模型訓練：在深度學習模型的訓練過程中，需要進行大量的矩陣乘法、卷積運算和反向傳播等操作。GPU的并行計算能力使其能夠高效地處理這些運算，大大縮短了模型的訓練時間。例如，在訓練一個用于圖像識別的卷積神經網絡時，GPU可以同時對多個圖像數據進行卷積運算，加速模型對圖像特征的提取和學習。與使用CPU進行訓練相比，使用GPU可以將訓練時間從幾天甚至幾周縮短到幾個小時或幾天。
- 推理應用：在深度學習模型訓練完成后，需要進行推理應用，即使用訓練好的模型對新的輸入數據進行預測和分類。GPU在推理過程中也能夠發揮重要作用，它可以快速地處理輸入數據，通過模型進行計算，并輸出推理結果。例如，在人臉識別系統中，GPU可以利用訓練好的深度學習模型，快速地對攝像頭捕捉到的人臉圖像進行特征提取和識別，實現快速準確的人臉識別。
科學計算：
- 計算流體力學（CFD）：在模擬流體流動、空氣動力學等問題時，需要進行大量的數值計算。GPU可以通過并行計算加速這些計算過程，幫助科學家和工程師更快地獲得計算結果，優化設計方案。例如，在汽車設計中，通過CFD模擬可以利用GPU計算汽車周圍的氣流分布，優化汽車的外形設計，降低風阻。
- 分子動力學模擬：用于研究分子和原子的運動和相互作用。GPU可以加速分子動力學模擬中的力場計算、積分運算等，提高模擬的效率和精度。例如，在藥物研發中，通過分子動力學模擬可以利用GPU研究藥物分子與生物靶點的相互作用，為藥物設計提供理論支持。

性能指標

核心頻率：
- 基礎頻率：是GPU在正常工作狀態下的默認頻率。例如，某款GPU的基礎頻率為1500MHz，表示其核心在常規運行時的工作頻率為1500MHz。基礎頻率決定了GPU的基本計算能力，較高的基礎頻率通常意味著在相同時間內能夠完成更多的計算任務。
- 加速頻率：當GPU負載較高時，會自動提升頻率以提高性能，這個提升后的頻率就是加速頻率。例如，在運行大型游戲或進行復雜的圖形渲染任務時，GPU可能會將頻率提升到1800MHz甚至更高。加速頻率能夠反映GPU在高負載情況下的性能表現，但過高的加速頻率可能會導致功耗和發熱量增加。
顯存相關指標：
- 顯存容量：如前面所述，顯存容量決定了GPU能夠處理的數據量。對于處理高分辨率紋理、大型3D場景或進行深度學習任務時，較大的顯存容量可以避免數據溢出，提高性能。例如，在進行4K分辨率的游戲或訓練大規模的深度學習模型時，需要較大的顯存容量來存儲紋理數據和模型參數。
- 顯存位寬：位寬越大，數據傳輸速度越快。例如，512位位寬的顯存相比256位位寬的顯存，在單位時間內能夠傳輸兩倍的數據。這對于支持高分辨率的圖形渲染和快速的數據交換非常重要，尤其是在處理復雜的場景和大量的紋理數據時。
- 顯存頻率：顯存頻率影響著數據的讀寫速度。較高的顯存頻率可以使GPU更快地獲取和存儲數據，從而提高性能。例如，GDDR6顯存通常具有較高的頻率，能夠提供更快的數據傳輸速度，相比GDDR5顯存，在相同位寬和容量的情況下，能夠更好地滿足GPU對數據帶寬的需求。
計算能力：
- 單精度浮點運算能力（FLOPS）：用于衡量GPU在處理單精度浮點數運算時的速度，通常以每秒浮點運算次數來表示。例如，一款GPU的單精度FLOPS為10 TFLOPS，表示該GPU每秒可以進行10萬億次單精度浮點數運算。單精度浮點運算能力在圖形渲染、深度學習和科學計算等領域都非常重要，是評估GPU性能的重要指標之一。
- 雙精度浮點運算能力：對于一些需要更高精度計算的科學計算任務，如量子力學計算、氣候模擬等，雙精度浮點運算能力更為關鍵。雙精度浮點數具有更高的精度，但計算量也更大，因此GPU的雙精度浮點運算能力通常低于單精度浮點運算能力。一些專業的科學計算GPU會特別強調其雙精度浮點運算能力，以滿足特定領域的需求。
其他指標：
- 光線追蹤性能：隨著光線追蹤技術的發展，GPU的光線追蹤性能也成為了一個重要的指標。光線追蹤能夠真實地模擬光線在場景中的傳播、反射、折射和陰影等效果，為圖形渲染帶來更加逼真的視覺效果。一些高端GPU專門配備了光線追蹤核心，能夠加速光線追蹤計算，實現實時的光線追蹤效果。例如，在一些支持光線追蹤的游戲中，具有較強光線追蹤性能的GPU可以實時渲染出真實的光影效果，如真實的反射、折射和軟陰影等。
- AI性能指標：除了傳統的計算能力指標外，針對深度學習和人工智能應用，還有一些專門的AI性能指標。例如，NVIDIA的Tensor Core性能指標用于衡量GPU在深度學習中的張量運算能力，它反映了GPU在加速深度學習模型訓練和推理時的效率。此外，一些基準測試工具也會針對不同的AI任務，如圖像識別、語音識別等，對GPU的性能進行評估和排名。