在今天智能手機領域中有這樣一個趨勢,美國Qualcomm公司提倡使用DSP去處理手勢操作、陀螺儀等傳感器所需的計算任務。這可以幫助CPU分擔部分計算任務,又節省了電能的消耗。現在很多SoC廠商也開始意識到了這一點,例如蘋果會考慮在iPhone 5S中加一顆Cortex-M7處理器,來處理傳感器、計步器等對性能要求較低,而對功耗要求較高的場景下的計算。那么從桌面計算架構,到今天的移動設備的計算架構,異構計算是如何演化,又是如何影響我們的技術革新的?本文將為您詳細解析。
異構計算:把各種果料壓成一塊切糕
典型的異構計算應用,也并不是一個新話題。早在20世紀80年代中期,異構計算技術就誕生了。它主要是指使用不同類型指令集、體系架構的計算單元組成混合系統的一種特殊計算方式。異構計算(Heterogeneous computing)主要是指使用不同類型指令集和體系架構的計算單元組成系統的計算方式。常見的計算單元類別包括:CPU(中央處理器)、GPU(圖形處理器)、CO-Processor(協處理器)、DSP(信號處理器)、ASIC(專用集成電路)、FPGA(現場可編程門陣列)等。
異構計算近年來得到更多關注,主要是因為通過提升CPU時鐘頻率和內核數量而提高計算能力的傳統方式遇到了散熱和能耗瓶頸。而與此同時,GPU等專用計算單元雖然工作頻率較低,具有更多的內核數和并行計算能力,總體性能、芯片面積比和性能、功耗比都很高,但芯片的性能卻遠遠沒有得到充分利用。
從廣義上講,不同計算平臺的各個層次上都存在異構現象。除硬件層的指令集、互聯方式、內存層次之外,軟件層中應用二進制接口、API、語言特性底層實現等的不同,對于上層應用和服務而言,都是異構的。
從實現的角度來說,異構計算就是制定出一系列的軟件與硬件的標準,讓不同類型的計算設備能夠共享計算的過程和結果。同時不斷優化和加速計算的過程,使其具備更高的計算效能。本文所講述的異構,是指的CPU與其他計算元器件之間的異構計算演進,從硬件與軟件的角度,講述他們的發展歷程。
并行計算:讓處理的速度變得更快
相對于串行計算,并行計算可以劃分成時間并行和空間并行。時間并行即流水線技術,空間并行使用多個處理器執行并發計算,當前研究的主要是空間的并行問題。以程序和算法設計人員的角度看,并行計算又可分為數據并行和任務并行。數據并行把大的任務化解成若干個相同的子任務,處理起來比任務并行簡單。
空間上的并行導致兩類并行機的產生,按照麥克·弗萊因(Michael Flynn)的說法分為單指令流多數據流(SIMD)和多指令流多數據流(MIMD),而常用的串行機也稱為單指令流單數據流(SISD)。MIMD類的機器又可分為常見的五類:并行向量處理機(PVP)、對稱多處理機(SMP)、大規模并行處理機(MPP)、工作站機群(COW)、分布式共享存儲處理機(DSM)。
從自然哲學層面上來講:任何最為復雜的事情,都可以被拆分成若干個小問題去解決。這構成了現代并行計算的哲學理論依據。然而在當今的雙路、四路、八路甚至多路處理器系統中,并行計算的概念早已得到廣泛應用。曾經業界最為普及的并行計算規范就是OpenMP。
OpenMP:同構計算最為普及的標準
OpenMP(Open Multi-Processing)是由OpenMP Architecture Review Board牽頭提出的,并已被廣泛接受的,用于共享內存并行系統的多線程程序設計的一套指導性注釋(Compiler Directive)。OpenMP支持的編程語言包括C語言、C++和Fortran;而支持OpenMP的編譯器包括Sun Studio和Intel Compiler,以及開放源碼的GCC和Open64編譯器。OpenMP提供了對并行算法的高層的抽象描述,程序員通過在源代碼中加入專用的pragma來指明自己的意圖,由此編譯器可以自動將程序進行并行化,并在必要之處加入同步互斥以及通信。當選擇忽略這些pragma,或者編譯器不支持OpenMP時,程序又可退化為通常的程序(一般為串行),代碼仍然可以正常運作,只是不能利用多線程來加速程序執行。
OpenMP的特色
OpenMP提供的這種對于并行描述的高層抽象降低了并行編程的難度和復雜度,這樣程序員可以把更多的精力投入到并行算法本身,而非其具體實現細節。對基于數據分集的多線程程序設計,OpenMP是一個很好的選擇。同時,使用OpenMP也提供了更強的靈活性,可以較容易的適應不同的并行系統配置。線程粒度和負載平衡等是傳統多線程程序設計中的難題,但在OpenMP中,OpenMP類庫從程序員手中接管了部分這兩方面的工作,可以自動均衡負載。
OpenMP的缺點
作為高層抽象,OpenMP并不適合需要復雜的線程間同步和互斥的場合。OpenMP的另一個缺點是不能在非共享內存系統(如計算機集群)上使用。由此如果我們想將不同類型的計算器、計算機聯和起來,協同工作。由此,我們就需要使用更為復雜的異構計算技術。
蒙昧期:從32bit到64bit
2003年以前,對于臺式機來說還是32bit的時代。處理器制造廠商,不斷提升制造工藝技術,使用更精細的制程來制造處理器。同時也不斷提高處理器的時脈,如133MHz、166MHz、200MHz、300MHz……最終頻率提升到了3GHz后,就難作寸進了。到目前為止我們也未曾見到Intel和AMD發布高于4GHz主頻的處理器產品。
2003年出現了x86-64,有時簡稱為“x64”。這是64位微處理器架構及其相應指令集的一種,也是Intel x86架構的延伸產品。“x86-64”最初是1999年由AMD設計,AMD首次公開64位集以擴充給IA-32,稱為x86-64(后來改名為AMD64)。其后也為Intel所采用,Intel稱之為“Intel 64”,在之前還曾使用過Clackamas Technology (CT)、IA-32e及EM64T等稱呼。外界多使用"x86-64"或"x64"去稱呼此64位架構,從而保持中立,不偏袒任何廠商。
AMD64代表AMD放棄了跟隨Intel標準的一貫作風,選擇了像把16位的Intel 8086擴充成32位的80386般,去把x86架構擴充成64位版本,且兼容原有標準。
AMD64架構在IA-32上新增了64位暫存器,并兼容早期的16位和32位軟件,可使現有以x86為對象的編譯器容易轉為AMD64版本。除此之外,NX bit也是引人注目的特色之一。
不少人認為,像DEC Alpha般的64位RISC芯片,最終會取代現有過時及多變的x86架構。但事實上,為x86系統而設的應用軟件數量實在太龐大,x86的整個生態系統基石深厚。這也成為Alpha不能取代x86的主要原因,AMD64的成功在于,能有效地把x86架構移至64位的環境,并且能兼容原有的x86應用程序。
CPU中出現多處理核心
2006年出現了雙核心多核心。多核心,也叫多微處理器核心是將兩個或更多的獨立處理器封裝在一起的方案,通常在一個集成電路(IC)中。雙核心設備只有兩個獨立的微處理器。一般說來,多核心微處理器允許一個計算設備在不需要將多核心包括在獨立物理封裝時執行某些形式的線程級并發處理(Thread-Level Parallelism,TLP)這種形式的TLP通常被認為是芯片級多處理。如3D游戲這樣的密集型運算場景中,您必須要使用驅動程序來調用第二顆處理核心的計算資源。
此后處理器制造廠商發現,利用多核心架構可以在不提升處理器頻率的情況下,繼續不斷提升處理器的效能。這也讓摩爾定律有機會一路走下去。
GPGPU:開啟通用計算大門
隨著CPU性能發展放緩,人們開始尋求新的性能爆點。2008年出現了通用計算單元這一概念。通用圖形處理器(General-purpose computing on graphics processing units,簡稱GPGPU),是一種利用處理圖形任務的圖形處理器來計算原本由中央處理器處理的通用計算任務。這些通用計算常常與圖形處理沒有任何關系。由于現代圖形處理器強大的并行處理能力和可編程流水線,令流處理器可以處理非圖形數據。特別在面對單指令流多數據流(SIMD),且數據處理的運算量遠大于數據調度和傳輸的需要時,通用圖形處理器在性能上大大超越了傳統的中央處理器應用程序。
3D顯示卡的性能從NVIDIA的GeForce256時代就頗受矚目,時間到了2008年,顯示卡的計算能力開始被用在實際的計算當中。并且其處理的速度也遠遠超越了傳統的x86處理器。
CPU+GPU:異構計算悄然興起
對于GPGPU表現出的驚人計算能力叫人為之折服,但是在顯卡進行計算的同時,處理器處于閑置狀態。由此處理器廠商也想參與到計算中來,他們希望CPU和GPU能夠協同運算,完成那些對計算量有著苛刻要求的應用。同時也希望將計算機的處理能力再推上一個新的高峰。這里更多的是希望GPU能參與到CPU計算任務中來,讓GPU分攤大部分機械性的大規模計算任務。一時間,世界上的超級計算機都開始了大提速。
天河當自強,異構顯神威
說個老黃歷,國際TOP500組織TOP500.org在網站上每半年會公布最新的全球超級計算機TOP500強排行榜。2010年11月14日,國際TOP500組織在網站上公布了最新全球超級計算機前500強排行榜,中國首臺千萬億次超級計算機系統“天河一號”排名全球第一。實測運算速度可以達到2.566 petaFLOPS(每秒萬億次)。
該計算機共耗資6億元人民幣,由103臺機柜組成,占地面積約1000平方米,裝有3072顆Intel的至強E5540 2.53GHz四核處理器和3072顆至強E5450 3.0GHz四核處理器,共有24,576個處理器核心。天河一號還裝備2560塊AMD Radeon HD 4870 X2顯示卡,共有5,120個圖形處理器用于圖形處理器通用編程。天河一號擁有98TB內存和1PB共用的磁盤容量。全系統功率為1280千瓦。

迥異:不同計算架構的特點
上面提到的采用的異構計算架構都屬于大型計算機的范疇。對于個人計算機而言,尤其是x86架構的計算機,異構計算的步伐則要慢許多。這是因為,無論是處理器還是顯示卡,又或者其他運算部件,都有其自身的架構和特性。他們是針對不同領域,面向不同應用所設計的芯片。所以他們在功能性方面千差萬別。要想將他們都統一起來,除了需要制定共同的規范和標準之外,還要針對其計算的特點設計軟件。
舉例來說,CPU和GPU在進行計算時,就有許多不同。對于處理器來說,它是一顆通用處理器。它要應對各種類型的計算應用。無論是數學方面的,還是邏輯方面的運算。我們可以看到,一顆比較常規的處理器其中的ALU計算單元僅僅占據整個核心面積的25%以內。在處理器中,超過50%的核心面積用來制作Cache高速緩存,無論是L1、L2還是片上的L3。而另外還有25%的核心面積用來作為控制器。它控制著處理管線的運作,控制著各種分支預測,讓多核心處理器可以更有效率。
而我們再反觀GPU,其結構要簡單的多。GPU的任務是加速3D像素的計算。因此我們在顯卡中可以看到數以百計的流處理器單元或者是CUDA核心。而在整個計算過程中,GPU承擔的邏輯計算任務非常小。同時它有著更寬的顯存帶寬,有著更高速的顯存。所以在GPU芯片中,也就無需更大容量的片上緩存機制。
通過上文的分析,我們可以看到CPU的在處理時,適合作所有工作,各個方面都比較平均。邏輯處理能力要比GPU快,但是對于數學計算方面,其速度不如具有海量處理核心的GPU快。而GPU方面,數學計算性能強大,大規模并行處理機制強大,但是邏輯處理能力不足,僅僅能在某些計算領域應用。
FireStream:慢慢淡出我們的視野
Firestream是AMD旗下的品牌系列之一。與Radeon(用于消費級顯卡)和FirePro(用于專業顯卡)不同,FireStream主要用于AMD的高性能計算卡系列。FireStream產品中的GPU不是用來作3D加速用途,而是利用GPU內置的流處理器變成一群并行處理器,作為浮點運算協處理器,協助中央處理器計算復雜的浮點運算程序,例如復雜的科學運算。Firestream的競爭對手是nVIDIA的Tesla系列高性能計算卡。
早在數年前,人們就意識到GPU不但可以處理圖形數據,還可以處理其他數據。BionicFX就試過利用GeForce 6800處理音頻數據,ATI亦做過同樣的試驗。而且史丹佛大學的Folding@Home研究項目亦可利用Radeon X1900作運算加速;通過GPU來模擬蛋白質合成,進而找尋有關蛋白質的疾病。
第一個產品,FireStream 580,是建基于R580圖形芯片。它將是一塊采用R580顯核的特殊顯示卡,R580顯示核心中的48個獨立的像素處理器能帶來強大的浮點運算性能。該產品采用PCI Express x16作為接口,流處理器的頻率是600 MHz,可以同時運行512線程,并配備了1GB GDDR3存儲器,頻率是1300 MHz。并有可能使用多個核心并發處理數據。這個流處理器的功耗為165W。
CUDA:在夾縫中掙扎求存
CUDA(Compute Unified Device Architecture,統一計算架構)是由NVIDIA所推出的一種集成技術,是該公司對于GPGPU的正式名稱。通過這個技術,用戶可利用NVIDIA的GeForce 8以后的GPU和較新的Quadro GPU進行計算。亦是首次可以利用GPU作為C-編譯器的開發環境。
目前為止基于 CUDA 的 GPU 銷量已達數以百萬計,軟件開發商、科學家以及研究人員正在各個領域中運用 CUDA,其中包括圖像與視頻處理、計算生物學和化學、流體力學模擬、CT 圖像再現、地震分析以及光線追蹤等等。
它包含了CUDA指令集架構(ISA)以及GPU內部的并行計算引擎。開發人員現在可以使用C語言來為CUDA架構編寫程序,C語言是應用最廣泛的一種高級編程語言。所編寫出的程序于是就可以在支持CUDA的處理器上以超高性能運行。
CUDA v3.0以后,開始支持C++和FORTRAN。實際上,CUDA架構可以兼容OpenCL或者自家的C-編譯器。無論是CUDA C-語言或是OpenCL,指令最終都會被驅動程序轉換成PTX代碼,交由顯示核心計算。目前CUDA v6.5 RC已經可用,包含了對ARM 64bit架構的支持等一些先進的特性。
PhysX:最出色的GPGPU應用實例
PPU(Physics Processing Unit)物理處理單元是一種特別為減輕CPU 計算,尤其是物理運算部分的處理器,您可以把它看做是一顆協處理器。這概念類似于對上10年間GPU。在現代計算機中,GPU用于處理矢量圖形,并且延伸到3D圖形。但GPU對物理處理無能為力,故目前大部分物理處理都交給CPU處理,這無疑是加重了CPU本來就不輕的負擔。
NVIDIA PhysX是一套由AGEIA 設計的執行復雜的物理運算的PPU,又可以代表一款物理引擎。AGEIA 聲稱,PhysX 將會使設計師在開發游戲的過程中,使用復雜的物理效果,而不需要像以往那樣,耗費漫長的時間開發一套物理引擎。以往使用了物理引擎,還會使一些配置較低的電腦,無法流暢運行游戲。AGEIA 更宣稱 PhysX 執行物理運算的效率,比當前的 CPU 與物理處理軟件的組合高出 100 倍。游戲設計語言Dark Basic Pro將會支持PhysX,并允許其用戶利用 PhysX 執行物理運算。在 2005年7月20日,索尼同意在即將發售的PlayStation 3中使用AGEIA 的PhysX和它的SDK——NovodeX 。現時,AGEIA公司己被NVIDIA收購,相關的顯卡亦可以加速該物理引擎。
PhysX設計用途是利用具備數百個內核的強大處理器來進行硬件加速。加上GPU超強的并行處理能力,PhysX將使物理加速處理能力呈指數倍增長并將您的游戲體驗提升至一個全新的水平,在游戲中呈現豐富多彩、身臨其境的物理學游戲環境。
APU:臺式機上的異構計算芯片
AMD在并購ATI以后,隨即公布了代號為“AMD Fusion”(融聚計劃)。簡要地說,這個項目的目標是在一塊芯片上,集成傳統中央處理器和圖形處理器,并且內置最少16通道、可與外部PCI-E設備鏈接的PCI-E控制器,存儲器控制器等。而這種設計會將北橋芯片從主板上卸載,集成到中央處理器中,CPU核心還可以將原來依賴CPU核心處理的任務(如浮點運算)交給為運算進行過優化的GPU處理(如處理浮點數運算)。AMD認為這是加速處理單元(APU)的一類,是為AMD加速處理器(AMD Accelerated Processing Units,AMD APU)。
2011年的CES上,AMD展示了Llano處理器,這是一顆真正意義上的異構計算處理器。從這張這新架構圖中,我們可以看到Llano具備四個處理核心,每一顆核心具有不同類型的L1高速緩存。同時每一個處理核心具備512KB X 2的容量為1MB的L2高速緩存。由此在處理器的部分,構成了4MB的二級緩存。
在整個芯片接近50%的面積上,是GPU的部分。一顆處理芯片同時包含了CPU和GPU的部分,這可以說是非常典型的異構計算架構。同時,在芯片的兩邊我們也可以看到高度集成的4個PCIe總線控制器,還有一個128bit位寬的DDR3內存控制器。
這樣的異構計算芯片可以充分發揮不同計算部件的優勢。當需要進行較多邏輯計算時,可以使用CPU部分完成。當需要大量的浮點運算時,可以借用GPU的浮點運算處理管線來完成。同時如果處理器的某些核心正處于空閑,也可以讓其加入到計算中來。由此可見異構計算不僅僅是需要統一起不同類型的計算部件,同時也需要有針對性的讓更適合的硬件作適用的計算工作。

OpenCL:異構計算真正開始閃耀
2008年6月的WWDC大會上,蘋果提出了OpenCL規范,旨在提供一個通用的開放API,在此基礎上開發GPU通用計算軟件。隨后,Khronos Group宣布成立GPU通用計算開放行業標準工作組,以蘋果的提案為基礎創立OpenCL行業規范。
OpenCL (Open Computing Language,開放計算語言) 是一個為異構平臺編寫程序的框架,此異構平臺可由CPU,GPU或其他類型的處理器組成。OpenCL由一門用于編寫kernels(在OpenCL設備上運行的函數)的語言(基于C99)和一組用于定義并控制平臺的API組成。OpenCL提供了基于任務分區和數據分區的并行計算機制。
OpenCL類似于另外兩個開放的工業標準OpenGL和OpenAL,這兩個標準分別用于三維圖形和計算機音頻方面。OpenCL擴展了GPU用于圖形生成之外的能力。OpenCL由非盈利性技術組織Khronos Group掌管。
OpenCL最初蘋果公司開發,擁有其商標權,并在與AMD,IBM,英特爾和nVIDIA技術團隊的合作之下初步完善。隨后,蘋果將這一草案提交至Khronos Group。2010年6月14日,OpenCL 1.1 發布。
早在2008年,蘋果制定OpenCL大家都以為是桌面端的布局,蘋果希望通過OpenGL來讓自家的Mac電腦可以順利的使用兩個顯卡巨頭的產品做GPGPU運算。蘋果的這一舉措卻為未來的x86平臺異構計算奠定了堅實的基礎。因為無論是CUDA還是FireStream,無論是CUDA核心還是流處理器,軟件開發人員都可以通過OpenCL來支持。
但是在2014年的今天看來,蘋果的這步OpenCL秒棋,也深深的影響到了移動產業。先賣個關子,且聽下文說到移動端再細細分解。
DirectCompute:立足DX11,應用廣泛
Microsoft DirectCompute是一個應用程序接口(API),允許Windows Vista或Windows 7平臺上運行的GPU進行通用計算,DirectCompute是Microsoft DirectX的一部分。雖然DirectCompute最初在DirectX 11 API中得以實現,但支持DX10的GPU可以利用此API的一個子集進行通用計算,支持DX11的GPU則可以使用完整的DirectCompute功能。
C++ AMP:微軟的異構計算編程語言
相比OpenGL豐富的功能和體系化的SDK來說,DirectCompute僅僅是以一個簡單的API存于世上,顯然不能贏得更多廠商的關注。OpenCL作為一種開放的并行加速計算標準,已經得到了AMD、Intel、NVIDIA等芯片業巨頭和大量行業廠商的支持,但唯獨缺少了微軟。就在AMD Fusion開發者峰會上,微軟終于拿出了自己的反擊武器:“C++ AMP”,其中AMP三個字母是“accelerated massive parallelism”的縮寫,也就是加速大規模并行的意思。
C++ AMP是微軟Visual Studio和C++編程語言的新擴展包,用于輔助開發人員充分適應現在和未來的高度并行和異構計算環境。通過使用 C++ AMP,您可以為多維數據算法編碼,以便通過使用異類硬件上的并行對執行進行加速。 C++ AMP編程模型包括多維數組、索引,內存傳輸、平鋪和數學函數庫。 您可以使用C++ AMP語言擴展控制數據在CPU和GPU之間相互移動的方式,從而提高性能。C++ AMP現已加入Visual Studio 2013豪華午餐。不過它也有門檻,仍然需要DX11以上的硬件支持,才能運行。
為了與OpenCL相抗衡,微軟宣布C++ AMP標準將是一種開放的規范,允許其它編譯器集成和支持。這無疑是對OpenCL的最直接挑戰。最近幾年,微軟一直在推C++ AMP,但是作為開放標準的OpenCL,也注定了其生態會更加的繁榮。

移動GPU:用來一鍵“美白”
以往多數人對GPU的印象是其功能僅應用于游戲。但事實上,GPU所能完成的工作不僅僅是運行大型的3D游戲,我們可以利用它的計算特性做很多重要的事情。比如Qualcomm Snapdragon系列的SoC芯片中,包含了三塊具備較大處理能力的單元:Krait CPU、Adreno GPU和Hexagon DSP。如何更好的利用這三個計算單元,成為了移動應用開發者們必備的新“常識”。
CPU的整數運算能力很強,GPU的浮點計算能力更強。而DSP的特性和GPU還是有一些差別。DSP更傾向于處理有時間序列的任務。比如多媒體編解碼任務,這是DSP最擅長做的。在視頻編解碼過程中的通常算法,是會根據前后兩幀之間的差值來進行計算。因此DSP更適合去做一些機械的、簡單的計算工作。它最大的特點就是功耗低,使用它做計算可以更省電。
GPU近年來的應用場景一直在不斷的拓展。這是因為很多新興的應用類型,都對浮點運算有著很高的要求。舉例來說,用戶可能會在拍照之后,用圖片處理應用對照片進行“美白”、 “磨皮”、增加曝光度、增加色彩飽和度等一系列復雜的處理。這些都可以用到GPU強大的并行計算特性。
龐大的數據處理,一直是手機拍照的技術難題。未來手機上的圖片處理軟件,將不得不考慮使用更為高效的方式來處理如此大容量的圖片。現在前置攝像頭的規格,少則200萬像素,多則500、800萬像素。后置的攝像頭,未來主流1300萬像素起,甚至有些手機都用上了4千萬像素的CMOS。
攝像頭像素規格——系統需要實時處理的數據量
- 8 megapixel COMS——12 MBytes
- 13 megapixel COMS——19.5 MBytes
- 21 megapixel COMS——31.5 MBytes
- 41 megapixel COMS——61.5 MBytes
在圖片處理應用中,直接調用GPU的計算能力,會比調用某些所謂的8核心CPU更好、更快、更省電。又例如,很多具備所見所得濾鏡的視頻錄制應用,用戶在手機屏幕上可以實時的看到“老照片”、“黑白”、“反色”、“美膚”等視頻濾鏡的效果。這種情況下就需要調用GPU來對實時濾鏡進行渲染處理。
RenderScript:Google的移動異構方案
直到最近Google開始推RenderScript之后,異構計算的這股熱潮才逐漸襲來。RenderScript是Android平臺的一種類C的腳本語言(使用C99語法),開發難度比OpenCL要小一些。之前Google在各個Android版本的動態壁紙中用該技術實現3D圖形特效,直到Android 3.0才集成到SDK中來。
RenderScript的移植性還是不錯的。傳統的NDK編寫代碼時,必須事先在開發機上為每一個目標原生平臺來編譯。而RenderScript可以在目標設備上編譯,生成更高效的二進制代碼。這也就意味著只要硬件支持RenderScript,不管采用什么架構,都可以運行您的的RenderScript代碼。
但不幸的是,Google對OpenCL興趣不大,因為那是蘋果主導的異構聯盟。Google在Android 4.3系統之后,從Android上徹底鏟掉了對OpenCL的支持。
使用RenderScript,程序員不用關心設備底層細節,不用考慮在不同Android設備的移植問題。不用考慮特定的CPU、GPU還是DSP,完全有驅動自行優化。對于想做深度優化的程序員來說,RenderScript就是一個看不見的黑盒子。另一邊的OpenCL則展現出了更多硬件細節,對于高級程序員來說,是一個可以充分榨干硬件性能,充分發揮異構計算特性的強大法寶。按照Google官方的說法,他們摒棄OpenCL的原因是不想在各種設備上再看到分裂和不兼容的情況,他們想統一硬件和軟件標準,才做出的這個“艱難的決定”。
Qualcomm:建議開發者用SDK優化APP
幸運的是,Qualcomm也正積極參與Khronos Group制定OpenCL標準的工作。同時它還是異構系統架構基金會(HSA Foundation)的創始會員。Qualcomm從Adreno 330 GPU起,已經可以支持OpenCL、RenderScript和OpenGL ES 3.0(甚至還有DX11和曲面細分)。這會為移動應用開發者帶來極大的方便。
Qualcomm在GPU運算、DSP運算和異構計算方面給開發者提供了完備的SDK,包括Adreno SDK(GPU方面)、Hexagon SDK(DSP方面)、FastCV(視覺計算)MARE SDK(并行計算)等方面。對于應用開發者而言,最重要的就是要使用Qualcomm的SDK來優化自己的應用,無需再被底層的復雜工作困擾。Snapdragon SoC系統內部會自動識別任務的復雜程度,并調用相應的計算單元來完成執行。

asynchronous SMP:多核異步處理器
先說一下,標準的ARM架構,都是Simultaneous Multi-Processing(SMP多核同步處理器)架構。然而asynchronous SMP(aSMP多核異步處理器)是Qualcomm自己提出來的,目前在Snapdragon中的Krait CPU,都是采用的這種多核異步的工作方式。
之前很多不明真相的“磚家”都說這是膠水處理器,只是把處理核心黏在一起。事實上,異步和同步的差異僅僅是在處理核心的工作頻率上。這稱作異步時脈架構(Asynchronous Clock Architecture,ACA)異步處理中,每個處理核心的工作電壓和頻率都是不同的。一切設計都是為了移動設備要盡可能的節電為大原則。可以讓一個時鐘頻率較高的處理核心,去運行繁重的計算任務。讓低頻工作的處理核心運行不是那么緊急,計算量相對較小的任務。而多核同步處理器則沒有這個優勢,所有處理核心都會工作在相同的電壓和頻率下。
當然,在Krait CPU中的共享L2高速緩存,也可以根據處理任務量的不同,工作在不同的電壓和頻率下。從而最大限度的節省電能。
Qualcomm MARE SDK:移動設備并行運算利器
Qualcomm發布的的MARE(多核異步運行環境)是一種用于并行及異構移動計算的編程模型和運行時系統。這種原生C++庫提供了一種簡單而優雅的方式在多個CPU核心上實現并行計算,并且可以利用MARE SDK在GPU上實現異構計算。
MARE SDK作為用戶級庫實施,與Android NDK相集成,提供易于使用的并行編程原語言。其應用級摘要幫助開發者利用任意Andriod設備上的多進程硬件進行并行計算,而不需要深入了解有關該硬件的知識。
目前,最新版的MARE SDK已經支持并行編程模式,這是一個包括并行迭代、并行圖、并行前綴掃描和同步數據流在內的集合。這些模式通過優化執行通用并行習語,可進一步簡化編程。另外也為諸如矩陣乘法等線性代數例程增加了對Snapdragon處理器的特定支持。
采用MARE SDK之后,一般能為需要密集計算的應用,如拍照類應用的實時濾鏡,帶來性能的大幅優化,1個工程師,2天時間,圖像處理速度提高60%。線程管理和并行計算只占用五分之一的Pthread代碼。無論采用何種設備或處理器,只在Google Play中出現一個單一.apk文件。
big.LITTLE:助力達成8核心、64bit
當移動SoC跨越到64bit世代,移動設備不僅僅要省電,還要高性能。在一些高端機型上,我們會經常看到這樣的架構配置:4 + 4核心,即4顆負責高強度運算任務的Cortex-A57核心,還有4顆在“閑暇”時負責計算任務的Cortex-A53。然而實現這樣豐富的異構計算核心技術,就是ARM所提供的big.LITTLE。
運算能力強的處理器核心,與低耗電、運算能力弱的處理器核心,結合在一起。運用在移動計算上,多核心處理器能具備較高性能的同時,其平均功耗也能維持在較低的水平。
基于ARMv8體系架構的Cortex-A53和Cortex-A57處理器在采用big.LITTLE技術協作運行時,處理器將通過 CoreLink CCN-504 一致性互連來連接,以實現具有完全一致性的高性能眾核解決方案。該解決方案支持在一塊硅晶片上容納多達16個內核。
經測量,對于中等強度的工作負載(例如 Web 瀏覽),節能達到 50%。而對于后臺工作負載(例如 mp3 音頻播放),節能高達 70%。
AMD在下一盤大旗:ARM + X86
2014年5月,在互聯網上瘋狂轉發著一張PPT,一個全新的x86與ARM共融核心。AMD對此并未過多提及,只是在介紹自主設計K12 ARM架構的同時,有一個小小的注腳寫著“開發64位ARM核心,以及新的64位x86核心”。
這兩種新架構都會由AMD的首席架構設計師Jim Keller統領負責。他強調說:“AMD的特長是打造高頻率核心,并且會將AMD大核心的高性能、ARM小核心的低功耗完美融合在一起。”
我們大致可以明白,AMD引入ARM的技術,是為處理器進一步降低功耗,以應對未來的移動計算大趨勢。然而另我們好奇的是,這兩種架構如何在一起協同工作?統一的架構接口和指令集是必要的。
總結:異構計算未來必將豐富多彩
異構計算的未來會相當豐富。在桌面端,將繼續依靠GPU的大規模并行計算能力,不斷突破人類計算的極限。而在手機端big.LITTLE將聯合不同類型的CPU,展現出強大的性能。
未來的移動計算,需要閑時更加省電,這需要借助DSP、低功耗處理器的幫忙。同時也需要在瞬時展現出更強大的性能,而這更需要借助移動GPU進行異構計算。
作為移動應用的開發者,可以借助RenderScript開發出強大的Android應用。更可以使用如Adreno SDK、MARE SDK等第一方芯片廠商的方案,輕松為應用做更深層的優化。