HBM(High Bandwidth Memory)

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

選擇正確的高帶寬內存

構建高性能芯片的選擇越來越多,但附加內存的選擇卻幾乎沒有變化。為了在汽車、消費和超大規模計算中實現最大性能,選擇取決于一種或多種 DRAM,而最大的權衡是成本與速度。

盡管多年來人們一直在努力用更快、更便宜或更通用的內存來取代 DRAM,甚至將其嵌入到 SoC 中,但 DRAM 仍然是所有這些架構中的重要組成部分。但 DRAM 制造商并沒有停滯不前,而是根據性能、功耗和成本提供了多種選擇。這些仍然是基本的權衡,要進行這些權衡,需要深入了解如何使用內存、如何連接所有部件,以及芯片或使用芯片的系統的關鍵屬性是什么。

Rambus產品管理高級總監 Frank Ferro 表示:“即使在宏觀經濟形勢下,我們仍然看到對更多帶寬內存的需求呈非常積極的趨勢。 ” “有很多公司正在研究不同類型的內存架構。這包括解決帶寬問題的各種方法,無論是具有大量片上內存的處理器還是其他方式。雖然這種方法是最便宜、最快的,但容量相當低,因此人工智能算法必須針對這種類型的架構進行定制。”

小芯片

這仍然沒有減少對附加內存的需求。總體而言,向異構計算(尤其是小芯片)的發展只會加速對高帶寬內存(無論是 HBM、GDDR6 還是 LPDDR6)的需求。

HBM 是三者中最快的。但到目前為止,HBM 一直基于 2.5D 架構,這限制了它的吸引力。“制作 2.5D 中介層仍然是相對昂貴的技術,”Ferro 說。“供應鏈問題并沒有太大幫助。在過去的兩年里,這種情況有所緩解,但它確實凸顯了您在制作這些復雜的 2.5D 系統時的一些問題,因為您必須組合大量組件和基板。如果其中任何一件不可用,就會擾亂整個流程或導致較長的交貨時間。”

一段時間以來,人們一直致力于將 HBM?? 連接到其他一些封裝方法,例如扇出,或使用不同類型的中介層或橋來堆疊芯片。隨著更前沿的設計包括某種類型的先進封裝以及可能在不同工藝節點開發的異構組件,這些將變得至關重要。

“許多 HBM 空間實際上更多的是制造問題,而不是 IP 問題,” Cadence IP 小組產品營銷小組總監 Marc Greenberg 說。“當您擁有一個內部帶有硅中介層的系統時,您需要弄清楚如何構建一個帶有硅中介層的系統。首先,您將如何在那里制造硅中介層?它比普通硅芯片大得多。它必須被稀釋。它必須粘合到其上的各種芯片上。它需要被包裝。HBM 解決方案涉及大量專業制造。這最終超出了 IP 領域,更多地屬于 ASIC 供應商和 OSAT 所做的領域。”
在這里插入圖片描述

汽車中的高帶寬內存

HBM 引起廣泛關注的領域之一是汽車領域。但仍有一些障礙需要克服,而且目前還沒有解決這些問題的時間表。

Synopsys產品營銷總監 Brett Murdock 表示:“HBM3 具有高帶寬、低功耗的特點,并且具有良好的密度。” “唯一的問題是它很貴。這是那段記憶的一個失敗。HBM 的另一個缺點是它尚不符合汽車行業的要求,盡管它非常適合汽車行業。在汽車領域,正在發生的一件有趣的事情是所有電子設備都變得集中化。當這種集中化發生時,基本上現在你的后備箱里就有了一臺服務器。發生的事情如此之多,因此不一定總是發生在單個 SoC 或單個 ASIC 上。因此,現在汽車公司開始研究小芯片以及如何在設計中使用小芯片以獲得該集中式域中所需的所有計算能力。巧妙的是,小芯片的潛在用途之一是與中介層一起使用。如果他們現在使用中介層,他們就無法解決 HBM 的中介層問題。他們正在解決小芯片的中介層問題,也許 HBM 也能參與其中。然后,如果他們已經在為車輛進行小芯片設計,也許它就不再那么昂貴了。”

HBM 非常適合該領域,因為車輛中需要快速移動的數據量很大。“如果你考慮一下汽車中攝像頭的數量,所有這些攝像頭的數據速率以及處理所有信息的速度都是天文數字。HBM 是所有汽車行業人士都想去的地方。”Murdock 說道。“對于他們來說,成本可能并沒有那么高,因為它只是解決技術、解決汽車內插器以及解決 HBM 設備的汽車溫度問題。

不過,這可能需要一段時間。與此同時,GDDR 似乎是后起之秀。雖然它的吞吐量比 HBM 更有限,但它仍然足以滿足許多應用的需求,并且已經符合汽車標準。

Rambus 的 Ferro 表示:“HBM 絕對會進入汽車應用領域,在汽車領域,汽車可以與不動的物體進行對話。” “但在車輛方面,GDDR 做得很好。LPDDR 已經出現在汽車中,您可以用 GDDR 替換大量 LPDDR,獲得更小的占用空間和更高的帶寬。然后,隨著人工智能處理能力的提高,LPDDR5 和 LPDDR6 開始達到相當可觀的速度(現在分別接近 8Gbps 和 10Gbps),它們也將成為汽車中非常可行的解決方案。仍然會有少量 DDR,但 LPDDR 和 GDDR 將成為汽車領域最受歡迎的技術。”

Cadence 的 Greenberg 表示,這種方法可能會在相當長的一段時間內發揮作用。“僅使用標準 PCB 和標準制造技術的解決方案似乎比嘗試在方程中引入硅中介層并驗證其溫度、振動或 10 年壽命更明智。壽命。試圖驗證車輛中的 HBM 解決方案似乎比 GDDR-6 面臨更大的挑戰,GDDR-6 可以將內存放置在 PCB 上。如果我在一家汽車公司負責一些汽車項目,我只會選擇HBM作為最后的選擇。”

邊緣 AI/ML 內存需要

GDDR 和 LPDDR5,甚至可能是 LPDDR6,在某些邊緣加速卡上也開始看起來像是可行的解決方案。

“對于進行邊緣 AI 推理的 PCIe 卡,多年來我們已經在 NVIDIA 等公司的加速卡中看到了 GDDR,”Ferro 說。“現在我們看到越來越多的公司愿意考慮替代方案。例如,Achronix 在其加速卡中使用 GDDR6,并開始研究如何使用 LPDDR,盡管速度仍約為 GDDR 的一半。它正在緩慢上升,并且密度增加了一些。這是另一個解決方案。這些給出了一個很好的權衡。它們提供了性能和成本優勢,因為它們仍然使用傳統的 PCB。您將它們焊接在芯片上。如果您過去使用過 DDR,則可以丟棄大量 DDR,并用一個 GDPR 或兩個 LPDDR 替換它們。這就是我們現在看到的很多情況,因為開發人員試圖找出如何在成本、功耗和價格之間達到適當的平衡。這始終是一個邊緣挑戰。”

一如既往,權衡是許多因素的平衡。

格林伯格指出,在當前人工智能革命的早期階段,第一批 HBM 存儲器正在被使用。“人們采用了一種不考慮成本/不考慮帶寬的方法。HBM 非常自然地融入其中,有人希望有一個典型的例子來說明他們可以從系統中獲得多少帶寬。他們將構建基于 HBM 的芯片,根據該芯片的性能指標獲得風險投資資金,而且沒有人真正太擔心這一切的成本是多少。現在我們看到的是,也許您需要一些好的指標,也許是使用 HBM 可以實現的 75%,但您希望它的成本只有一半。我們該怎么做呢?我們所看到的 GDDR 的吸引力在于它可以實現成本更低的解決方案,但帶寬絕對接近 HBM 空間。”

Murdock 也看到了做出正確內存選擇的困難。“由于帶寬要求較高,他們通常會做出成本權衡決定。我是否應該選擇 HBM?如果不是考慮到成本因素,HBM 通常非常適合該應用程序?有客戶向我們詢問 HBM,試圖在 HBM 和 LPDDR 之間做出選擇。這確實是他們做出的選擇,因為他們需要帶寬。他們可以在這兩個地方之一得到它。我們已經看到工程團隊在 SoC 周圍放置了多達 16 個 LPDDR 接口實例,以滿足他們的帶寬需求。當你開始談論這么多實例時,他們會說,“哦,哇,HBM 真的非常適合這個要求。” 但這仍然歸結為成本,因為許多公司只是不想支付 HBM3 帶來的溢價。”

HBM 還存在架構方面的注意事項。“HBM 一開始就是一種多通道接口,因此使用 HBM,一個 HBM 堆棧上就有 32 個偽通道,”Murdock 說。“有 16 個通道,所以實際上有 32 個偽通道。偽通道是您在每個偽通道的基礎上執行實際工作負載的地方。因此,如果您有 16 個偽通道,而不是在 SoC 上放置許多不同的 LPDDR 實例,那么在這兩種情況下,您都必須弄清楚流量將如何瞄準整個通道中的整體地址空間定義。在這兩種情況下,你都有很多渠道,所以也許并沒有太大的不同。”

對于 AI/機器學習開發人員來說,LPDDR 通常采用 bi-32 封裝,然后具有 2-16 位通道。

“你需要在你的架構中做出一個基本的選擇,”他解釋道。“從系統的角度來看,我是否將內存上的這兩個 16 位通道視為真正獨立的通道?或者我是否將它們集中在一起并使其看起來像一個 32 位通道?他們總是選擇 16 位通道,因為這為他們提供了更高的性能接口。在內存中,我有兩個通道。我的打開頁面數量是我可能點擊的兩倍,并通過頁面點擊減少了整體系統延遲。擁有更多更小的通道可以使系統性能更好,這就是我們在 HBM 中看到的情況。從 HBM2e 到 HBM3,我們專門放棄了通道和偽通道大小,以應對此類市場。我們甚至在 DDR4 的 DDR5 中看到了這一點。我們從 DDR4 中的 64 位通道改為 DDR5 中的一對 32 位通道,每個人都喜歡較小的通道尺寸,以幫助提高整體系統性能。”

對于邊緣人工智能推理,Greenberg 一直在觀察這些應用走到最前沿,并發現 GDDR-6 是一項偉大的技術。“有很多芯片都希望擁有這種功能。這使得人工智能推理接近邊緣,因此您可以接收多個攝像頭輸入或多個其他傳感器輸入。然后,在邊緣使用人工智能,您可以深入了解正在處理的數據,而不是將所有數據發送回服務器來執行該功能。”

格林伯格預計很快就會出現大量芯片,這些芯片將具有各種有趣的功能,而無需將大量數據發送回服務器。他預計 GDDR6 將在那里發揮重要作用。

“前幾代 GDDR 主要針對顯卡,”他說。“GDDR6 具有很多功能,使其更適合作為通用內存。事實上,雖然我們確實有用戶將其用于顯卡,但大多數實際上是將其用于人工智能邊緣應用程序,”格林伯格說。“如果您需要盡可能多的帶寬,并且不關心它的成本是多少,那么 HBM 是很好的解決方案。但如果您不需要那么多帶寬,或者成本是一個問題,那么 GDDR6 在該領域會發揮有利作用。GDDR6的優點是可以在標準FR4 PCB上完成。制造過程中不需要特殊材料。沒有特殊的工藝,甚至PCB本身也不需要進行背鉆。它不需要隱藏的通孔或類似的東西。”

最后,GDDR 領域的最后一個趨勢是努力使 GDDR 對消費者更加友好。“它仍然有一些非常受圖形引擎青睞的規范部分,但作為一項技術,GDDR 正在向消費者方向發展,”他說。“隨著 GDDR 類型技術的更廣泛部署,它將繼續朝這個方向發展。”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/716372.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/716372.shtml
英文地址,請注明出處:http://en.pswp.cn/news/716372.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux:kubernetes(k8s)搭建mater節點(kubeadm,kubectl,kubelet)(2)

安裝k8有多種方式如: minikube kubeadm 二進制安裝 命令行工具 我這里就使用kubeadm進行安裝 環境 3臺centos7 master ip :192.168.113.120 2G運存 2內核 node1 ip :192.168.113.121 2G運存 2內核 node2 ip :192.168.1…

重構與設計模型的完美融合:構建穩定可擴展系統的關鍵步驟

在軟件開發的漫長旅程中,系統的穩定性和可擴展性一直是開發者們追求的目標。為了實現這一目標,重構和設計模型成為了不可或缺的兩個關鍵元素。本文將探討如何通過重構,使系統更穩定、更具可擴展性,并深入研究如何將重構與設計模型…

JavaEE:多線程(3):案例代碼

目錄 案例一:單例模式 餓漢模式 懶漢模式 思考:懶漢模式是否線程安全? 案例二:阻塞隊列 可以實現生產者消費者模型 削峰填谷 接下來我們自己實現一個阻塞隊列 1.先實現一個循環隊列 2. 引入鎖,實現線程安全 …

運用qsort函數進行快排并使用C語言模擬qsort

qsort 函數的使用 首先qsort函數是使用快速排序算法來進行排序的,下面我們打開官網來查看qsort是如何使用的。 這里有四個參數,首先base 是至待排序的數組的首元素的地址,num 是值這個數組的元素個數,size 是指每個元素的大小&am…

Python猜數字小游戲

下面這段代碼是一個簡單的數字猜測游戲,其中計算機已經提前計算出了414 // 23的結果并存儲在變量num中。然后,程序會提示用戶來猜測這個結果。 以下是代碼的主要步驟和功能: 初始化: num 414 // 23:計算414除以23的整…

Linux:各目錄含義

簡介 學習Linux各目錄含義之前,我們首先要了解一下Filesystem Hierarchy Standard(文件系統層次結構標準)。 FHS FHS,即文件系統層次結構標準(Filesystem Hierarchy Standard),是Linux和類Un…

深入了解Redis:配置文件、動態修改和安全設置

Redis 是一個開源的內存中數據結構存儲系統,它可以用作數據庫、緩存和消息中間件。在使用 Redis 時,了解其配置選項是至關重要的。本文將詳細介紹 Redis 的配置文件和常用配置項,并提供一些示例來說明如何設置和修改這些配置。 Redis 配置文…

基于stm32F103的座面聲控臺燈

1.基本內容: 設計一個放置在桌面使用的臺燈,使用220v交流電供電。具備顯示屏能夠實時顯示日期(年、月、日和星期),時間(小時、分鐘、秒)和溫度(攝氏度);能夠通…

Python爬取天氣數據及可視化分析!(含源碼)

天氣預報我們每天都會關注,我們可以根據未來的天氣增減衣物、安排出行,每天的氣溫、風速風向、相對濕度、空氣質量等成為關注的焦點。本次使用python中requests和BeautifulSoup庫對中國天氣網當天和未來14天的數據進行爬取,保存為csv文件&…

帆軟下載PDF報錯java.lang.OutOfMemoryError: Java heap space

需求:前端選擇多條數據,點擊下載按鈕,下載帆軟報表的pdf格式。 (目前用的是帆軟PDF下載接口,然后java轉成文件流,前端接到后端接口的文件流,使用axios下載blob,再創建下載鏈接,通過link標簽實現…

ArduinoTFTLCD應用

ArduinoTFTLCD應用 ArduinoTFTLCD應用硬件連接軟件導入庫顯示數字、字符顯示漢字方案1方案2 顯示圖片 總結 ArduinoTFTLCD應用 對于手工喜歡DIY的人來說,Arduino驅動的TFTLCD被很多人使用,此處就總結一下,使用的是VScode的PlatformIO插件驅動…

C# API異步方法和返回類型:提升應用程序性能和靈活性

摘要: 異步編程是現代應用程序開發中不可或缺的一部分。在C#中,異步方法允許我們在等待操作完成時繼續執行其他任務,從而提高應用程序的性能和響應性。本文將介紹C# API異步方法的基本概念、原理和實際應用,并詳細討論異步方法的返…

【機器學習】實驗5,AAAI 會議論文聚類分析

本次實驗以AAAI 2014會議論文數據為基礎,要求實現或調用無監督聚類算法,了解聚類方法。 任務介紹 每年國際上召開的大大小小學術會議不計其數,發表了非常多的論文。在計算機領域的一些大型學術會議上,一次就可以發表涉及各個方向…

RNA-Seq 筆記 [4]

***********************該筆記為初學者筆記,僅供個人參考謹慎搬運代碼****************************** samtools 排序壓縮和 featureCounts 生成基因計數表 SAM文件和BAM文件 1.SAM格式:是一種通用的比對格式,用來存儲reads到參考序列的比…

2024最新算法:鳑鲏魚優化算法(Bitterling Fish Optimization,BFO)求解23個基準函數(提供MATLAB代碼)

一、鳑鲏魚優化算法 鳑鲏魚優化算法(Bitterling Fish Optimization,BFO)由Lida Zareian 等人于2024年提出。鳑鲏魚在交配中,雄性和雌性物種相互接近,然后將精子和卵子釋放到水中,但這種方法有一個很大的缺…

BUUCTF---[極客大挑戰 2019]Upload1

1.題目描述 2.點開鏈接&#xff0c;需要上傳文件&#xff0c;要求是image&#xff0c;上傳文件后綴為jpg的一句話木馬&#xff0c;發現被檢測到了 3.換另一個木馬試試 GIF89a? <script language"php">eval($_REQUEST[1])</script> 發現可以上傳成功 4…

ctf_show筆記篇(web入門---文件包含)

目錄 文件包含 78-79&#xff1a;最基礎的文件包含&#xff0c;使用偽協議&#xff0c;大小寫繞過或者通配符繞過&#xff0c;再或者使用其他方法 ?編輯80-81&#xff1a;可采用日志文件繞過或者大小寫繞過&#xff08;81只能日志文件繞過&#xff09; ####80-86&#xff1…

『周年紀念』- 降生CSDN三周年的碎碎念

『周年紀念』- 降生CSDN三周年的碎碎念 緣起機緣迷茫厚積薄發 一轉眼又過來一年&#xff0c;自己也已經 大四即將畢業。 感覺這一年像是開了加速鍵&#xff0c;仿佛一瞬就又過去了。統計了一下發現自己在過去的這一年就發布了 2篇文章&#xff0c;2022年發布了 117篇&#x…

PDF 解析問題調研

說點真實的感受 &#xff1a;網上看啥組件都好&#xff0c;實際測&#xff0c;啥組件都不行。效果好的不開源收費&#xff0c;開源的效果不好。測試下來&#xff0c;發現把組件融合起來&#xff0c;還是能不花錢解決問題的&#xff0c;都是麻煩折騰一些。 這里分享了目前網上能…

Python中的反射

在Python中&#xff0c;反射&#xff08;Reflection&#xff09;是一種動態地訪問對象和調用其方法的能力&#xff0c;而不需要在編寫代碼時顯式地知道對象的類或屬性。這種機制使得代碼具有更高的靈活性和可擴展性。Python通過幾種內置函數提供了反射的功能&#xff0c;主要包…