摘要:隨著汽車電子技術的飛速發展,微控制單元(MCU)在汽車電子系統中的應用日益廣泛。然而,大氣中子誘發的單粒子效應(SEE)對MCU的可靠性構成了嚴重威脅。本文深入探討了軟錯誤防護技術在車規MCU中的應用,分析了不同工藝節點下MCU的軟錯誤率,并提出了多種有效的軟錯誤防護策略,旨在提高車規MCU的可靠性和安全性,滿足汽車行業日益增長的功能安全需求。
關鍵詞:車規MCU;軟錯誤防護;單粒子效應;ISO26262
一、引言
在現代汽車電子系統中,車規MCU作為核心部件,承擔著關鍵的控制和數據處理任務。然而,隨著半導體工藝的不斷進步,微電子器件的特征尺寸逐漸縮小,工作電壓降低,工作頻率提高,這使得器件對單粒子效應(SEE)的敏感性顯著增加。大氣中子作為引發SEE的主要因素之一,其與微電子器件相互作用可能導致多種軟錯誤現象,如單粒子翻轉(SEU)、單粒子瞬態(SET)、單粒子鎖定(SEL)和單粒子功能中止(SEFI)等。這些軟錯誤可能會導致汽車電子系統出現短暫或永久的故障,從而影響汽車的安全運行。因此,研究和應用軟錯誤防護技術對于提高車規MCU的可靠性和安全性至關重要。
二、單粒子效應及其對車規MCU的影響
(一)單粒子效應的類型及成因
單粒子效應是指宇宙射線中的高能粒子(如質子、重離子等)或大氣中子與微電子器件相互作用,導致器件內部電荷產生或電場變化,進而引起器件性能異常的現象。根據其表現形式,SEE可分為以下幾種類型:
單粒子翻轉(SEU):高能粒子穿過器件敏感區域時,產生的電荷足以翻轉存儲單元中的數據位,導致數據錯誤。SEU是最常見的軟錯誤類型,主要影響存儲器和觸發器等存儲元件。
單粒子瞬態(SET):粒子撞擊引起的電荷產生導致電路中出現短暫的電壓脈沖或電流毛刺,可能引發邏輯電路的誤操作或數據傳輸錯誤。SET通常具有較短的持續時間,但在高速電路中可能具有顯著影響。
單粒子鎖定(SEL):當高能粒子擊中器件的寄生晶體管結構時,可能觸發寄生晶體管導通,形成大電流路徑,導致器件功耗急劇增加,甚至可能燒毀器件。SEL通常發生在功率器件或具有寄生結構的器件中。
單粒子功能中止(SEFI):粒子引起的電荷產生或電場變化導致器件的某些功能模塊永久性失效,使器件無法正常工作。SEFI是一種嚴重的故障類型,可能需要更換器件才能恢復功能。
大氣中子作為地球大氣層中的次級粒子,其產生主要源于宇宙射線粒子與大氣分子發生核反應。大氣中子具有較高的能量和通量,能夠輕易穿透電子器件的封裝,與器件內部的敏感區域相互作用,從而引發SEE。隨著汽車電子系統越來越多地應用于復雜環境,大氣中子引起的SEE問題變得愈發突出。
(二)半導體工藝發展對SEE的影響
半導體工藝的不斷進步使得微電子器件的特征尺寸不斷縮小,工作電壓降低,工作頻率提高。這些變化對SEE的發生具有重要影響。一方面,特征尺寸的縮小增加了單位面積內集成的晶體管數量,提高了器件對電離輻射的敏感性。另一方面,工作電壓的降低使得器件的臨界電荷(即引發SEE所需的最小電荷量)減少,從而更容易發生SEE。此外,工作頻率的提高使得電路對瞬態干擾更加敏感,SET等瞬態故障可能對系統性能產生更嚴重的影響。因此,在先進工藝節點下,MCU等微電子器件面臨的SEE威脅日益嚴峻。
(三)車規MCU的功能安全需求
汽車電子系統對可靠性要求極高,尤其是涉及汽車動力系統、制動系統、轉向系統等安全關鍵領域的電子控制單元。國際標準ISO26262對汽車電子系統的功能安全進行了規定,要求汽車電子系統具備一定的故障診斷能力和容錯能力,以確保在故障情況下仍能保持安全運行。對于車規MCU,ISO26262根據其在汽車系統中的安全關鍵程度,將其分為不同的汽車安全完整性等級(ASIL),其中ASIL-D等級要求最高的功能安全水平。為了滿足ISO26262的要求,車規MCU必須具備有效的軟錯誤防護能力,以降低SEE引發的故障風險。
三、車規MCU的軟錯誤率分析
(一)國內外研究現狀
美國Actel公司對0.22μm工藝SRAM FPGA器件進行了研究,發現未經抗輻射加固的FPGA器件在海拔5000英尺高度大氣中子SEE引起的軟錯誤率為4375FIT(FIT為故障率度量單位,定義為每10^9工作小時出現一次故障)。這表明在相對較低的海拔高度,大氣中子即可對微電子器件產生顯著的軟錯誤影響。
日立公司的Takumi Uezono等人對汽車90nm~130nm工藝電子系統微控制單元(MCU)的大氣中子輻射特性進行了實驗分析,結果表明四款MCU未經ECC修正的軟錯誤率為0.1—0.2FIT。這一結果反映了在汽車常用工藝節點下,MCU仍面臨一定的軟錯誤風險,尤其是在缺乏有效糾錯措施的情況下。
工業和信息化部電子第五研究所對國產的三款車載信息娛樂系統和智能車輛儀表系統開展了大氣中子輻照試驗,試驗發現28nm工藝MPU的SEFI截面和軟錯誤率超過ISO26262-5標準中B類隨機硬件故障要求的100FIT。這凸顯了在先進工藝節點下,國產汽車電子芯片在軟錯誤防護方面與國際標準存在的差距,亟需采取有效的防護措施以滿足功能安全要求。
(二)軟錯誤率計算模型
以512KB SRAM車規芯片為例,其單粒子翻轉次數可由以下公式估算:
N=δSEU×C×t×Φ(1)
其中:
N代表SEU數,單位為次;
δSEU代表中子SEU截面,單位為cm2·bit?1;
C代表被測SRAM存儲器的總容量,單位為bit;
t代表時間,單位為h;
Φ代表該地區大氣中子通量,單位為cm?2·h?1。
對于典型的MCU芯片SRAM存儲器,設定其特征尺寸為65nm,根據中國科學院國家空間科學中心建立的數據庫,典型65nmSRAM存儲器的翻轉截面數據約為8.1×10?1?cm2·bit?1。SRAM存儲器總容量C為512KB,即(512×1024×8)bit。時間t取1年,即8760h。大氣中子通量Φ根據器件的應用場景,以華南地區(廣州)和西南地區(羊八井)為例,分別為5.54cm?2·h?1和90.6cm?2·h?1。
將上述數據代入公式(1)可得:在華南地區,該512KBSRAM車規芯片一年內發生單粒子翻轉的次數約為0.016次,對應軟錯誤率為1882FIT;在西南地區,該芯片一年內發生單粒子翻轉的次數約為0.26次,對應軟錯誤率為30780FIT。
圖 1 不同地區大氣中子能譜圖
需要指出的是,512KB SRAM車規芯片存儲介質(一般高功能安全等級車規芯片SRAM大于512KB)在華南地區SER指標為1882FIT,遠超過ISO26262對ASIL-D等級車規MCU小于10FIT的要求。因此,針對軟錯誤問題開展深入研究并采取有效的防護措施,對于車規MCU的可靠性和安全性提升具有重要意義。
四、軟錯誤防護技術在車規MCU中的應用
(一)硬件級防護技術
糾錯碼(ECC)技術糾錯碼是存儲器軟錯誤防護中最常用的技術之一。ECC通過在存儲數據中添加冗余校驗位,能夠在讀取數據時檢測并糾正一定數量的錯誤位。對于SRAM存儲器,采用ECC技術可以有效降低SEU引發的數據錯誤率。例如,漢明碼是一種簡單的ECC,能夠檢測并糾正1位錯誤,檢測2位錯誤。在車規MCU中,通常采用更高級的ECC算法,如奇偶校驗碼與BCH碼的結合,以提供更強的糾錯能力。ECC技術的實現需要額外的硬件資源,包括校驗位生成電路、校驗位存儲單元和錯誤檢測糾正電路等。雖然這會增加一定的芯片面積和功耗,但考慮到其對軟錯誤防護的顯著效果,ECC技術已成為車規MCU存儲器設計中的關鍵技術之一。
三模冗余(TMR)技術TMR技術通過三倍復制電路或功能模塊,并采用多數表決機制對輸出結果進行判定,從而提高系統的可靠性。在車規MCU中,TMR技術可以應用于關鍵的邏輯電路、控制單元和數據通道等部分。例如,在MCU的中央處理器(CPU)中采用TMR結構,三個相同的CPU并行處理相同的任務,表決電路對三個CPU的輸出結果進行比較,選擇出現次數較多的結果作為最終輸出。TMR技術能夠有效防護單粒子引起的瞬態故障,如SET和SEU等,但其硬件開銷較大,芯片面積和功耗增加約2倍。因此,TMR技術通常僅用于對可靠性要求極高的關鍵模塊,以在可靠性提升和資源消耗之間取得平衡。
輻射硬化設計技術輻射硬化設計通過優化器件的物理結構和工藝參數,降低器件對輻射的敏感性。例如,增大晶體管的柵氧厚度、采用屏蔽層結構、優化器件的摻雜濃度等方法,可以減少高能粒子在器件內部產生的電荷收集量,從而降低SEE的發生概率。此外,采用RadiationHardenedbyDesign(RHBD)技術,在電路設計階段考慮輻射效應,通過增加保護二極管、優化布局布線等方式,提高電路的抗輻射能力。輻射硬化設計技術需要在器件制造工藝和電路設計階段進行綜合考慮,雖然會增加一定的設計復雜度和成本,但對于提高車規MCU的整體抗輻射性能具有重要作用。
(二)軟件級防護技術
定期數據刷新與scrubbing技術定期數據刷新是指在一定時間間隔內對存儲器中的數據進行重新寫入操作,以清除可能因SEU產生的錯誤位。對于易受軟錯誤影響的存儲區域,如關鍵配置寄存器和重要數據存儲區,設置合理的刷新周期可以有效降低數據錯誤的風險。Scrubbing技術則是在刷新的基礎上,結合ECC檢測結果,對檢測到的錯誤數據進行自動糾正。在車規MCU中,可以通過內置的刷新控制器和scrubbing引擎實現這一功能。例如,設置存儲器的刷新周期為1ms-10ms,根據ECC檢測結果對錯誤數據進行實時糾正,從而確保存儲數據的可靠性。然而,定期數據刷新和scrubbing技術會增加系統的功耗和訪問延遲,因此需要根據具體應用需求優化刷新周期和scrubbing算法,以在數據可靠性和系統性能之間取得平衡。
冗余算法與容錯軟件設計在軟件層面,采用冗余算法和容錯設計可以提高系統對軟錯誤的抵抗能力。冗余算法通過多次計算同一任務或采用多種不同的算法計算相同結果,并對結果進行比較和判定,從而提高計算結果的可靠性。例如,在MCU的傳感器數據處理模塊中,采用雙重冗余算法對傳感器數據進行處理,先分別用兩個不同的濾波算法對數據進行濾波,再比較兩次濾波后的結果,若結果一致則認為數據正確,若不一致則觸發相應的錯誤處理機制。容錯軟件設計則是在軟件中加入異常檢測和恢復機制,如設置看門狗定時器、增加數據校驗環節、設計故障恢復流程等,使系統能夠在發生軟錯誤時及時檢測并恢復到正常狀態,從而保證系統的穩定運行。
(三)系統級防護技術
電源管理與監控技術穩定的電源供應對于MCU的正常運行至關重要。在車規MCU系統中,采用高精度的電源管理芯片和穩壓電路,確保MCU供電電壓的穩定性和準確性,可以降低因電源波動引起的軟錯誤風險。同時,設置電源監控模塊對電源電壓進行實時監測,一旦檢測到電源異常,立即觸發相應的保護措施,如關閉非關鍵模塊的電源、降低MCU的工作頻率或復位MCU等,以防止軟錯誤的進一步擴散和對系統造成的損害。例如,通過在MCU系統中集成電源監控芯片,設置電源監控閾值,當電源電壓低于設定的下限時,電源監控芯片會在一定延遲后輸出復位信號,使MCU進行復位操作,確保系統從電源異常狀態中恢復。
時鐘管理與同步技術準確的時鐘信號是MCU正常工作的基礎。采用高穩定性的時鐘源,如晶體oscillator或陶瓷oscillator,并通過時鐘緩沖器和驅動器對時鐘信號進行合理分配和控制,可以保證MCU及其外圍電路的時鐘同步性和穩定性。此外,設置時鐘監控電路對時鐘信號的頻率和相位進行實時監測,當檢測到時鐘異常時,及時采取措施如切換備用時鐘源、調整時鐘頻率或復位時鐘電路等,以避免因時鐘問題引發的軟錯誤。例如,在汽車電子系統的MCU與傳感器、執行器等外圍設備之間,采用同步時鐘傳輸協議,確保數據傳輸的準確性和可靠性,防止因時鐘不同步導致的數據錯誤。
五、軟錯誤防護技術在車規MCU中的應用案例
(一)國外先進車規MCU的軟錯誤防護設計
以英飛凌的AURIX系列車規MCU為例,該系列MCU廣泛應用于汽車動力系統、底盤控制系統和安全系統等領域。在軟錯誤防護方面,AURIX系列MCU采用了多項先進技術:
ECC技術應用于片內SRAM和閃存,能夠檢測并糾正單比特錯誤,檢測雙比特錯誤,從而有效降低存儲器軟錯誤率。
采用TMR技術對MCU的安全關鍵邏輯模塊進行三模冗余設計,如對鎖步CPU核心、安全監控器和故障注入控制器等模塊,通過多數表決機制提高系統的可靠性。
集成了輻射硬化設計的I/O引腳和模擬電路,降低外部輻射對電路的影響。
配備了完善的電源管理和監控系統,實時監測芯片電源電壓,當檢測到電源異常時,能夠快速做出響應,如關閉部分功能模塊或復位芯片。
采用先進的時鐘管理系統,提供多個時鐘源和時鐘監控功能,確保時鐘信號的穩定性和可靠性。
通過這些軟錯誤防護技術的綜合應用,AURIX系列MCU在滿足ISO26262 ASIL-D等級功能安全要求的同時,也提高了其在復雜汽車電子環境中的可靠性和抗輻射能力。
(二)國產車規MCU的軟錯誤防護技術探索
隨著國內汽車電子產業的快速發展,國產車規MCU也在不斷加強軟錯誤防護技術的研發和應用。例如,國科安芯推出的 AS32A601 芯片在軟錯誤防護方面表現出色,其采用了多種先進技術以提高系統的可靠性。
首先,芯片配備了帶有 ECC(錯誤校正碼)功能的存儲系統。其 512KiB 內部 SRAM、16KiB ICache 和 16KiB DCache 以及 512KiB D-Flash 和 2MiB P-Flash 均帶有 ECC,能夠檢測并糾正存儲單元中的單比特錯誤,有效降低單粒子翻轉(SEU)等軟錯誤對存儲數據的影響,這對于維持系統穩定運行至關重要。
其次,芯片的安全機制設計周全。其內置的硬件加密模塊(DSE)符合 HIS-SHE 安全規范標準,支持多種加密方式和真隨機數生成,可在數據傳輸和存儲過程中保障數據的完整性和保密性,防止軟錯誤導致的數據泄露或被篡改。同時,故障收集單元(FCU)和故障檢測單元(FDU)密切協作,及時收集并處理系統中的錯誤事件,確保系統在出現軟錯誤時能夠迅速做出響應。
再者,芯片具備完善的電源管理功能。其電源管理模塊(PMU)負責切換多種電源模式,并配合低電壓檢測和復位功能(LVD/LVR)以及高電壓檢測功能(HVD),可在電源異常時及時復位芯片或關閉非關鍵模塊,避免因電源波動引發的軟錯誤。
此外,芯片的設計還充分考慮了抗輻射性能。通過優化器件結構和工藝參數,降低了高能粒子對芯片內部電路的影響,從而減少了單粒子效應(如 SEU、SEL 等)的發生概率。
六、軟錯誤防護技術面臨的挑戰與發展方向
(一)面臨的挑戰
工藝技術的不斷進步隨著半導體工藝向更小節點演進,MCU的特征尺寸不斷縮小,工作電壓降低,工作頻率提高,這使得MCU對軟錯誤更加敏感。傳統的軟錯誤防護技術在先進工藝節點下可能面臨有效性降低的問題,需要不斷研究和開發新的防護技術以適應工藝技術的發展。
系統復雜性的增加現代汽車電子系統越來越復雜,MCU不僅要處理大量的控制任務,還要與各種傳感器、執行器和網絡設備進行高速數據交互。這使得軟錯誤的傳播路徑和影響范圍更加復雜,增加了軟錯誤防護的難度。如何在復雜的系統架構中有效地檢測和糾正軟錯誤,是當前面臨的一大挑戰。
功能安全與信息安全的融合在汽車電子領域,功能安全和信息安全日益受到重視。軟錯誤防護技術不僅要滿足功能安全要求,還需要考慮信息安全方面的威脅,如防止軟錯誤被惡意利用導致信息安全漏洞。如何實現功能安全與信息安全的融合防護,是未來軟錯誤防護技術需要解決的問題。
成本與性能的平衡軟錯誤防護技術通常需要增加額外的硬件資源和設計復雜度,從而導致芯片成本上升。在汽車電子市場競爭激烈的環境下,如何在保證軟錯誤防護效果的前提下,優化防護方案,降低芯片成本,是軟錯誤防護技術面臨的重要挑戰。
(二)發展方向
新型軟錯誤防護技術的研究隨著人工智能、機器學習等新興技術的發展,研究基于這些技術的軟錯誤防護方法具有重要意義。例如,利用機器學習算法對軟錯誤的發生模式進行建模和預測,提前采取防護措施;或者采用神經網絡等技術對軟錯誤進行實時檢測和糾正。此外,探索新型的編碼技術、冗余技術等,以提高軟錯誤防護的效率和效果。
多技術融合的防護方案為了應對復雜汽車電子系統中的軟錯誤問題,未來軟錯誤防護技術將朝著多技術融合的方向發展。例如,將硬件級防護技術(如ECC、TMR)、軟件級防護技術(如冗余算法、容錯軟件設計)和系統級防護技術(如電源管理、時鐘管理)有機結合,形成多層次、全方位的防護體系,提高系統的可靠性。
與工藝技術的協同發展加強與半導體制造工藝的協同研發,從器件工藝層面提高MCU對軟錯誤的免疫力。例如,開發新型的輻射硬化工藝、抗輻射材料等,降低器件對輻射的敏感性;或者通過優化器件結構和布局布線,減少軟錯誤的發生概率。同時,根據工藝技術的特點,針對性地設計軟錯誤防護技術,實現工藝與防護技術的協同發展。
功能安全與信息安全的協同防護建立功能安全與信息安全協同防護機制,將軟錯誤防護納入到汽車電子系統的整體安全設計中。例如,在系統架構設計階段,綜合考慮功能安全和信息安全需求,對軟錯誤防護技術進行統一規劃和部署;開發功能安全與信息安全融合的工具和方法,提高系統的安全性和可靠性。
標準化與規范化隨著汽車電子行業的快速發展,制定和完善軟錯誤防護技術的標準化和規范化工作至關重要。國際標準組織和行業協會應加強合作,制定統一的軟錯誤防護技術標準和規范,為汽車電子系統的開發和認證提供依據。同時,推動軟錯誤防護技術的測試和驗證方法的標準化,確保不同廠商的車規MCU在軟錯誤防護方面具有可比性和一致性。
七、結論
軟錯誤防護技術在車規MCU中的應用對于提高汽車電子系統的可靠性和安全性具有重要意義。隨著半導體工藝的不斷進步和汽車電子系統的日益復雜,軟錯誤問題將更加突出。本文詳細介紹了軟錯誤防護技術的硬件級、軟件級和系統級應用,并分析了國內外車規MCU在軟錯誤防護方面的實踐案例,同時探討了軟錯誤防護技術面臨的挑戰與未來發展方向。未來,通過不斷研究和創新軟錯誤防護技術,加強多技術融合和與工藝技術的協同發展,以及推動標準化與規范化工作,有望為車規MCU提供更加可靠、安全的軟錯誤防護解決方案,滿足汽車電子行業對高可靠性MCU的迫切需求,推動汽車電子技術的持續發展和創新。