2024年深度學習技術主要發展分析

摘要:深度學習作為人工智能領域的戰略級技術,在2024年持續取得突破性進展,持續重構現代戰爭規則,成為大國軍事智能化競爭的核心角力點。對2024年深度學習技術熱門領域的主要發展進行了綜合評述。研究了深度學習技術的發展現狀,其中多模態推理技術、空間計算技術、魯棒深度學習技術成為當前研究的熱點方向;探討了深度學習技術的軍事應用前景,在戰場偵察、態勢感知、輔助決策、指揮控制等諸多軍事領域任務中,深度學習技術的應用潛力較大并已經開始為實戰賦能;分析了深度學習技術的發展趨勢,多模態信號處理、模型壓縮、小樣本學習以及模型評測環境構建,將成為未來深度學習進一步賦能軍事應用的重要發展方向。
關鍵詞:深度學習;機器學習;人工智能;多模態推理;空間計算;魯棒深度學習
1 引 言
深度學習作為人工智能的一個重要分支,是一種基于計算模型的學習方法,能夠通過多個相互連接的單元(神經元)從原始輸入數據中直接學習復雜的表示和模式[1]。憑借其獨特的自學習能力,深度學習能夠從大量數據中自動提取特征從而完成復雜的任務,已成為解決各類復雜問題的有效工具,并在眾多突破性技術和創新領域發揮著核心作用。在軍事應用領域,深度學習的影響和意義尤為顯著,其通過培育新域新質作戰力量、賦能軍事裝備和系統,推動了軍事技術的現代化、智能化發展。隨著深度學習技術的不斷發展和完善,其在軍事領域的應用前景將更加廣闊。在此背景下,本文對2024年度深度學習技術發展態勢與應用現狀進行了梳理和總結,并對下一步深度學習的發展趨勢進行了預測,從而為加速深度學習技術驅動的新域新質作戰力量培育與軍事賦能進程提供了參考方向。
2 深度學習技術發展態勢分析
2024年,深度學習技術持續突破,多模態推理技術、空間計算技術、魯棒深度學習技術成為三個進展較為顯著的方向,成為深度學習技術當前研究熱點。其中,多模態大模型和多模態知識圖譜的結合,有效推動基于深度學習的多模態理解和生成能力提升;隨著深度學習技術對機器人的賦能力度加深,機器人空間操作研究正在邁向三維空間感知認知新階段;魯棒深度學習技術進步,提升深度學習模型的安全性、可信性,從而為人工智能應用拓展奠定基礎。
2.1 大模型驅動的多模態推理技術,提升多模態數據理解與生成能力
2024年,多模態推理技術主要沿著基于多模態大模型的推理路徑和基于多模態知識圖譜的推理路徑發展。
在基于大模型的多模態推理方面,多模態大模型作為一種典型的深度學習模型范式,依托其復雜的神經網絡架構、強大的算力底座和高質量的多模態數據資源,在多模態推理方面展現出強大的技術優勢[2]。5月,美國OpenAI公司推出了一款具有里程碑意義的多模態推理大模型GPT-4o[3]。GPT-4o不僅能夠處理文本,還能理解音頻、圖像,甚至視頻輸入,并能生成相應的多模態輸出,這種能力使得GPT-4o在多模態場景中表現出色,能夠準確識別和理解各種類型的數據,從而實現高效的推理和決策。GPT-4o的多模態能力得益于其訓練數據的廣泛性和多樣性,其訓練數據涵蓋了大量的公開可用的網絡信息(包括網頁、代碼、數學公式等),這為GPT-4o提供了廣泛的邏輯和推理能力;同時,GPT-4o從圖像、音頻和視頻中汲取了大量信息,學會了如何解讀和生成復雜的圖像、聲音和視頻內容,從而實現了真正的視聽合一。6月,作為將檢索增強生成技術引入多模態大模型的首創性工作之一,普林斯頓大學、亞馬遜人工智能實驗室等聯合團隊發布多任務檢索增強的多模態推理大模型框架RAVEN[4],通過針對特定任務的微調來增強基礎多模態大模型能力。具體而言,如圖1所示,給定一個輸入圖像,從外部存儲器中檢索“圖像-文本”對,隨后使用多任務預訓練的基礎視覺-語言模型對檢索到的樣本以及查詢進行編碼,并通過處理查詢和檢索到的數據進行解碼以生成輸出結果。該成果通過在不需要額外檢索特定參數的情況下整合檢索增強的樣本,模型獲得了在多個任務上有效的檢索特性。 在基于知識圖譜的多模態推理方面,通過將知識圖譜(尤其是多模態知識圖譜)融入深度學習模型架構,實現對語義關系的明確化、歧義的消除以及理解的深化,提升了基于深度學習的視覺問答系統的理解力和回答的精確度。2月,三星印度研發院提出名為KAM-CoT的深度學習框架,揭示知識圖譜在增強大型語言模型多模態能力方面的作用。該框架整合了思維鏈推理、知識圖譜以及多種模態信息,以提升大型語言模型對多模態任務的綜合理解能力。在多模態視覺問答任務(圖2)中,該框架在訓練參數較少的情況下,取得了當前最優的性能表現[5]。該成果致力于解決多模態理解及幻覺問題,力求在僅使用較少的可訓練參數的情況下,實現與大型模型相媲美的高效能,其主要創新之處在于將知識圖譜與思維鏈推理有效結合,通過在推理過程中引入外部知識,顯著提高了模型處理復雜問題的能力及答案的準確性。8月,文獻[6]提出一種基于多模態知識圖譜的多模態推理方法MR-MKG,該方法通過利用多模態知識圖譜進行跨模式學習,從而獲取豐富的語義知識,顯著增強了大型語言模型的多模態推理能力。具體而言,該成果采用關系圖注意力網絡對多模態知識圖譜進行編碼,并設計了一個跨模態對齊模塊,以優化圖像與文本之間的對齊。該成果被認為是首次嘗試利用多模態知識圖譜中衍生的知識來擴展大模型的多模態推理能力。 2024年,涌現出大量用于多模態推理研究的評估基準數據集,重點考驗和評價模型處理復雜場景、復雜任務的多模態推理能力,為相關技術研發提供試驗場和評判依據。6月,美國卡耐基梅隆大學、普林斯頓大學等聯合團隊發布用于評估多模態模型在執行大規模、多學科任務時表現的評估基準MMMU(圖3)。面向全面性、高度異構的圖像類型、交錯的文本和圖像、基于深度學科知識的專家級感知和推理等四項挑戰,該成果集合了從大學考試測驗、教科書等來源精心挑選的11500個多模態問題,覆蓋了藝術與設計、商業、科學、健康與醫學、人文與社會科學以及技術與工程共六個核心學科領域,問題橫跨30個學科和183個子領域,包含了30種不同類型的圖像,如圖表、圖解、地圖、表格、樂譜和化學結構等[7],與現有的基準測試不同,該基準側重于評估模型在運用特定領域知識進行高級感知和推理方面的能力,從而挑戰模型執行類似專家所面臨的復雜任務。8月,美國Meta公司基礎人工智能研究團隊發布一款創新型評估框架UniBench,其核心目標是對視覺-語言模型的性能進行全面評估[8]。該框架通過統一實現了超過50 個細致分類的基準測試,涵蓋了從物體識別到計數等多個領域,為研究者深入剖析視覺-語言模型的能力提供了有力工具。該框架的顯著特點在于,能夠揭示模型在不同任務中的優勢和不足,尤其是能夠指出模型在推理和關系理解等任務上單純依賴模型規模或數據量增加的局限性。同期,為了驗證視覺語言模型是否能夠僅通過視覺線索達到與它們在文本模式內已成功實現同樣的因果推理理解水平,澳大利亞悉尼大學提出了一種驅動式圖像合成方法[9],能夠生成內含語義因果關系和視覺線索的鏡像圖像,從而有效地對視覺-語言模型的因果推理能力進行評估。通過廣泛的實驗研究發現,當前最前沿的視覺-語言模型在多模態因果推理方面的表現可能并未達到預期的高標準。
2.2 空間計算技術與機器人緊密耦合,提升三維空間感知認知能力
將深度學習技術嵌入并賦能機器人等實體空間終端設備,一直是深度學習領域近年的研究熱點,重點強調在三維場景中進行空間感知和推理決策,催生出空間計算這一深度學習的新興研究方向[10]。2024年度的相關研究,著重探索將視覺-語言模型應用于機器人的空間感知認知任務,重點解決有效融合視覺與語言信息、有效應對機器人操作中的時序性問題等,在邏輯框架和關鍵技術層面均有標志性進展。
在邏輯框架層面,大模型架構的理解生成與規劃統籌能力,迎合機器人的各類具身操作任務對語言指令理解、場景感知和時空規劃的強需求,眾多研究在探索充分將大模型能力遷移到機器人領域、直接規劃底層動作序列,形成全新的視覺驅動的空間感知認知學習框架。5月,文獻[11]基于開源的多模態語言視覺大模型OpenFlamingo,開發了一款開源且易于使用的機器人操作框架RoboFlamingo,僅需單機即可完成訓練。通過簡單的少量微調,即可將視覺-語言模型轉換為適用于機器人操作任務的模型,實現語言交互的機器人操作。相關實驗結果證實,該框架僅利用了1%帶有語言標注的數據,便在一系列機器人操作任務中取得了當前最優的性能表現,成為機器人領域首個開源的視覺信號學習框架。7月,文獻[12]發布名為OVGNet的創新型視覺-語言學習框架,該框架致力于解決機器人在現實環境中對未知物體類別進行抓取的難題。該框架通過融合開放詞匯學習機制,使得機器人能夠識別并有效地抓取已知類別及新穎類別的物體。此項技術打破了傳統機器人抓取系統的界限,利用包含63385個抓取場景的權威數據集進行訓練,實現了在已知物體類別上71.2%和新穎物體類別上64.4%的高準確率。
在關鍵技術層面,眾多研究探索通過構建并引入場景模擬深度學習模塊和模擬學習理念,來提升智能體在空間的自主決策、精準空間定位與行動推理能力。6月,美國伊利諾伊大學厄巴納-香檳分校提出面向三維視覺-語言空間計算的端到端情境基礎模型SIG3D(圖4),重點突破智能體能夠基于語言提示進行自我定位、智能體能夠從其計算得出的位置角度回答開放式問題等瓶頸難題,形成了一種結合視覺語言模型來強化空間智能的全新深度學習方法論[13]。面向情景感知(人類在回答三維空間中的復雜感知、規劃任務和推理任務的時候,會自然而然地從自身所處的情景出發,來做第一人稱的理解和判斷)需求,該深度學習框架采用稀疏體素表示對三維場景進行標記,并設計了一種基于語言的情境模擬器,其后銜接情境問答模塊。6月,美國麻省理工學院提出了一種名為“模擬選擇定位與放置”的新型學習技術SimPLE[14],旨在通過模擬訓練,使機器人能夠執行精確的拾放操作。該技術采用計算機輔助設計模型,通過模擬學習來掌握機器人拾取、重新抓握及放置不同物體的技能。該技術包含任務感知抓握模塊、視覺-觸覺感知模塊、規劃模塊等核心模塊,三個模塊相互協作,使得機器人能夠高效地處理形狀和大小各異的物體。與傳統的學習方法相比,該成果的優勢在于機器人無需與實際物體進行交互即可完成學習過程,從而顯著提升了學習效率,因此有望在自動化行業得到應用特別是在汽車制造、醫療實驗室等半結構化環境中,進一步提高自動化操作的水平。7月,美國麻省理工學院、加州大學圣地亞哥分校聯合團隊發布機器人空間操控系統Bunny-VisionPro(圖5)[15]。該系統在模擬學習框架下,借助虛擬現實技術,使人類用戶能夠實現對機器人在復雜、未知環境下的遠程、高復雜度的操控。人類用戶只需佩戴虛擬現實頭盔,便能從機器人的視角進行觀察、操作環境,并通過觸覺反饋對其動作進行控制,仿佛親臨機器人所在位置,相較于傳統深度學習技術實現了更高的成功率和更短的任務完成時間,并且在下游任務上體現出較好的泛化能力。該成果被認為在遠程手術、搜索與救援以及行星探索等領域展現出廣闊的應用前景。
2.3 魯棒深度學習技術,提升深度學習技術本身安全性和可信性
當前,深度學習模型及系統往往會表現出顯著的脆弱性,即輸入數據的微小變化便可能引發模型輸出錯誤。即便是先進的深度學習模型,也極易受到對抗性擾動的攻擊,且對此類擾動的防御極具挑戰。圖6展示了一個直觀的遭受擾動的深度學習模型示例,模型最初將左側的原始圖像正確地分類為冰激凌,將中間像素擾動疊加到原始圖像,形成右側的擾動圖像,盡管在視覺上與原版相同,但模型仍將其分類為卷餅。因此,魯棒深度學習一直以來被各方面關注,直接決定了人工智能系統的可信度以及應用風險[16]。例如,7月,出于對新技術在倫理、法律和社會影響方面的關注,特別是對于生成式人工智能和對抗性技術可能引發的意外后果的擔憂,美國DARPA宣布正在推動“倫理、法律與社會影響”(Ethical, Legal,and Societal Implications,ELSI)項目相關研究[17],旨在協助相關人員更加謹慎且負責任地引入和應用具有顛覆性的、新興的深度學習與人工智能技術。
面向自監督、預訓練模型等新興深度學習模型的魯棒性增強(及評估)技術取得進展,促進相關技術的可信應用,產生多項關鍵技術和基礎性平臺。
在關鍵技術層面,5月,美國麻省理工學院聯合團隊開發了一項魯棒深度學習新技術,旨在通過訓練一系列略有差異的基礎模型來評估深度學習模型(尤其是自監督學習模型)的可靠性[18]。該技術采用算法來評估不同深度學習模型在相同測試數據集上生成的特征表示向量的一致性(稱為“鄰域一致性”,如圖7所示),進而判斷深度學習模型的可靠性。與傳統方法相比,該技術在眾多分類任務中表現優異,特別是在涉及隱私敏感的數據集(如醫療保健領域),展現了其實際應用的重要性。研究表明,通過評估模型在相似場景下的一致性,研究者能夠更加精確地量化模型的可靠性。7月,生成式人工智能全球領軍企業美國OpenAI公司與美國洛斯阿拉莫斯國家實驗室啟動一項針對大模型安全性和魯棒性的聯合研究工作,其目標在于探究科學家如何在實驗室環境中安全地使用多模態人工智能模型[19]。依據白宮發布的行政命令,美國能源部所屬的國家實驗室需對先進人工智能模型的能力進行評估,尤其是在生物學等學科領域的應用前景。為此,OpenAI公司與洛斯阿拉莫斯國家實驗室的生物科學部門正聯合對多模態大型模型進行生物安全性評估,并探討這些模型在輔助生物科學研究中的潛在應用價值。
在基礎性平臺層面,5月,英國人工智能安全研究所推出了一款新的針對深度學習模型及系統的安全評估平臺Inspect[20]。該測試平臺將面向全球人工智能社區免費開放,旨在進一步加強以深度學習為主的人工智能技術魯棒性、安全性、可信性評估工作,為人工智能模型的安全創新奠定堅實基礎。該平臺是一款軟件庫,測試人員(包括初創企業、學術界及國際政府機構等)可利用其對各類深度學習模型的特定功能進行評估,并根據測試結果對模型的安全性進行評價。該平臺適用于評估涉及人工智能核心知識、推理能力和自主能力等多個領域的模型。
盡管魯棒深度學習領域近年來涌現出大量標志性成果,但是距離實用目標尚存距離。比利時哥特大學在關于魯棒深度學習的最新綜述[21]中提出:當前所提出的魯棒深度學習解決方案在多個關鍵方面仍存在不足,例如這些方案往往增加了計算負擔、對數據量的需求更為龐大、其復雜性使得正確部署變得困難,或者在準確性上無法滿足具體任務的要求。
3 深度學習技術軍事應用分析
深度學習技術在軍事領域的應用前景廣闊,尤其是在戰場偵察、態勢感知、輔助決策、指揮控制等軍事任務上的應用已初見成效,在提升軍事行動的智能化水平、增強作戰效能的同時降低人員風險。
3.1 戰場偵察:形成低成本、易部署、高敏捷的戰場環境偵測新手段
在戰場偵察方面,深度學習技術能夠實現對無人機、衛星圖像等偵察手段獲取的大量數據的快速處理,自動識別并持續跟蹤對方目標,進而提高情報獲取的速度和準確性。6月,烏克蘭特種部隊成功研發和應用了名為“鷹眼”(Eagle Eyes)的低成本戰場偵察軟件[22],該軟件使得無人機能夠在不依賴全球定位系統(Global Positioning System,GPS)的情況下執行飛行任務。這款軟件運用深度學習技術,將無人機下方區域的實時視頻與偵察機所采集的照片和視頻資料制成的地圖進行比對,以此實現飛行路徑的導航。此外,該軟件能夠識別導彈發射器、坦克等軍事目標,并能在無需操作員直接指令的情況下,執行投擲炸彈或接近這些目標的行為。7月,美空軍部發布了一份尋求由深度學習等前沿人工智能技術驅動的新型目標跟蹤技術的招標書[23],旨在開發下一代戰場目標跟蹤架構,該架構將整合多種數據源,并在高性能計算環境中應用深度學習、機器學習和機器推理等人工智能算法。該計劃預計投資約9900萬美元,其研究范圍涵蓋處理和加速三維像素、矢量和點云數據,以及利用深度學習等技術從多個數據源進行識別、分類和模式學習。
3.2 態勢感知:提升情報加工處理的智能化水平與風險危機預警效率
在態勢感知方面,深度學習技術能夠從復雜、碎片化的數據中提取高價值信息,構建戰場環境的實時感知圖,并通過分析多源數據(包括雷達、紅外、聲吶等信號),幫助軍事人員更好地理解戰場態勢、識別潛在威脅,從而提高戰場透明度。5 月,美國防部已授予美國大數據分析公司Palantir公司價值4.8億美元的合同,促進開發“馬文”(Maven)智能系統原型[24]。該系統通過整合多種數據源,旨在識別關鍵關注點并加速情報分析人員的工作效率。預計該項目將于2029年5月完成,美國防部希望使用包括該智能系統在內的人工智能工具來實現其聯合全域指揮與控制作戰架構,該架構旨在更好地將美軍方和主要國際合作伙伴的平臺、傳感器和數據流連接在一個更加統一的網絡下。6 月,美中央情報局的人工智能創新總監拉克希米·拉曼在亞馬遜網絡科技峰會上透露,中央情報局正積極將深度學習等人工智能技術應用于數據分類和開源信息搜集領域[25]。具體來說,中央情報局利用相關先進執行翻譯、轉錄等任務,以協助分析師篩選和處理大量數據,以形成對于特定案件的整體態勢;此外,中央情報局在涉及收集和處理公開信息的工作中,也在加大人工智能技術的輔助力度。
3.3 輔助決策:緩解決策者面臨的信息過載問題,形成方案策劃能力
在輔助決策方面,深度學習技術依托其對大量戰場數據的即時推演與預判能力,能夠幫助軍事人員在短時間內從海量信息中篩選出關鍵情報、推導出關鍵結論,為戰術選擇和戰略部署提供數據支持,同時,通過模擬和預測對方行為趨勢,輔助制定更加有效的作戰規劃,并通過快速遍歷、模擬各類可能出現的場景下的應對方案和手段,輔助作戰人員制定可行性高的作戰方案。1月,美國諾格公司宣布正在研發一款機器學習和深度學習驅動的輔助決策系統[26],旨在通過模式識別等途徑來簡化對導彈的發現分類和監測推演過程。通過分析實際發射事件,對真實事件或真實導彈進行精確分類,并提供輔助決策依據,旨在解決分析與決策人員所面臨的信息過載問題,緩解虛警問題。該系統計劃定期收集和更新各國武器庫信息,以實現對武器系統的精確識別和判斷,預計將于2025年交付美太空軍,為相關項目執行與試驗任務提供技術支持。4月,美國DARPA成功測試了實現了無人駕駛F-16戰斗機與有人駕駛F-16戰斗機在視距范圍內的空中交戰[27],驗證了以強化學習和智能體技術為核心的深度學習技術在無人自主空戰場景中進行復雜推理和輔助決策的可行性,此次測試不僅為未來戰爭空中纏斗、人機編組等場景提供作戰支持,也為深度學習技術在時敏、復雜作戰場景中的應用奠定了基礎。8月,美海軍研究實驗室與全球海軍研究辦公室在現代海洋博覽會上共同展示了Littoral Lens計算機視覺系統[28]。該系統具備自動實時推算沿岸水流速度和波浪參數的能力,以支持瀕海戰術決策,并提升有人艦艇或無人艦艇的戰場感知能力。目前,該系統正在進行技術概念試驗,已經作為關鍵技術被納入全球海軍研究辦公室的“海軍陸戰隊瀕海遠征行動沖浪觀測工具”項目中,并最終應用于海軍陸戰隊。
3.4 指揮控制:融合多元、復雜作戰要素,優化指揮與控制操作流程
在指揮控制方面,深度學習技術通過分析歷史作戰數據和實時戰場信息,能夠為軍事人員提供指揮控制方案建議,優化指揮鏈路的通信和決策流程、提高指揮控制的效率和準確性,此外,深度學習技術還能用于自動化指揮控制系統,實現對戰場資源的智能調度和優化配置。3月,英國BAE系統公司獲得了一筆8600萬美元的撥款,以繼續支持美海軍的移動可部署“指揮、控制、通信、計算機、作戰系統、情報、監視和偵察”(Command,Control,Communications,Computers,Cyber,Intelligence,Surveillance,and Reconnaissance,C5ISR)項目[29]。該項目旨在建立一個具有場景決策和指揮控制能力的網絡系統,該系統能夠協助部隊執行各種任務和野戰行動。4月,美空軍向私營部門尋求關于深度學習、機器學習等人工智能技術的建議,以便將這些技術集成于基于云的指揮與控制架構中,最終應用于空軍指揮與控制的現代化進程中[30]。美空軍基于云的指揮與控制平臺,在一個基于云的界面下集成了數百個關鍵的防空雷達和數據,用于制定行動計劃,以幫助領導者快速做出關鍵決策。此次征集的人工智能技術將會發揮上述基于云的指揮與控制平臺的重要“插件”作用,包括一整套工具和技術,主要目的是優化正在開發的指揮與控制應用程序,并減少指揮與控制操作所需的時間。美空軍指出,將人工智能技術整合到指揮與控制系統中,能夠協助指揮官做出指揮控制方案的決策。
4 深度學習技術發展趨勢分析
從軍事應用需求和科研價值角度,分別從信號處理、設備部署、任務應用、評測驗證等方面,分析深度學習技術的未來主要發展趨勢(圖8),概述如下。
4.1 信號處理:強化多源異構戰場數據融合的多模態信號處理與理解技術
在全域聯合作戰大背景下,移動通信時代和萬物互聯時代所帶來的戰場環境數據量的激增和流媒體信號占比增加現象,以及模型架構的設計改良與硬件的性能提升,使深度學習技術研發已經不可避免地面臨從以往單一模態處理開始向多模態生成方面邁進的需求,傳統單模態分析技術手段已難以應對復雜電磁環境中雷達、光電、通信、聲吶等多維度戰場信號的實時融合解析需求[31]。因此,支撐多模態大模型預訓練和微調的深度學習架構,將成為未來一段時期的研究熱點,兼顧處理文本、圖像、音頻、視頻、電磁等多種模態數據,實現跨模態特征對齊與語義關聯、實現更全面的信息理解和推理,在更好地理解用戶意圖的基礎上,根據用戶需求生成多模態內容[32],提高對復雜戰場場景的理解和響應能力,深刻重塑未來戰場的感知、決策與對抗模式。
4.2 設備部署:適應邊緣側智能發展需求的深度學習模型壓縮技術
隨著無人作戰集群、單兵智能裝備、嵌入式電子戰系統等邊緣節點智能設備的大規模列裝,傳統高算力依賴型深度學習模型已無法滿足強對抗環境下低功耗、高實時、抗擾動的作戰需求。在這種情況下,為了應對深度學習模型的參數規模不斷增大的現狀,更好地適應偵察探測等任務對于低算力支撐的邊緣側智能需求,模型壓縮和加速技術將變得至關重要,平衡計算準確率和計算資源開銷,將成為未來深度學習技術發展所需要重點考慮的問題、將成為實現戰術邊緣強智能的核心使能手段[33]。未來,剪枝、量化、知識蒸餾等模型壓縮方法將得到進一步發展[34],降低模型的計算量和存儲需求,并提高模型的推理速度,使深度學習技術能夠應用于資源受限的設備,從而推動形成去中心化彈性智能的新型作戰范式,顯著提升戰場強對抗環境下的體系生存與持續作戰能力。
4.3 任務適應:提升特定領域任務自適應能力的小樣本深度學習技術
傳統深度學習技術依賴于大量高質量訓練數據,數據量和數據質量水平成為制約傳統深度學習技術發展高度和賦能力度。但是,對于諸多實際應用領域(尤其是軍事應用任務),難以獲取或者在短期內標注大量高質量訓練數據[35],因此,面對強對抗、高動態戰場環境下新型威脅樣本稀缺、裝備迭代周期壓縮、作戰模式突變等挑戰,為了減少對大量標注數據的依賴,基于元學習與遷移強化的小樣本學習技術將在深度學習領域得到進一步發展、形成顛覆性應用價值[36],使模型能夠學會“如何學習”、從而從少量樣本中快速學習新的概念、技能和經驗,從而提升深度學習技術對于新任務、新場景、新數據、新知識的適應性和靈活性,最終突破傳統數據依賴型人工智能的局限,支撐構建“快速認知-敏捷適應”作戰技術體系。
4.4 評測驗證:提高深度學習技術的評估效率權威評測環境構建技術
當前,世界各國競相發展深度學習技術,對于構建權威的、公開的深度學習技術基礎性研發和評測環境的迫切需求也逐漸凸顯。上述需求是由當前深度學習模型普遍存在的“黑盒”屬性所導致的,因此在深度學習技術(包括大模型技術)投入態勢研判、指揮控制等高風險軍事決策任務中開展應用之前,必須對其安全性、可信性、魯棒性等進行檢測驗證。針對上述需求,深度學習技術評測環境將提供開源數據資源、開源基線模型、評測標準、符合軍事特殊性的評測指標體系及評測算法[37-38],將成為確保作戰級人工智能可靠性的“質量閥門”,從而支撐新的深度學習模型在權威數據集上與權威基線模型(包括當前取得最優性能的基線模型)進行公平的比測和結果量化,同時進行安全性測試,從而驗證新的深度學習模型的先進性和可行性,支撐關鍵領域的深度學習技術的可信認證。
5 結束語
近年來,深度學習技術取得了顯著的進步,其研究成果正逐步轉化為實際產品,其應用和影響范圍也在不斷擴大。同時,深度學習技術在軍事領域的應用也具有重大戰略意義,能夠顯著提升軍事指揮與控制能力,增強態勢感知和決策支持,從而提高軍隊的整體作戰效能。為了促進深度學習技術在軍事領域的創新與轉化,本文在總結分析深度學習技術發展現狀的基礎上,深入探討了其在軍事領域的應用方向和未來技術發展趨勢,從而為深度學習在軍事領域的創新發展和應用研究提供了參考方向。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/88575.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/88575.shtml
英文地址,請注明出處:http://en.pswp.cn/web/88575.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Swift 枚舉:深入理解與高效使用

Swift 枚舉:深入理解與高效使用 引言 Swift 枚舉(Enum)是 Swift 編程語言中的一種基本數據類型,它允許我們將一組相關的值組合在一起。枚舉在 Swift 中有著廣泛的應用,從簡單的數據分類到復雜的業務邏輯處理,枚舉都能發揮巨大的作用。本文將深入探討 Swift 枚舉的原理、…

從大模型到云游戲,國鑫SY8108G-G4如何化身“全能AI引擎”?

當大模型參數量突破萬億級,傳統服務器在散熱枷鎖與擴展瓶頸前舉步維艱。國鑫全新推出的 SY8108G-G4 8U8卡AI服務器 ,以顛覆性架構支持8張600W GPU全速并行,結合CPU-GPU直連、冗余電源和彈性擴展三大優勢,為AI訓練、生成式創作、數…

在多個DHCP服務器的網絡環境中選擇指定的DHCP服務

問題 學校有兩個網絡,我電腦網線插在同一個交換機的同一個接口上,有時候獲取的是172.27開頭的IP,有時候獲取的是192.168開頭的IP。 通常第一次開機獲取的是172.27的IP,插拔網線或重啟網絡接口后會變為192.168的IP。 兩個網絡各有…

【Nginx】實測Nginx增加第三方主動式健康檢查模塊

一、環境說明系統版本:CentOS 7.9內核版本:3.10.0-1160.119.1Nginx版本:1.26.3第三方檢測模塊及版本:nginx_upstream_check_module(v0.4.0,兼容nginx 1.20)二、nginx安裝部署2.1 下載檢測模塊目…

pytest中mark的使用

在pytest中,mark(標記)是用于對測試用例進行分類、篩選或附加元數據的重要功能。以下是其核心使用方法: 1. ?基本標記定義與使用? ?注冊標記?:在pytest.ini中預先定義標記(避免運行時警告)&…

STM32N6--NPU簡單介紹

關鍵詞:STM32N6、生物神經元、神經網絡處理單元(NPU)、數據流處理 參考鏈接: RM0486 Reference manual STM32N647/657xx Arm-based 32-bit MCUsST_中文論壇【資料合集】STM32N6超全資料合集(定期更新)B站_…

一款開源免費、通用的 WPF 主題控件包

前言 今天大姚給大家分享一款開源免費(MIT License)、通用的 WPF 主題控件包:Rubyer WPF。 WPF介紹 WPF是一個強大的桌面應用程序框架,用于構建具有豐富用戶界面的 Windows 應用。它提供了靈活的布局、數據綁定、樣式和模板、動…

windows安裝python環境以及對應編輯器的詳細流程

windows安裝python環境以及對應編輯器的詳細流程 一、安裝 Python 環境 步驟 1:下載 Python 安裝包 訪問 Python 官網:https://www.python.org/downloads/windows/選擇最新穩定版本(如 Python 3.12.x),點擊 Download W…

高保真組件庫:下拉多選

制作一個高保真的下拉多選需要具備多種交互事件。 拖拽一個文本框并命名為“下拉文本輸入框”和一個向下的箭頭組合在一起,外觀上看起來是下拉組件。為了美觀調整一些邊框顏色、圓角、文字左邊距等。 拖拽一個矩形作為下拉選項的容器,啟動陰影xy都為0 制作下拉選項:拖拽一個…

sqli-labs靶場通關筆記:第1-4關 聯合注入

第1關:單引號閉合1.這是第1關的界面,讓我們以id作為參數輸入,方式為數值,這里輸入?id1看一下。2.顯示了id1的用戶名和密碼。分析:在sql注入漏洞中,第一步是要尋找注入點,即可以輸入參數的地方&…

和服腰封改造:3種解構主義造型的東方美學新解

和服腰封改造:3種解構主義造型的東方美學新解在東京原宿的小巷里,一場關于和服腰封的"溫柔革命"正在悄然發生。年輕設計師們將傳統寬腰帶拆解重構,創造出既保留東方神韻又充滿當代氣息的造型藝術。正如一位新銳設計師所說&#xff…

什么是強化學習(RL)--3

如果reward大多數情況下都是0,只有少數是很大的值。這種情況下就是稀疏reward的問題。比如你要教機械手臂拴螺絲,只有最后把螺絲栓進去才可以,其余機械手臂的位置都不可以。額外的reward幫agent學習。reward shaping射擊游戲cs,這個游戲中&am…

彩虹云商城全解源碼系統|人工客服系統

核心升級亮點 人工客服系統:新增智能工單在線IM雙模式多端同步:PCH5小程序APP四端數據實時互通支付升級:支持數字人民幣收款安全加固:內置Web應用防火墻(WAF) 部署教程 ? B站視頻教程 包含: 寶塔環境配置&#xf…

川翔云電腦:突破硬件極限,重構設計生產力范式

一、硬核配置:顯存與算力的雙重革命川翔云電腦提供從 RTX 2080 Ti 到 RTX 4090 Plus 的全系列 GPU 機型,其中旗艦級 4090 Plus 單卡配備48GB 超大顯存,較傳統 4090 顯存翻倍,可流暢加載 1200 萬面數的超復雜模型(如《黑…

深入解析 TCP 連接狀態與進程掛起、恢復與關閉

文章目錄深入解析 TCP 連接狀態與進程掛起、恢復與關閉一、TCP 連接的各種狀態1. **LISTEN**(監聽)2. **SYN_SENT**(SYN 已發送)3. **SYN_RECEIVED**(SYN 已接收)4. **ESTABLISHED**(已建立&…

在mac m1基于llama.cpp運行deepseek

lama.cpp是一個高效的機器學習推理庫,目標是在各種硬件上實現LLM推斷,保持最小設置和最先進性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整數量化,通過ARM NEON、Accelerate和Metal支持Apple芯片,使得在MAC M1處理器上…

多模態大語言模型arxiv論文略讀(154)

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ?? 論文標題:Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ?? 論文作者:Zhen Zeng, Leijiang Gu, Xun Yang, Zhan…

Python PDF處理庫深度對比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別

Python PDF處理庫深度對比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別前言1. 庫的基本介紹1.1 PyMuPDF (fitz)1.2 pypdfium21.3 pdfplumber1.4 pdfminer2. 關系圖譜3. 核心區別對比3.1 性能對比3.2 功能對比4. 代碼示例對比4.1 基本文本提取PyMuPDFpypd…

制作 ext4 文件系統

按以下步驟操作可以將一個文件夾制作成 Android 可用的 ext4 格式的 img 文件:方法 1:使用標準 Linux 工具(推薦) 步驟 1:安裝必要工具 sudo apt update sudo apt install e2fsprogs android-sdk-libsparse-utils # 適…

Flink自定義函數

一、UDF 核心原理 Flink 自定義函數(UDF)是擴展 Table API/SQL 能力的核心機制,允許將自定義邏輯嵌入查詢。其設計遵循以下原則: 1. 函數類型體系類型輸入輸出關系核心用途標量函數(ScalarFunction)0~N 個標…