大數據產業創新服務媒體
——聚焦數據?· 改變商業
大模型邁向產業的深度應用,首要挑戰是高質量數據供給和安全流通。正如在今年的世界人工智能大會上,產學研屆多位專家達成的共識是,數據決定了AI能力的上限。
在實踐中,行業大模型難以獲得高質量數據進行訓練,也就難以獲得解決專業問題的能力;另一方面,在技術服務生態中,企業客戶、大模型廠商之間缺少基于技術保障的互信,一方擔心數據泄漏,另一方擔心模型資產安全。
一個新的技術路線——密態計算,為解決這一難題提供了新的可能。螞蟻集團在2024年世界人工智能大會(WAIC)上發布的“隱語Cloud”大模型密算平臺,是這一技術路線的典型應用實例。密態計算的產業化應用,不僅為大模型的產業深度應用,也為打通數據要素流通的梗阻,提供新的思路。
無論是大模型的訓練還是推理應用,都存在數據瓶頸
當大模型從實驗室研究走向實際行業應用時,數據瓶頸問題成為了阻礙其進一步商用的重要障礙,這主要表現在大模型訓練和推理應用兩個階段:
大模型訓練階段,行業數據分散在不同機構,難以通過匯聚不同機構的行業數據構建高質量的行業大模型。
行業中的高質量數據通常分散在不同的機構和企業中,這種分散性使得數據難以集中用于大模型的訓練。以醫療行業為例,患者的診療信息分散在不同的醫院、診所和健康管理機構中。這些數據不僅分布廣泛,而且由于涉及患者隱私和醫院的商業機密,彼此之間的數據共享極其困難。金融行業也面臨類似問題,銀行、保險公司和金融科技企業各自掌握大量的金融知識和客戶數據,但由于商業和法律的限制,數據難以共享和整合。
大模型的性能高度依賴于訓練數據的質量和數量,缺乏足夠的高質量數據會導致模型無法充分學習行業中的細節和模式,進而影響其在實際應用中的表現。
大模型推理應用階段,大模型廠商與企業客戶之間的信任缺失問題難以解決。
除了數據分散問題,大模型廠商與企業客戶之間的信任問題也是一個重大障礙。一方面,大模型廠商在將其模型交付給企業客戶時,普遍擔心模型資產被客戶竊取。另一方面,企業客戶擔心大模型廠商會竊取或濫用他們提供的數據,導致商業機密和用戶隱私泄露。例如,某制造企業在使用大模型優化生產流程時,可能會提供大量的生產數據和商業信息。如果這些數據被不當使用或泄露,企業的競爭力和市場地位將受到嚴重影響。這種相互的不信任,形成了明顯的信任壁壘。
數據流通和應用的可信性問題,是大模型應用中另一個關鍵障礙。即使企業和機構愿意共享數據,也需要確保數據在流通過程中和應用中的隱私和安全。現有的數據流通機制和技術手段往往無法滿足這種高要求,導致數據要素在跨機構、跨行業流通時面臨諸多障礙。
密態計算,解決數據難題的那把鑰匙?
隨著大模型在各行業應用中的潛力逐漸顯現,解決數據流通和隱私保護的難題變得愈發迫切。傳統的隱私計算雖然在一定程度上緩解了數據安全問題,但其復雜性和效率問題限制了其廣泛應用。
隱私計算作為一種保護數據隱私的技術,已經在數據流通和共享中得到了一定的應用。然而,隱私計算技術路線眾多,在實際產業落地過程中存在“講不清”、“看不懂”、“不敢用”、“用不起”的問題。不同的隱私計算技術,如差分隱私、多方安全計算和聯邦學習,各有其優劣,但在實際應用中往往面臨性能瓶頸和復雜性問題,難以滿足大規模商業應用的需求。
密態計算為代表的新興隱私計算的技術,是指在整個計算過程中,數據始終處于加密狀態,以確保數據安全和隱私。密態計算在傳統隱私計算的基礎上進行了演進和升級,解決了隱私計算在規模化應用中的安全和效率問題:
軟硬件結合,實現高效的數據密態處理
通過可信執行環境(TEE)和多方安全計算(MPC)技術的結合,密態計算不僅可以實現全程保密的數據處理,還能滿足大規模數據流通過程中的高性能和低成本的要求。針對不同安全分組的數據,可以通過不同的組合方式設計不同安全等級的密態計算方案,滿足不同場景下安全性和效率的平衡。在提高計算效率和實現規模化商用方面更進一步,使得技術在各行業中的廣泛應用成為可能。
科技商業化加碼,螞蟻集團落子數據要素技術
在今年數字中國建設峰會上,螞蟻集團董事長兼CEO井賢棟透露螞蟻未來十年的科技戰略,聚焦人工智能和數據要素技術。
早在2016年,螞蟻集團就開始探索隱私計算技術,技術能力涵蓋了全棧可信技術、多方安全計算、聯邦學習、同態加密、差分隱私、機密計算等隱私計算全譜技術域。2022年,螞蟻首創的可信密態計算獲得數字中國建設峰會“十大硬核科技獎”, 隱語可信隱私計算技術棧被評為世界人工智能大會“八大鎮館之寶”之一。
推進數據要素技術的戰略,只有技術儲備是不夠的,還要打通技術和商業應用。只有構建一個良好的技術+商業的循環,才能實現良性、可持續的發展。今年5月31日,螞蟻集團成立了螞蟻密算科技有限公司,這釋放了一個關鍵信號——螞蟻集團在可信數據流通領域已經從內部技術探索,開始走向市場商業化。
在WAIC上,螞蟻密算推出了首款商業化產品——“隱語Cloud”平臺大模型密算服務,首批推出大模型密態托管和密態推理兩種服務。
隱語 Cloud 大模型密算平臺的原理和特色 資料來源:螞蟻集團
在大模型密態托管方面,模型提供方將大模型加密后托管在平臺上,通過先進的加密算法進行分段加密處理,確保模型在云端存儲過程中的安全。在大模型密態推理方面,用戶數據以加密形式進行處理,確保數據隱私和商業機密不被泄露。通過可信執行環境(TEE)等技術,保證數據在推理過程中的全程加密處理,并采用多層次的安全保障措施,包括內存加密、磁盤加密和可信執行環境,防止數據泄露和篡改。
為了提升大模型推理的效率,“隱語Cloud”平臺在可信執行環境下支持GPU計算,顯著提高加密狀態下的推理速度,使其接近明文狀態。
談到密算的未來發展,螞蟻集團副總裁兼首席技術安全官、螞蟻密算董事長韋韜說:“螞蟻集團篤定相信數據的價值,我們的業務也很依賴于數據。我們認為數據要素的流通將為全社會、全行業帶來巨大的變革,這個變革是非常深遠的。螞蟻密算的使命,是通過密算科技推動數據可信流通。”
用密態計算釋放數據要素價值,讓大模型真正規模化商用
展望未來,密態計算作為一種創新技術,將進一步提升計算效率和安全性,擴大應用范圍。在計算效率方面,隨著硬件技術的不斷進步,特別是GPU和其他專用加速器的發展,密態計算的性能將不斷提升。未來,密態計算有望通過更高效的硬件加速和優化算法,使加密狀態下的計算速度進一步接近明文狀態,在考慮了數據明文流通過程中的風險成本之后,以密態計算為核心的密態全鏈路的流通成本一定會低于明文計算流通成本。
某種程度上,密態計算技術的發展可以類比光伏產業的發展路徑。最初,光伏發電成本很高,僅限于高需求、高價值的行業應用。隨著技術進步和規模化應用,成本逐漸降低,最終達到與傳統能源發電成本相當的臨界點,從而實現大規模推廣應用,密態計算也將遵循類似的路徑。
正如韋韜分享的那樣:一方面,數據價值在不斷提升,而數據泄露帶來的成本也在同步提升。另一方面,通過一系列技術創新,密態計算的成本在逐步降低。最終,當數據泄露帶來的損失,超過密態計算帶來的成本,部署密態計算系統就變得有利可圖。屆時,我們將來到一個臨界點——數據處理的“光伏平價”時刻,這個時候,密態計算市場將迎來爆發式的增長。韋韜判斷,當整個全鏈路密態計算的成本降低到整個數據流通價值的5%,就到了實現規模化推廣的臨界點。
當然,無論是推動密態計算產業發展還是釋放數據要素價值,都還有大量的問題需要去解決。其中,有兩項工作尤為關鍵:
覆蓋數據要素全鏈條,構建一個完備的密態計算技術產品和服務生態。
數據要素生命周期,涵蓋數據采集、存儲、管理、治理、分析挖掘、流通、應用等多個環節,每個環節都需要成熟的技術產品去提供服務。密態計算也需要不斷豐富技術產品體系,來提供全鏈條的服務。就螞蟻集團而言,此次推出的“隱語Cloud”只是打前陣,相信后面還會陸續推出一系列的產品。而且,一花獨放不是春,百花齊放春滿園,為了更好釋放數據要素價值,將來有必要構建一個密態計算的服務生態體系,結合生態伙伴的力量,來更好滿足市場需求。
構建密態計算行業標準,降低實施過程中的技術難度和企業成本。
密態計算涉及多種技術路線和產品形態,為了推動數據要素流通和實現規模化推廣,必須制定統一的技術標準和安全分級方法。技術路線分級和產品分級有助于企業根據不同應用場景選擇合適的解決方案,從而提高效率、降低成本。標準化的技術框架可以為行業提供明確的指引,這不僅能夠確保技術在不同場景中的應用效果,還能降低企業在實施過程中的技術難度和成本。
挑戰很多,但應用前景可期。正如韋韜所說,無論是從數據還是算力角度,密態計算都有廣闊的應用前景。數據方面,數據密態是未來的必然趨勢,密算會成為數據可信流通的新算力。只有讓數據是密態方式流通的時候,才能發揮正向價值、控制負向風險;算力方面,算力將從智算走向密算,并且演變的速度及對中遠期的影響比我們今天想象大得多。接下來大規模數據流轉會發展為猶如“城市自來水網”的行業、區域間可信流通,形成“綜合水利工程”。未來,大模型產業及各種數據要素的應用場景,都能充分應用數據要素價值,實現跨行業、跨地域和跨云可信流轉和互聯互通。
文:月滿西樓?/?數據猿
責編:凝視深空?/?數據猿