嘉賓介紹:
葉正暉,華為云云服務高級顧問,全球化企業信息化專家,從業年限超過23年,在華為任職超過21年,涉及運營商、企業、消費者、云服務、安全與隱私等領域,精通云服務、安全合規、隱私保護等領域相關解決方案。同時兼任ISC2協會中國區華南分會理事長職務。
以下內容為華為云云服務高級顧問葉正暉在中國計算機學會(CCF)、CCF CTO CLUB聯合數新智能共同主辦的“多模態數據融合技術創新與落地實戰”活動中演講全文
我今天主要分享一下華為對多模態大模型的一些想法和一些實踐。
?
我們大模型的架構的趨勢,還是要從以前的單一模態走向多模態大一統,在未來的趨勢下,從2021年的Vision ?Transformer到2022年的Whisper大模型再到2024年的Sora,整個過程里面從以前的視覺到語音到混合,再到生成大模型的一個統一。但是,我們大模型要解決一個問題,就是我們怎么讓AI像人類一樣去理解復雜場景下的視覺、語言以及任務邏輯,這是我們大模型要解決的問題。
華為在這上面其實走了一條層次化的一條路,把感知、推理和融合放在一起這么一條路徑。其實多模態大模型主要分成三類:一類是屬于多模態的理解大模型;二是多模態的生存大模型;三是全模態的大模型。我這里僅為大家介紹理解大模型的情況。
華為的盤古多模態大規模的模型,它是一個層次融合的一個架構。什么叫層次化?它的表向分層包括的基礎性能這一層面;第二個層面是專項能力;第三個層面行業解決方案。為什么要叫做層次融合呢?因為它在每一層里面它的相關的這些模塊,它是共享一個語義的空間,實現相似的連接與銜接。
在基礎性能這一塊,它將感知、推理、綜合是作為整個大模型的基礎。為上面的專項能力以及行業解決方案提供相應模型的性能,以及后續的基本架構信息。
在基礎性能方面,它會根據新技術或者產品的迭代會做架構更新,以及相關的數據集都會有變化,并根據實踐的情況來改進訓練的方法。所以這也為上層的專項能力和行業解決方案提供了相應的基礎。
專項能力層,是能力側重增強的一部分。在大模型的套件里面,目前來說是四個專項的大模型:視覺認知專項、文檔理解專項、知識問答專項、任務規劃的專項。
在這里面在加上數據工程套件、模型開發套件、模型應用套件這幾個套件,面臨不同的應用場景,提供了專項能力。而且可以看到不同的專項大模型,比如說像聚焦自然視覺現象,知識管理,就實現視覺認知的理解效果。比如任務規劃專項,要與真實環境對齊的任務規劃能力,在場景里面去做識別。
我們把視覺認知專項打開看一下,其實視覺認知專項在原來的基礎多模態大模型中,經過海量的數據的訓練,10000+通用及行業實用標簽,包括場景標簽,關系標簽、行為標簽都在這里面。再通過一個泛化的通用視覺認知能力,對里面視覺感知、還有我們平時的常識去做推理。現在可以支持到在一些大的場景下,普通產品的標簽精度達到70%,重點行業達到80%。
這就重點談到我們后續討論case中的識別產品,它根據我們在現實世界里的一些邏輯在里面做推理抉擇。目前在城市治理、安全生產這方面都在做相關的應用。
在文檔分析的專項里面,我們是能夠支持把一些非掃描版的,比如照相、卡證、文檔這些非掃描類、紙質的混合型的東西都能夠做混合在一起做識別。除了基礎的文檔解析之外,還會做文檔的高階的分析,比如數據圖表分析,比如說上下文關聯指向問答。
當然,像一些行業性專業文檔,比如工業設計圖,合同都可以做文檔分析。目前大概有1.5億文檔數據去做訓練,而且它能夠達到我們現在這些圖文交錯、多模態的思維能力,包括常見的文件符號、圖表都是可以制作的。
任務規劃,其實是基于前面的文檔理解專項大模型和視覺認知大模型基礎之上衍生出來的。對于任務邏輯來說,要對應本身的具身規劃、具身人物規劃能力做訓練,增強感知。再通過GUI模型在操作任務上能夠做一些規范訓練,由此得出來我們的任務邏輯。本身已經有編排引擎的基礎之上,我們有相關的各種任務邏輯把這個做起來。
剛才談到的一個Case,就是蚜蟲檢測。怎么幫助農場去做威脅消除、風險消除?怎么去準確定位蚜蟲的位置,或者侵占農作物的程度?怎么能夠做一個精準的識別是我們首先考慮的問題。
首先要知道,蚜蟲的檢測是有比較高的要求蚜蟲檢測的高要求主要體現在以下方面:
- 尺寸極小:成蟲約 1-5 毫米(如芝麻大小),弱蟲更小,對識別精度要求高。
- 拍攝器材特殊:需微距攝影器材以清晰捕捉微小個體;需特定固定器材防止拍攝時抖動,確保圖像穩定。
- 拍攝角度與位置:蚜蟲多位于農作物葉背面或根部,拍攝時需精準調整角度以覆蓋這些隱蔽位置。
- 顏色識別難度大:蚜蟲顏色與農作物接近或類似灰塵,易與環境混淆,增加識別難度。
在圖象識別上存在一個問題就是檢測挑戰性。我們通過人工獲得的蚜蟲的圖象會比較少,有什么辦法可以通過AI大模型去解決問題呢?這就可以通過大模型,把這些極少的數據量,可以生成大量的數據。這個數據體量大,就可以提高我們圖像識別的效果,提升檢測的效率。
這是華為云在貴州一個農場上做的實例。這是一個比較簡單的配置,還有很多應用,比如說在工業質檢領域,會檢測到工藝零件的表面的缺陷。還有通過知識圖譜,能夠關聯出來零件的缺陷地方,以及修復的工具,并且能夠自動生成維修工單,這個過程中是不需要人工干預的。
這一塊是華為在多模態技術領域上創新和應用場景。謝謝大家。 ???