華為云云服務高級顧問葉正暉:華為對多模態大模型的思考與實踐

嘉賓介紹:

葉正暉,華為云云服務高級顧問,全球化企業信息化專家,從業年限超過23年,在華為任職超過21年,涉及運營商、企業、消費者、云服務、安全與隱私等領域,精通云服務、安全合規、隱私保護等領域相關解決方案。同時兼任ISC2協會中國區華南分會理事長職務。

以下內容為華為云云服務高級顧問葉正暉在中國計算機學會(CCF)、CCF CTO CLUB聯合數新智能共同主辦的“多模態數據融合技術創新與落地實戰”活動中演講全文

我今天主要分享一下華為對多模態大模型的一些想法和一些實踐。

?

我們大模型的架構的趨勢,還是要從以前的單一模態走向多模態大一統,在未來的趨勢下,從2021年的Vision ?Transformer到2022年的Whisper大模型再到2024年的Sora,整個過程里面從以前的視覺到語音到混合,再到生成大模型的一個統一。但是,我們大模型要解決一個問題,就是我們怎么讓AI像人類一樣去理解復雜場景下的視覺、語言以及任務邏輯,這是我們大模型要解決的問題。

華為在這上面其實走了一條層次化的一條路,把感知、推理和融合放在一起這么一條路徑。其實多模態大模型主要分成三類:一類是屬于多模態的理解大模型;二是多模態的生存大模型;三是全模態的大模型。我這里僅為大家介紹理解大模型的情況。

華為的盤古多模態大規模的模型,它是一個層次融合的一個架構。什么叫層次化?它的表向分層包括的基礎性能這一層面;第二個層面是專項能力;第三個層面行業解決方案。為什么要叫做層次融合呢?因為它在每一層里面它的相關的這些模塊,它是共享一個語義的空間,實現相似的連接與銜接。

在基礎性能這一塊,它將感知、推理、綜合是作為整個大模型的基礎。為上面的專項能力以及行業解決方案提供相應模型的性能,以及后續的基本架構信息。

在基礎性能方面,它會根據新技術或者產品的迭代會做架構更新,以及相關的數據集都會有變化,并根據實踐的情況來改進訓練的方法。所以這也為上層的專項能力和行業解決方案提供了相應的基礎。

專項能力層,是能力側重增強的一部分。在大模型的套件里面,目前來說是四個專項的大模型:視覺認知專項、文檔理解專項、知識問答專項、任務規劃的專項。

在這里面在加上數據工程套件、模型開發套件、模型應用套件這幾個套件,面臨不同的應用場景,提供了專項能力。而且可以看到不同的專項大模型,比如說像聚焦自然視覺現象,知識管理,就實現視覺認知的理解效果。比如任務規劃專項,要與真實環境對齊的任務規劃能力,在場景里面去做識別。

我們把視覺認知專項打開看一下,其實視覺認知專項在原來的基礎多模態大模型中,經過海量的數據的訓練,10000+通用及行業實用標簽,包括場景標簽,關系標簽、行為標簽都在這里面。再通過一個泛化的通用視覺認知能力,對里面視覺感知、還有我們平時的常識去做推理。現在可以支持到在一些大的場景下,普通產品的標簽精度達到70%,重點行業達到80%。

這就重點談到我們后續討論case中的識別產品,它根據我們在現實世界里的一些邏輯在里面做推理抉擇。目前在城市治理、安全生產這方面都在做相關的應用。

在文檔分析的專項里面,我們是能夠支持把一些非掃描版的,比如照相、卡證、文檔這些非掃描類、紙質的混合型的東西都能夠做混合在一起做識別。除了基礎的文檔解析之外,還會做文檔的高階的分析,比如數據圖表分析,比如說上下文關聯指向問答。

當然,像一些行業性專業文檔,比如工業設計圖,合同都可以做文檔分析。目前大概有1.5億文檔數據去做訓練,而且它能夠達到我們現在這些圖文交錯、多模態的思維能力,包括常見的文件符號、圖表都是可以制作的。

任務規劃,其實是基于前面的文檔理解專項大模型和視覺認知大模型基礎之上衍生出來的。對于任務邏輯來說,要對應本身的具身規劃、具身人物規劃能力做訓練,增強感知。再通過GUI模型在操作任務上能夠做一些規范訓練,由此得出來我們的任務邏輯。本身已經有編排引擎的基礎之上,我們有相關的各種任務邏輯把這個做起來。

剛才談到的一個Case,就是蚜蟲檢測。怎么幫助農場去做威脅消除、風險消除?怎么去準確定位蚜蟲的位置,或者侵占農作物的程度?怎么能夠做一個精準的識別是我們首先考慮的問題。

首先要知道,蚜蟲的檢測是有比較高的要求蚜蟲檢測的高要求主要體現在以下方面:

  1. 尺寸極小:成蟲約 1-5 毫米(如芝麻大小),弱蟲更小,對識別精度要求高。
  2. 拍攝器材特殊:需微距攝影器材以清晰捕捉微小個體;需特定固定器材防止拍攝時抖動,確保圖像穩定。
  3. 拍攝角度與位置:蚜蟲多位于農作物葉背面或根部,拍攝時需精準調整角度以覆蓋這些隱蔽位置。
  4. 顏色識別難度大:蚜蟲顏色與農作物接近或類似灰塵,易與環境混淆,增加識別難度。

在圖象識別上存在一個問題就是檢測挑戰性。我們通過人工獲得的蚜蟲的圖象會比較少,有什么辦法可以通過AI大模型去解決問題呢?這就可以通過大模型,把這些極少的數據量,可以生成大量的數據。這個數據體量大,就可以提高我們圖像識別的效果,提升檢測的效率。

這是華為云在貴州一個農場上做的實例。這是一個比較簡單的配置,還有很多應用,比如說在工業質檢領域,會檢測到工藝零件的表面的缺陷。還有通過知識圖譜,能夠關聯出來零件的缺陷地方,以及修復的工具,并且能夠自動生成維修工單,這個過程中是不需要人工干預的。

這一塊是華為在多模態技術領域上創新和應用場景。謝謝大家。 ???

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94278.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94278.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94278.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【機器學習(二)】KNN算法與模型評估調優

目錄 一、寫在前面的話 二、KNN(K-Nearest Neighbor) 2.1 KNN算法介紹 2.1.1 概念介紹 2.1.2 算法特點 2.1.3 API 講解 2.2 樣本距離計算 2.2.1 距離的類型 (1)歐幾里得距離(Euclidean Distance) …

《Uniapp-Vue 3-TS 實戰開發》實現自定義頭部導航欄

本文介紹了如何將Vue2組件遷移至Vue3的組合式API。主要內容包括:1) 使用<script setup lang="ts">語法;2) 通過接口定義props類型約束;3) 用defineProps替代props選項;4) 將data變量轉為ref響應式變量;5) 使用computed替代計算屬性;6) 將created生命周期…

GitCode疑難問題診療

問題診斷與解決框架通用問題排查流程&#xff08;適用于大多數場景&#xff09; 版本兼容性驗證方法 網絡連接與權限檢查清單常見錯誤分類與解決方案倉庫克隆失敗場景分析 HTTP/SSH協議錯誤代碼解讀 403/404錯誤深層原因排查高級疑難問題處理分支合并沖突的深度解決 .gitignore…

告別物業思維:科技正重構產業園區的價值坐標系

文 | 方寸控股引言&#xff1a;當產業園區的競爭升維為“科技軍備競賽”&#xff0c;土地紅利消退&#xff0c;政策優勢趨同&#xff0c;傳統園區運營陷入增長困局。當招商團隊還在用Excel統計企業需求&#xff0c;當能耗管理依賴保安夜間巡檢&#xff0c;當企業服務停留在“修…

GitHub 熱門項目 PandaWiki:零門檻搭建智能漏洞庫,支持 10 + 大模型接入

轉自&#xff1a;Khan安全團隊你還沒有自己的漏洞庫嗎&#xff1f;一條命令教你搭建。PandaWiki 是一款 AI 大模型驅動的開源知識庫搭建系統&#xff0c;幫助你快速構建智能化的 產品文檔、技術文檔、FAQ、博客系統&#xff0c;借助大模型的力量為你提供 AI 創作、AI 問答、AI …

Python 程序設計講義(55):Python 的函數——函數的參數

Python 程序設計講義&#xff08;55&#xff09;&#xff1a;Python 的函數——函數的參數 目錄Python 程序設計講義&#xff08;55&#xff09;&#xff1a;Python 的函數——函數的參數一、聲明形參二、傳遞實參&#xff08;位置參數&#xff09;1、在調用函數進行傳遞參數時…

機器學習sklearn:支持向量機svm

概述&#xff1a;現在就只知道這個svm可以畫出決策邊界&#xff0c;對數據的劃分。簡單舉例就是&#xff1a;好的和壞的數據分開&#xff0c;中間的再驗證from sklearn.datasets import make_blobs from sklearn.svm import SVC import matplotlib.pyplot as plt import numpy …

Django ORM 詳解:從入門到進階,掌握數據庫操作的核心

在 Django 中&#xff0c;ORM&#xff08;Object Relational Mapping&#xff0c;對象關系映射&#xff09; 是框架的核心之一。它允許你使用 Python 代碼來操作數據庫&#xff0c;而無需編寫原始 SQL 語句。Django ORM 不僅簡化了數據庫操作&#xff0c;還提升了代碼的可讀性、…

mac中使用gvm install沒有效果

問題表現&#xff1a; mac使用了gvm install一直沒有效果&#xff08;添加代理也沒效果&#xff09;&#xff0c;效果如下圖所示&#xff0c;始終卡在downloading&#xff0c;但是gvm version是正常的解決辦法&#xff1a; 手動安裝go的版本&#xff08;版本號自行選擇&#xf…

【React】狀態管理

兩個狀態管理工具&#xff1a; dva 是一個基于 Redux 和 React Router 的數據流方案&#xff0c;它提供了對 Redux 和 React Router 的封裝&#xff0c;使得在使用 dva 時可以更方便地進行狀態管理和路由操作。React Redux是一個JavaScript狀態管理庫&#xff0c;它的核心包括s…

?CVPR2025 FreeUV:無真值 3D 人臉紋理重建框架

&#x1f4c4;論文題目&#xff1a;FreeUV: Ground-Truth-Free Realistic Facial UV Texture Recovery via Cross-Assembly Inference Strategy ??作者及機構&#xff1a;Xingchao Yang、Takafumi Taketomi、Yuki Endo、Yoshihiro Kanamori&#xff08;CyberAgent、Universit…

Google Chrome <140.0.7297.0 MediaStreamTrackImpl UAF漏洞

【高危】Google Chrome <140.0.7297.0 MediaStreamTrackImpl UAF漏洞 漏洞描述 Google Chrome 是美國谷歌&#xff08;Google&#xff09;公司的一款Web瀏覽器。 受影響版本中&#xff0c;當處理媒體流時&#xff0c;MediaStreamTrackImpl 組件在銷毀前&#xff0c;未能清…

在VSCode中定制C語言宏格式化

在編寫C語言代碼時,經常會遇到一些宏定義的問題,特別是當使用宏來簡化變量聲明時。假設你有一個宏定義如下: #define VAR(vartype, memclass) vartype VAR(float32, AUTOMATIC) var1; // 等同于 "float32 var1;"當你使用VSCode的Format Document</

LangChain4J入門:使用SpringBoot-start

這是連續的專欄內容 &#xff08;一&#xff09;提換依賴 將原有的 <!-- LangChain4j OpenAI 集成 --><dependency><groupId>dev.langchain4j</groupId><artifactId>langchain4j-open-ai</artifactId></dependency> 換成 <!…

AR-Align-NN-2024

文章目錄An unsupervised multi-view contrastive learning framework with attention-based reranking strategy for entity alignment摘要1. 引言2. 相關工作2.1. 實體對齊2.2 對比學習中的數據增強3. 問題定義4. 方法論4.1 嵌入初始化4.2 圖譜數據增強4.3 多視圖對比學習4.4…

DeFi借貸協議深度解析:原理與Python實現

目錄 DeFi借貸協議深度解析:原理與Python實現 1. DeFi借貸協議概述 2. 核心數學原理 2.1 抵押率計算 2.2 健康因子 2.3 利率模型 3. 協議核心組件 3.1 資金池架構 3.2 狀態變量 4. 核心功能實現 4.1 存款功能 4.2 借款功能 4.3 利息計算與更新 5. 清算機制實現 5.1 清算邏輯 5…

信創及一次ORACLE到OB的信創遷移

信創及一次ORACLE到OB的信創遷移 1.信創是什么? 2.銀行信創要求:核心目標與挑戰 3.一次ORACLE到OceanBase(OB)的信創遷移方案 3.0.目標: 3.1.遷移評估OceanBase Migration Assessment (OMA) 3.2.數據對象遷移 3.3.數據遷移 3.4.OceanBase 導數工具 3.5.調用存儲過程跑批 3…

[Python] -進階理解10- 用 Python 實現簡易爬蟲框架

網絡爬蟲是自動抓取網頁并提取數據的程序。本篇文章將基于 Python,從請求、解析和數據流控制三個核心模塊出發,逐步構建一個簡易爬蟲框架,并輔以代碼示例與擴展建議,適合初學者快速掌握爬蟲架構設計。 一、爬蟲架構總覽 典型爬蟲框架包含以下模塊流程: Seed URLs:初始化…

oracle備庫主機斷電重啟后IO異常報錯

兩節點rac adg環境4個實例&#xff0c;節點1異常重啟后IO報錯 檢查控制文件為0字節&#xff0c;第一感覺是不是控制文件損壞了&#xff1f;但節點2說是沒有報錯&#xff0c;理論上如果控制文件壞了&#xff0c;庫應該掛掉了。 嘗試重啟另外一共adg實例&#xff0c;發現讀取其它…

簡單線性回歸模型原理推導(最小二乘法)和案例解析

線性回歸是一種用于建模自變量與因變量之間線性關系的統計方法&#xff0c;核心是通過最小化誤差平方和估計模型參數。以下從數學原理推導和案例兩方面詳細說明。 一、線性回歸模型的數學原理推導 1. 模型定義 線性回歸假設因變量 y 與自變量 x 存在線性關系&#xff0c;具體…