文|周效敬
編|王一粟
當大模型的競爭開始拼落地,商業化在B端和C端都展開了自由生長。
在B端,借助云計算向千行萬業扎根;在C端,通過軟件App和智能終端快速迭代。
在華為,這家曾經以通信行業起家的科技公司,以AI為縱向中軸線的牽引力,以鴻蒙為橫向基礎系統,分別延伸出了B端和C端的不同業務線的迭代。
在B端,華為從網絡通信、底層算力,到云計算都有系統性覆蓋,尤其是近年來高歌猛進的華為云,成為了承接AI基礎大模型——盤古大模型落地的最佳場景。而在C端,從手機、PC平板,再到智能汽車,華為終端也包攬了幾乎最全的智能硬件生態,第一時間落地大模型。
6月中旬,華為在2024年開發者大會上呈現出的AI和系統級的軟件能力,再次證明了硬件出身的華為,一樣能讓“軟件定義華為”。
“硬件越來越簡單,軟件越來越復雜”,任正非曾在一次會議中提到他對軟件的重視,“未來軟件將吞噬一切,說明未來信息社會的數字化基礎架構核心是軟件。數字社會首先要終端數字化,更難的是行業終端數字化,只有行業終端數字化了,才可能建立起智能化和軟件服務的基礎。”
而到了大模型時代,盤古大模型做的怎么樣,能否承擔牽引華為整體業務的重擔?在大模型B端行業場景中,華為云又靠什么去解最難的題?
目前看來,盤古大模型5.0在多模態、思維鏈技術上都做了重點加強,正好命中大模型技術中最前沿、也最難攻克的兩個技術點,可以說,這兩個技術的水平決定了大模型能力的上限。另外,盤古大模型5.0已經集齊從十億級到萬億級的參數規模,可滿足幾乎所有規模企業的應用場景。
而在行業落地上,過去一年里,在多數廠商仍處于POC階段時,盤古大模型已在30多個行業、400多個場景中落地,覆蓋了從高鐵巡檢、氣象預報到鋼廠場景仿真、具身智能,再到工業互聯網等。
華為常務董事、華為云CEO張平安宣布盤古大模型5.0正式發布
華為云盤古大模型能夠在B端快速落地,一方面得益于華為在to B和to G領域的深厚積累,一方面也離不開多年來ISV(獨立軟件提供商)的生態建設,比如中軟動力、軟通動力、南威軟件等,都是深耕各行業的軟件服務商。
值得注意的是,華為第一次在HDC開發者大會上同時舉辦來自不同BG——華為云和華為終端的兩大重磅發布會,盤古大模型5.0和鴻蒙HarmonyOS NEXT雙雙迎來實質性更新,這種時空上的連接不是偶然,背后是在AI浪潮下,云和端的協同愈加緊密了。
盤古大模型5.0,多模態和強思維挑戰大模型的能力上限
底層技術是大模型商業化想象力的根基。
目前看來,盤古大模型5.0在多模態、思維鏈技術上都做了重點加強,正好命中大模型技術中最前沿、也最難攻克的兩個技術點,可以說,這兩個技術的水平決定了大模型能力的上限。
首先來看多模態技術。從2024年初,Sora展現出驚人的視頻生成能力,多模態大模型再次成為全球大模型公司技術競逐的焦點和難點。
從多模態大模型發展的時間線可以看到,從2022年大模型突然爆發開始,多模態技術就在不斷積蓄力量,有人預測,2024年有望成為多模態的爆發之年。
圖:多模態大模型發展時間線 源自中國科技大學、騰訊優圖實驗室《多模態大模型綜述》
本次發布的盤古5.0,在技術層面最大的亮點是多模態技術,從文本、視頻等方面的理解到內容的生成,再到復雜邏輯推理和場景應用,都實現了高度的一致性,盤古5.0在處理不同任務、不同數據或處于不同環境時,能夠保持其性能和行為的穩定、可靠。
在理解方面,盤古5.0可以更好、更精準地理解物理世界,包括文本、圖片、視頻、雷達、紅外、遙感等更多模態。在圖片和視頻識別方面,可支持10K超高分辨率。10K的超高分辨率意味著什么?更豐富的細節,更準確地分析和理解圖像內容。在工業設計和建筑設計領域,10K分辨率可以幫助設計師更快速地生成和調整3D模型,縮短設計周期。
在內容生成方面,盤古5.0采用的“可控時空生成”技術,聚焦自動駕駛、工業制造、建筑等多個行業場景,可生成更加符合物理規律的多模態內容。
可控時空生成技術可以生成在視覺上逼真、車輛行為和環境互動真實的訓練視頻。在自動駕駛領域,該技術可以生成六攝像頭視角的視頻,而且在車輛行為和環境互動方面與現實情況高度同步。
在大模型領域,除了盤古5.0之外,前不久智源研究院也推出了Emu3原生多模態世界模型。該模型采用多模態自回歸技術路徑,既統一了視頻、圖像、文字,也統一了生成和理解。據了解,Emu3在持續訓練中,經過安全評估之后將逐步開源。
可以看到,一致性更強的多模態技術,是目前行業共同發展的方向,這給大模型落地到實際場景中奠定了基礎。
除了多模態能力,推理決策依托的思維能力,是大模型“智商”的體現。比如,GPT-4V 可以理解復雜的指令來生成問答對甚至推理信息,但其他模型這方面的能力則明顯不足。上下文學習和思維鏈研究依然處于初步階段,相關的能力也較弱,亟需相關底層機制以及能力提升的研究探索。
復雜邏輯推理是大模型成為行業助手的關鍵,盤古5.0將思維鏈技術與策略搜索深度結合,極大提升了數學能力、復雜任務規劃能力以及工具調用能力。
思維鏈(Chain of Thought)技術的基本思想是,模擬人類解決問題時的思維過程,將復雜的問題分解為較簡單的子問題,然后分別解決并匯總。相較于純文本的推理,多模態的推理涉及更多的信息來源和更復雜的邏輯關系,當前行業里這方面的能力較少。
策略搜索是人工智能領域中用于尋找最優或可行解決方案的一系列方法,在不同的應用場景下,策略搜索可以采用不同的形式和算法。
這些技術應用到行業里,比如,借助衛星遙感圖像,盤古大模型就能夠準確分析出一個區域農作物的生長狀況,做農作物的產量預估、整體病蟲害的監測;借助紅外影像,盤古大模型可以準確識別車輛和人的運行軌跡,來進行交通的管理和事故的預防等。
另外,為了適配不同的業務場景,盤古大模型5.0提供了比上一版本跨度更大的參數規格,主要分為四個級別:
十億級參數的Pangu E(Embedding)系列,屬于無需聯網就可以嵌入各類終端的“小”大模型,可支撐手機、PC等端側的智能應用。這個參數規格在應用上與谷歌的Gemini Nano版本類似,Gemini Nano是谷歌多模態模型中體積最小、最高效的版本。參數超過10億之后,通常需要大規模的分布式計算資源。
百億級參數的Pangu P(Professional)系列,適用于低時延、高效率的推理場景,據華為常務董事、華為云CEO張平安介紹,100億~900億這一級別的參數,可以解決大部分場景下的AI應用問題。超百億規模的參數,需要極大的計算資源和數據集。
千億級參數的Pangu U(Ultra)有 1350 億、2300 億兩種參數規格,適用于處理復雜任務,可以作為企業大模型的一個通用底座。
萬億級參數的 Pangu S(Super)系列超級大模型有 2.6 萬億參數,是處理跨領域多任務的超級大模型,能幫助企業更好的在全場景應用 AI 技術。隨著參數數量的增加,模型的泛化能力和復雜度也會提高,但同時也需要更多的數據和計算資源。
盤古5.0從十億級到萬億級,可以說覆蓋了大中小企業所有簡單或復雜的任務場景。企業在選擇模型時,需要根據具體的應用場景、可用資源和任務需求來決定使用哪種規模的模型。
從多模態到強邏輯推理,再到適配各行業場景的參數規格,盤古5.0是怎么煉成的呢?其中一個關鍵點是數據。
華為諾亞方舟實驗室主任姚駿透露,盤古5.0的訓練從3.0堆數據量和提高數據清洗質量的數據工程,向科學使用數據的方向轉變。盤古3.0時代,訓練所需的數據量為3T tokens,5.0時代這一數字已經飆升到10萬億tokens,為了彌補自然數據增長的不足,合成數據已經成為訓練數據的重要組成部分,在盤古的訓練數據中,合成數據的占比為30%。
那么,如何確保合成數據的高質量和可用性?盤古團隊的做法是,先利用小一點的大模型去快速地對不同的數據進行 AI 評估,區分不同數據類別在學習過程中的難易程度,再進一步根據階梯式課程學習原理,讓大模型學習基礎的課程,逐漸加大高難數據的配比,模型就能像人一樣從易到難去學習知識,從而實現更可控、可預期的能力涌現。
大模型行業化落地,最難攻的山頭
今天的大模型競爭,沒有什么比商業化落地更有吸引力,也更有難度。
商業分析機構Gartner認為,大模型未來場景選擇會遵從“4C理論”:第一個C是技術成熟度,第二個C是場景商用化, 第三個C是緊迫性,第四個C是成本。這個理論中的幾個要素也是企業客戶關注的部分。
在一次活動上,中國移動研究院AI中心副總經理金鏑介紹,中國移動從2023年年初開始啟動大模型研發工作,當年就推出了139億參數的大語言模型,中國移動在公司內部和客戶中加快推進大模型落地,但面臨的一大挑戰是,行業如何看待和擁抱大模型。
“我們見行業客戶,他們都會問:大模型到底能干什么?能帶來什么價值?要先從哪些領域開始用?這些對客戶而言都是很現實的問題。”金鏑說。此外,在成本上也存在很多現實問題,比如用大模型,需要買多少算力,投多少人做數據治理和訓練模型,需要多少人做運維等等。
盤古大模型從誕生伊始便確定了“不作詩,只做事”的方向,發力的重點是在to B領域。當其他廠商仍處于POC階段時,盤古在過去一年里,已在30多個行業、400多個場景中落地。
在上海寶武鋼鐵熱軋生產線上,一塊 260 毫米厚的鋼坯要在兩分鐘之內被軋成 1.2 毫米厚的鋼板,每次調整生產鋼板的種類和尺寸,都需要工程師重新調整7道精軋機組的300多個參數,需要耗費約5天的時間。
盤古大模型創新地將時序數據、表格數據、工藝參數、行業機理等token化,通過大模型的學習,實現對最優的參數進行預測,顯著降低了熱軋生產線調優時間,并提高預測精度和鋼板成材率。現在通過盤古的預測大模型,只需要 3 到 4 個小時就可以完成這項復雜的工作。
目前,盤古大模型目前已在寶鋼1880熱軋生產線上線,預測精度提高5%以上,鋼板成材率提升0.5%,預計每年可以多產鋼板2萬余噸,年收益達9000余萬元。
據華為常務董事、華為云CEO張平安透露,現在華為云專家已經與寶武鋼鐵團隊坐在一起,討論挑戰最具難度的高爐場景,在2000度的高溫下,對爐溫、鐵水溫度、硅含量等爐況進行仿真,從而輔助高爐精準控制,充分利用每一分能源,降低能源成本。同時,華為云還與寶武鋼鐵集團在煉鋼、表檢、新鋼種研發、排程優化等多個領域開展盤古大模型的應用研究。
盤古5.0的應用始終聚焦在行業急需的價值場景上,自動駕駛是另一個被重塑的場景,鴻蒙智行的智駕能力在行業內也有口皆碑。
這個背后,也離不開盤古5.0通過可控時空生成技術,結合場景視頻生成、4D BEV視頻生成、自動駕駛仿真庫及路網信息,大規模生成和實際場景相一致的駕駛視頻數據,還可以靈活增加控制條件,生成不同路況、不同光照、不同天氣的訓練視頻數據,加速自動駕駛技術的快速成熟。
此次開發者大會還展示了盤古大模型在具身智能方面的應用。如智源研究院院長王仲遠所言,大模型將以數字智能體的形態與智能硬件融合,以具身智能的形態從數字世界進入物理世界。
華為此次展示的“夸父”機器人出菜譜、炒菜、掃地、端茶倒水,都不在話下。盤古大模型能夠讓“夸父”機器人完成10步以上的復雜任務規劃,并且在任務執行中實現多場景泛化和多任務處理。這些技能背后是盤古5.0對思維鏈技術與策略搜索的深度結合,讓具身智能產品擁有了強大的腦力,可以自如調用工具,進行數學計算以及復雜任務規劃。
據光錐智能在現場了解到,盤古大模型在這次機器人上落地,僅僅花了1~2個月的時間。
盤古能夠在如此多的行業場景中迅速落地絕非偶然,背后離不開多個因素的助力。
首先,盤古自身的設計從一開始就很“扎實”。據了解,盤古團隊一開始選擇和NLP和CV兩個賽道的時候,選擇全棧技術路線并確立了三項核心設計原則:模型要大,網絡結構要強,要有優秀的泛化能力。這些早期的設計原則,為盤古真正落地到各行各業的工作場景打下了基礎。
其次,華為擁有強大的to B和to G能力也是不爭的事實。華為經驗積累多,資源多,深耕各行業多年,亦建有深耕各行業的20大產業軍團。
華為軍團是聚焦特定行業,面向戰略擴張、面向戰役攻關、面向代表處和伙伴賦能的組織。軍團會瞄準一個領域進行飽和攻擊,縮短商業成功的時間,快速做到行業領先。同時,組建包括科學家、技術專家、產品專家、銷售專家等在內的重量級部隊,把業務顆粒化,縮短產品的商用周期。
圖:華為部分ISV合作伙伴 拍攝:光錐智能
此外,華為擁有強大的第三方供應商體系,與中軟國際、軟通動力、南威軟件、能科科技、金財互聯等深度合作,伙伴強有力的配合使得盤古在各行業能扎根下去。
端云協同,大模型競爭的關鍵變量
長在生態體系里與單打獨斗是大模型的兩種不同生存之道。
如果把以盤古大模型為主的AI能力看作華為的縱向能力,那么連接各終端的鴻蒙則是橫向的系統級能力,華為通過“一橫一縱”的格局來帶動終端和華為云的能力雙提升。
AI是這個生態體系中最大的技術變量,盤古大模型重塑了終端,也重塑了華為云。
通過云端訓練和優化,盤古大模型可以賦予終端設備更高級的智能化能力,比如具身智能產品的應用表明,華為云的AI能力讓終端更加智能和自主。
華為云將盤古大模型和華為在產品研發、數據治理、安全防護、業務運維等各個領域積累的數據和經驗相結合,“跳了自己的降落傘”,應用在了華為云CodeArts、DataArts、MetaStudio和GaussDB、云安全等系列云服務的智能化上,從而重塑了華為云的服務。
鴻蒙操作系統不僅僅是手機或設備的操作系統,它也是一個全場景分布式操作系統,能夠實現設備間的無縫連接和協同工作。
華為云與鴻蒙已經實現了深度協同,提供了包括統一賬號、支付、音頻、視頻、地圖和廣告服務等開放能力。這意味著開發者可以利用一套統一的接口和服務,同時服務于云端和終端用戶,簡化了開發流程并提升了用戶體驗的一致性。
鴻蒙的生態伙伴“華龍訊達”是端云協同的一個典型。
華龍訊達是一家在工業自動化控制系統領域具有重要影響力的企業,工信部試點示范的工業互聯網賦能平臺公司。公司聚焦于智慧工業領域,推出基于鴻蒙生態的工業操作系統HUALONG OS,提供從設備級到工廠級的自動化控制解決方案,助力制造業數字化轉型。
華龍訊達相關負責人
光錐智能在大會現場了解到,HUALONG OS實現了不同設備、不同屏幕尺寸的“一次開發、多端部署”,高效和實時傳輸的特性,降低了開發工作量,提高了開發效率,助力構建更加智慧的工廠。
在端云協同越來越緊密的當下,盤古大模型和鴻蒙系統縱橫交錯,通過一系列的技術融合與生態合作,實現了從底層技術到上層應用的全面協同,為用戶、開發者及行業伙伴創造了一個高度一體化、智能化的數字生態體系。
據華為2023年年度財報數據,終端業務實現銷售收入2515億元人民幣,同比增長17.3%;云計算業務實現銷售收入553億元人民幣,同比增長21.9%。同期,華為云全球開發者數量超過600萬,合作伙伴超過40000家。
在大模型商業化落地如此需要場景的今天,盤古依托華為的端云協同生態體系,相對其他純大模型廠商無疑有著不小的優勢。在競爭中,這類“綜合型選手”會不會折疊掉那些只擁有單一能力的大模型廠商?未來的格局會怎樣,這也是一件值得思考的事情。
結語
盤古5.0的發布標志著中國大模型技術向更高維度的跨越,不僅在技術層面實現了多模態處理、強邏輯推理和全系列參數的突破,還在實踐中融入華為云與鴻蒙操作系統的生態矩陣,展現出端云協同的潛力。
盤古大模型通過與產業界的緊密合作,成功破解了B端應用的諸多難題,加速了AI技術在各行各業的商業化進程,一個由AI深度驅動的全新時代正加速到來。隨著技術邊界的不斷拓展和應用場景的持續深化,盤古5.0及后續迭代將成為撬動產業升級的關鍵力量,未來的大模型競爭格局可能會悄然改變。