百度文心X1.1發布!實測深度思考能力!

文章目錄

    • 背景
    • 模型實測效果
      • 事實性
      • 指令跟隨
      • 智能體
    • 模型技術解讀
    • 基準測試
    • 文心飛槳攜手共進
    • 總結

背景

9月9日,WAVE SUMMIT深度學習開發者大會上,百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰正式發布了文心大模型X1.1深度思考模型,該模型在事實性、指令遵循、智能體等能力上均有顯著提升。目前,用戶可以在文心一言官網、文小言APP使用文心大模型X1.1。

據王海峰介紹,文心大模型X1是基于文心大模型4.5訓練而來的深度思考模型,相比文心X1,X1.1的事實性提升34.8%,指令遵循提升12.5%,智能體提升9.6%

在這里插入圖片描述

模型實測效果

文心大模型X1.1已全面上線!可在文心一言官網、文小言APP或百度智能云千帆平臺,暢享最新模型能力,或直接輕松調用API。

在這里插入圖片描述

事實性

先來測測事實性!

國慶我想出去玩,在阿聯酋玩3天、阿布扎布玩3天,從南京出發,往返都在?港轉機停留?天,我需要辦哪些簽證和?續嗎

回答過程中帶有思考和網頁參考,同時能夠抽取并分析外部信息源。

在這里插入圖片描述
在這里插入圖片描述

再來個博大精深的!

“意思”在“這是什么意思?”、“這點?意思,不成敬意”、”這個景點太沒意思了“中含義是否相同?

能夠結合語境對多義詞語進?解釋,甚至列出了表格進行對比。

在這里插入圖片描述

在這里插入圖片描述

指令跟隨

下面測試一下指令跟隨能力。

你是「?紅書運營」,負責的領域是外套,擅?以當代年輕?喜歡的潮流筆撰寫?案,??幽默?趣有吸引?。請撰寫簡短的關于寬松裝翻領中?款?裝外套的種草?案?案關鍵詞:?對?性?戶、材質是聚酯纖維63%、顏?是?尾草綠、1件59元、原價135元?案。
要求1.?句分解、避免重復、輕松幽默且真誠、整體具有可讀性2.?案不能違反?告法,不可出現絕對,?選,最好,最佳等詞語3.整體4?,每?以emoji表情開頭,每?不超過15個字請基于以上要求,盡快撰寫出?段?案。

在復雜指令解析上,它能精準識別?戶需求細節,避免遺漏關鍵要素。

在這里插入圖片描述

作為‘社恐探店博主’,請以’躲開網紅店人潮’為主題,推薦3家南京小眾咖啡館 要求:

  1. 寫明適合獨處辦公的細節(插座數量、安靜程度)
  2. 用’發現秘密基地’的驚喜語氣
  3. 結尾引導粉絲投稿私藏店鋪 使用emoji風格輸出

在這里插入圖片描述

智能體

最后測試一下智能體效果。

請添加圖片描述

ps:多模態能力也很強啊

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

模型技術解讀

文心大模型X1.1的模型訓練主要采用了迭代式混合強化學習訓練框架,一方面通過混合強化學習同時融合提升通用任務和智能體任務的效果,另一方面通過自蒸餾數據的迭代式生產及訓練不斷提升模型整體效果。通過多項技術創新,該模型在智能體、指令遵循和事實性方面的效果表現出色:
1、基于基礎模型和策略模型知識一致性的強化學習訓練
基于基礎模型和策略模型知識一致性的強化學習訓練:在訓練過程中,不斷校驗后訓練模型和預訓練模型知識的一致性,模型的事實性得到了大幅度的提升。
2、基于檢查清單和指令驗證器的強化學習訓練
基于檢查清單和指令驗證器的強化學習訓練:通過自動構建指令檢查清單并驗證,模型在復雜指令遵循方面的效果明顯提升。
3、基于思維和行動鏈的多輪強化學習訓練
基于思維和行動鏈的多輪強化學習訓練:在思考過程中,將思維鏈和行動鏈結合,模型的智能體和工具調用能力明顯提升。

基準測試

在多個權威基準評測中,文心X1.1整體表現超越DeepSeek R1-0528,在部分任務上展現出領先優勢。同時,在與國際頂尖模型GPT-5和Gemini 2.5 Pro相比,效果持平。

在這里插入圖片描述

文心飛槳攜手共進

  1. 飛槳框架v3.2
    在WAVE SUMMIT深度學習開發者大會現場,百度還發布了全新飛槳框架v3.2,在大模型訓練、硬件適配和生態支持上全面升級,并同步升級大模型開發套件ERNIEKit和高效部署套件FastDeploy。飛槳框架v3.2在?模型訓練、大模型硬件適配、主流?模型及?性能加速庫的?持上進?步提升。
    1、突破大模型訓練技術難題,訓練效率更高。包括極致計算優化、高效并行策略和框架原生容錯能力。
    2、面向類CUDA芯片,全新升級適配方案。一行代碼完成類CUDA算子注冊,算子內核復用率高達92%,大幅降低適配成本。
    3、支持業界主流大模型及高性能加速庫。原生支持Safetensors權重格式,主流高性能加速庫一鍵接入。
    4、此外,發布???模型開發套件ERNIEKit和?模型?效部署套件FastDeploy v2.2。

  2. 文心飛槳開源及生態建設
    1、6月30日,百度正式開源文心大模型4.5系列模型,涵蓋47B、3B激活參數的混合專家(MoE)模型,與0.3B參數的稠密型模型等10款模型,并實現預訓練權重和推理代碼的完全開源。目前,文心大模型4.5系列開源模型已經在?業?得到了?泛的應?。
    2、百度的文心4.5開源模型系列,新增一款思考模型ERNIE-4.5-21B-A3B-Thinking

    • ERNIE-4.5-21B-A3B-Thinking是基于ERNIE-4.5-21B-A3B-Base進?步訓練?來的深度思考模型,升級增加了深度思考能?后,該模型在智能體、?具調?、指令遵循、事實性等??表現出?,問答、創作、邏輯推理等??的綜合能?明顯提升。相?于全新發布的文心大模型X1.1,該模型推理速度顯著提升。
    • 為了全?位?持基于???模型的創新以及應?開發,百度為開發者們量身打造了配套的功能體系。這套體系不僅涵蓋??4.5系列模型權重,還包括?槳框架、ERNIEKit、PaddleFormers以及FastDeploy開源代碼庫,此外還具備豐富的最佳實踐。所有模型和代碼都遵循Apache 2.0開源協議,開發者可以?由地使?、修改和分發。百度期待與開發者?起,共同探索???模型更?闊的應?前景。
      3、據最新數據披露,飛槳文心生態開發者達到2333萬,服務企業達到76萬家。
  3. 文心飛漿聯合優化
    在此次發布會上,文心飛漿聯合優化主要表現在以下三個方面:
    1、既包括框架-模型的聯合優化,也包括框架-算力的聯合優化。既有提升訓練性能的創新,也有提升推理吞吐的創新。
    2、訓練方面,最新發布的飛槳框架v3.2在計算、并?策略、容錯能?三??進?步升級。極致計算優化方面,提出了存算重疊的稀疏掩碼注意?計算FlashMask V3,同時實現了?效的FP8混合精度效果?損訓練技術。高效并行策略方面,提出了動態?適應的顯存卸載策略,以及創新設計的顯存友好的流?線并?調度,進?步降低顯存開銷。框架原生容錯能力方面,實現了?規模集群訓練容錯系統,在線監測靜默數據損壞等難以察覺的故障,并實現了?可?的檢查點容災?法,降低中斷恢復損失。經過上述優化,??X1.1及4.5系列模型均獲得了優異的性能表現,并在文心最?規模的4.5?本模型ERNIE-4.5-300B-A47B的預訓練上取得了47% MFU。
    3、推理方面,通過卷積編2比特極致壓縮,可插拔稀疏化輕量注意力,混合動態自適應多步投機解碼,通信存儲計算深度協同優化的大規模P/D分離部署等技術,提供大模型高效部署及高性能推理全棧能力。在文心4.5激活參數量47B、總參數量300B的模型ERNIE-4.5-300B-A47B上,通過上述系統性優化,在TPOT 50ms時延條件下,實現了輸入吞吐高達57K、輸出吞吐29K的卓越性能表現。

總結

從最新發布內容來看,百度正憑借扎實的技術積累與開放的生態策略,持續優化其全棧AI布局——芯片、框架、模型與應用四層架構緊密圍繞開發者實際需求展開推進。尤其通過飛槳深度學習平臺與文心大模型的深度協同,百度為開發者提供了更加高效、易用的工具鏈和生態支持。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/96318.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/96318.shtml
英文地址,請注明出處:http://en.pswp.cn/web/96318.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于Java+SpringBoot的B站評論系統架構設計與實踐深度解析

基于JavaSpringBoot的B站評論系統架構設計與實踐深度解析 前言 作為國內領先的視頻分享平臺,B站的評論系統承載著海量用戶的實時互動需求。本文將從架構師角度,基于JavaSpringBoot技術棧,深度解析評論系統的技術實現方案、核心難點及擴展性設…

賦能數字孿生:Paraverse平行云實時云渲染平臺LarkXR,提供強大的API與SDK用于二次開發和深度集成

在數字孿生滲透千行百業的今天,構建一個高保真、實時交互、可大規模訪問的虛擬孿生世界已成為核心需求。然而,對于開發者而言,從零開始構建實時云渲染、海量模型加載、數據雙向互通、多端適配、網頁嵌套,平臺定制化等底層技術難關…

基于Nginx實現反向代理、負載均衡與動靜分離完整部署指南

基于Nginx實現反向代理、負載均衡與動靜分離完整部署指南 文章目錄基于Nginx實現反向代理、負載均衡與動靜分離完整部署指南一、架構規劃與環境準備1.1 架構設計思路1.2 服務器規劃1.3 環境依賴二、部署Nginx負載均衡器2.1 安裝Nginx依賴包2.2 創建Nginx專用用戶2.3 編譯安裝Ng…

HTML5國慶網站源碼

一. 網站概述 本國慶主題網站以弘揚愛國主義精神為核心,通過豐富多元的交互功能與視覺設計,打造沉浸式國慶體驗空間。網站采用單頁面架構,通過平滑滾動實現各模塊的無縫銜接,涵蓋首頁、知識科普、互動體驗等十大功能板塊&#xf…

MySQL收集processlist記錄的shell工具mysql_collect_processlist

文章目錄安裝指南日志文件內容日志分析參考1.簡單檢索2.統計不同狀態的語句的數量3.按照時間統計注意事項倉庫這是一個純腳本工具,用于從MySQL的information_schema.processlist視圖中定期收集數據并保存到本地日志文件。支持MYSQL5.7-9.4版本。 template copy fro…

工業RFID現場網關模塊:實現多協議互通,128臺讀寫設備互連!

隨著工業4.0進程加速,企業對生產系統集成度的需求不斷增長。在工廠中常需整合不同品牌PLC、驅動器、機械臂、讀寫器等設備系統,這其中就會涉及到如Profinet、EtherNet/IP、EtherCAT、Modbus TCP、CC-LINK IE等不同通訊協議連接。雖可將部分設備直接與PLC…

黑馬點評高級篇第7節課 輸入INFO replication 顯示0個從節點,但是在7002節點又顯示它已經是7001節點的從節點了

問題描述在黑馬點評高級篇第七節課的這個位置??????,當我輸入INFO replication 的時候下面本應該顯示為connected_slaves: 2,但是我的顯示的是0。然后當我切換到7002端口的節點時,又顯示7002就是7001的從節點解決我看彈幕上說在7002和7…

pcb線路板打樣廠家有哪些?

在電子制造產業升級浪潮中,PCB打樣環節的效率與品質直接影響產品迭代速度。本文聚焦國內五家具備核心技術競爭力的PCB打樣廠商,深度解析其差異化優勢,為硬件開發者提供精準選型參考。獵板PCB作為國家高新技術企業,獵板PCB在高頻高…

【python實用小腳本-211】[硬件互聯] 桌面壁紙×Python夢幻聯動|用10行代碼實現“開機盲盒”自動化改造實錄(建議收藏)

1. 場景故事 “作為HR,我曾每天手動換壁紙提神,直到某天忙到忘記,結果被同事截圖當‘黑歷史’…” → 轉折點:用Python調用Windows API寫了個“隨機壁紙機”,開機自啟,每次登錄都是新風景,現在截…

集成學習 —— 梯度提升樹GBDT、XGBoost

目錄 一、梯度提升樹 1、殘差提升樹 Boosting Decision Tree 2、梯度提升樹 Gradient Boosting Decision Tree 二、構建案例 1、 初始化弱學習器(CART樹): 2、 構建第1個弱學習器 3、 構建第2個弱學習器 4、 構建第3個弱學習器 5、 構建最終弱學習器 6、 構…

【船類】監控錄像下船舶類別檢測識別數據集:近7k圖像,6類,yolo標注

監控錄像下船舶類別檢測識別數據集概述 數據集包含 6900監控錄像下船舶類別圖像,6個標注類別: 散貨船、集裝箱船、漁船、雜貨船、礦砂船、客船 標注格式:yolo txt(格式可轉,可直接訓練) 標注工具&#…

用戶故事設計范式(As a... I want to... So that...)

我們來詳細解析一下用戶故事(User Story),包括其結構、為什么重要、如何編寫好的用戶故事以及一個完整的示例。1. 用戶故事的基本結構:三段式模板最經典和通用的用戶故事模板就是您提到的三段式:As a [角色]:目的&…

【OpenGL】LearnOpenGL學習筆記20 - 實例化 Instancing

上接:https://blog.csdn.net/weixin_44506615/article/details/151156446?spm1001.2014.3001.5501 完整代碼:https://gitee.com/Duo1J/learn-open-gl | https://github.com/Duo1J/LearnOpenGL 實例化 Instancing 以往當我們在場景中要大量繪制相同模型…

MySQL主從不一致?DBA急救手冊:14種高頻坑點+3分鐘定位+無損修復!

MySQL「主從不一致」最常見的成因、快速定位思路以及可落地的修復手段 一、為什么會不一致?14 類高頻場景類別典型表現/觸發條件快速自檢命令/日志1. 從庫被寫入業務或 DBA 直連從庫 UPDATE/INSERTSHOW VARIABLES LIKE read_only 應為 ON2. 復制過濾規則主從 binlog…

AI 網站源碼:探秘 SUNO,革新音樂創作的 AI 先鋒

在當今數字化浪潮中,人工智能(AI)正深刻地重塑各個領域,音樂創作也不例外。SUNO 作為一款引領潮流的音樂生成工具,宛如一顆璀璨新星,在音樂創作的天空中熠熠生輝,為音樂愛好者和創作者們帶來了前…

Linux:malloc背后的實現細節

目錄前言一、先搞懂基礎:程序的內存布局(關鍵前提!)二、malloc的核心實現步驟(4層架構拆解)第1層:用戶調用 → 標準庫處理(glibc的malloc.c)第2層:堆內存池管…

什么是X11轉發?

X11 轉發(X11 forwarding,ssh -X)是一種 SSH 協議功能,它允許用戶在遠程服務器上運行圖形化應用程序,并通過本地的顯示設備和輸入輸出設備與這些程序進行交互。它被開發者廣泛使用,用于在大規模、異構的服務…

Android Kotlin 動態注冊 Broadcast 的完整封裝方案

在 Kotlin 中封裝動態注冊的 Broadcast 可以讓你更優雅地管理廣播的注冊和注銷,避免內存泄漏。下面是一個完整的封裝方案: 基礎封裝類 import android.content.BroadcastReceiver import android.content.Context import android.content.Intent import …

VGG改進(8):融合Self-Attention的CNN架構

1. 自注意力機制簡介自注意力機制是Transformer架構的核心組件,它能夠計算輸入序列中每個元素與其他所有元素的相關性。與CNN的局部感受野不同,自注意力機制允許模型直接建立遠距離依賴關系,從而捕獲全局上下文信息。在計算機視覺中&#xff…

ES6 面試題及詳細答案 80題 (33-40)-- Symbol與集合數據結構

《前后端面試題》專欄集合了前后端各個知識模塊的面試題,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs&…