螞蟻集團 CTO 何征宇:AGI時代,海量數據帶來的質變|OceanBase 開發者大會實錄

5 月 17 日,“第三屆 OceanBase 開發者大會”在廣州舉辦,會中,螞蟻集團 CTO 何征宇,進行了題為《AGI時代,海量數據帶來的質變》的主題分享。他深度剖析了AI 時代下,數據應用范式的變革,以及生成式AI技術為數據基礎設施帶來的發展機遇與技術挑戰。

何征宇在演講中提出,當前大模型的成就源于互聯網海量數據,但其存在的"幻覺問題"本質上也是數據問題。他強調數據質量直接決定大模型的能力天花板,并系統闡述了面臨的四大主要挑戰:第一,數據獲取成本不斷攀升;第二,嚴謹行業存在數據稀缺且流通難的困境;第三,多模態數據處理對數據處理能力提出更高要求;最后,數據質量評估體系尚不完善。

何征宇表示,螞蟻集團將支持 OceanBase 在金融、醫療、生活等 AI 核心場景的突破,支持 OceanBase 實踐 Data × AI 的理念和架構創新。同時繼續支持 OceanBase 開源開放,將 Data × AI 的能力逐漸開放給行業,為 AGI 的夢想添磚加瓦。


以下是他的分享全文:

圖片

螞蟻集團 CTO 何征宇在 OceanBase 第三屆開發者大會現場

各位 OceanBase 的開發者大家好!非常榮幸能夠有這次機會和大家聊一聊通用人工智能(AGI)。我今天想分享的題目是《AGI 時代,海量數據帶來的質變》

為什么我會來這次會議,我其實覺得首先要講一句話,沒有數據肯定就沒有今天的 AI 和大模型;沒有開發者的興起和爆發,也就不會有 AI 應用的爆發。正是數據的力量鑄就了今日的 AI 與大模型,而開發者生態的蓬勃發展和持續創新,是真正推動 AI 應用爆發的核心引擎。

AI 的發展其實并不是一帆風順,甚至它不是線性的。這已經是 AI 的第四次爆發式發展了,AI 終于變得通用,這里蘊藏著巨大的市場機會和商業機會。當 ChatGPT 發布的時候,你會看到很多原有需要做專用模型的任務,包括翻譯、寫作、對話等等都只是需要這一個智能模型,從我們的視角看過來,這是符合“長尾理論”的。知名科技雜志《連線》前主編 Chris Anderson 在早年著作中提出的經典案例:在書中,他以亞馬遜書店為例指出,其成功關鍵在于將稀缺難尋的長尾書籍悉數納入銷售體系,也就是它把所有難找、長尾的書本全部上架了。這背后遵循的冪律法則對技術從業者而言并不陌生——當海量長尾需求聚合時,其總和將超越任何單一主流市場的規模。

今天 AGI 意味著什么?當前 AGI 的突破在于單個模型或解決方案能夠完成多個細分 AI 任務。隨著這些基礎功能的實現,我們預見將涌現出指數級增長的長尾應用需求。這些需求的疊加效應極有可能超越現有 AI 市場的總和,預示著一場由技術革命驅動的商業爆發即將來臨。更多的人會享受到更大更好的 AI 服務。對于基礎設施開發者和技術團隊則面臨三重挑戰——構建足以支撐海量需求的服務架構,持續降低計算成本,以及不斷突破智能系統的性能極限。唯有在規模效應、成本控制和技術突破三個維度同步推進,方能把握這場智能革命的戰略機遇。

對數據意味著什么?“數據的邊界決定著智能的上限”—這句話很多人都有共識。物理學家費曼的名言“我無法創造的即我無法理解”也尤為深刻,成為生成式人工智能的指引。在此啟示下,我們可以說:無法數字化即無法智能化。一方面,數字化的過程即是創造智能的過程:模型本身需要數據,將物理世界轉化為數字形態,不論是文字還是影像,都是人類智能的結晶。從另外一方面說,當前大模型面臨的大多數幻覺問題,其本質源于特定領域的數據缺失或質量缺陷——當模型遭遇數據空白區域時,由于模型訓練目標是流暢表達,基于概率的生成會導致預測失準。這一認知反向印證了基礎邏輯:優化數據質量與完善數據體系,才是解決幻覺最源頭應該去做的事情。

今天,我們認為 AGI 在數據領域依然面臨很多的挑戰,這里簡單跟大家分享一下我們的看法:

一是數據的獲取成本顯著增加。OpenAI 前首席科學家 Ilya Sutskever 曾用"數據是人工智能的化石原料"的隱喻揭示行業困境:作為大模型訓練基石的互聯網公開數據資源已接近枯竭。這種枯竭并非物理意義上的耗盡,而是指唾手可得的、廉價的數據資源已被用完。因為互聯網上的數據,大家都可以 Free Access。廉價數據用完了,就只剩真正昂貴的數據。未來一個企業成功與否,我們判斷不是看它如何消費數據、應用數據,而是看它如何能夠高效率地產生高質量的數據,這將成為未來任何一個數字化企業的成功標準。

二是行業數據流通難。我們觀察到一個本質的問題,行業嚴謹性與數據可得性呈反向關系,越嚴謹的行業數據越稀缺。高嚴謹性行業(如法律、醫療)存在三重特征:數字化進程滯后、數據質量要求嚴苛、核心數字化知識沉淀不足,這共同導致了高質量數據的結構性缺失。而生成式 AI 在專業領域的有效應用,既需要高密度的垂直領域知識(包括形式邏輯、因果推理等認知范式),又依賴跨行業知識遷移能力。以 DeepSeek-R1 為例,其通過代碼邏輯向文本創作遷移已驗證技術可行性,但專業領域的智能化突破仍面臨關鍵瓶頸——如何系統性地將行業特有的思維范式、專業規則等隱性知識轉化為可計算模型?該瓶頸若無法突破,將嚴重制約專業領域的智能化進程。

三是多模態數據處理難。我認為不可忽視的核心一點是,我們身處的世界是三維的,并不像語言一樣是線性的。未來的數據不僅僅包括文本,也包含大量的視覺、觸覺信息,包括機器人領域的本體感覺等一系列維度。可以預見,即便當前大模型已經能夠處理數十億量級文本單元(Token),未來數據規模仍將呈指數級增長。面對未來更海量的數據,我們將如何處理,這也是另外一個非常大的挑戰。

四是質量評估難。大家知道大模型最難的一個問題是怎么評估,評估的質量又決定模型的質量。評估到底是什么?評估本身也是數據,它需要大量的評估數據,需要大量具備人類思維,或者人類知識數據。這些數據如何獲取也是一個很大的挑戰,不然我們訓練大模型永遠就像“煉丹”一樣,只有出爐了之后才知道好不好。

以上問題是目前我們觀察到的挑戰。應該如何攻克它,這是個 Open Question,很多公司都在嘗試攻克,能夠解決任何一個問題都有可能成為一個偉大的商業公司。我們有一句話可以分享給大家:未來所有數據公司都將成為 AI 公司。

OceanBase 是為理想而生,更是為場景而生。過去 OceanBase 自研海量交易數據的技術創新,應用到螞蟻集團的內部場景,我們針對當年所面臨的 IOE 架構的挑戰,率先應用了全分布式的數據庫架構。在這個之上,我們構建了包括容災、海量數據服務能力等技術體系。可以毫不謙遜的說,OceanBase 是螞蟻集團持續創新,突破行業技術難題的代表。面向未來,我堅信 OceanBase 將為實現 AGI 夢想繼續綻放。在上述的問題里,我相信 OceanBase 將大有可為。

螞蟻集團將支持 OceanBase 突破一些關鍵的 AI 場景,包括在金融、醫療、生活等螞蟻 AI 的核心場景突破,支持 OceanBase 實踐 Data × AI 的理念和架構創新。今天 AI 的競爭已經進入到深水區,AI 的競爭不僅僅只是模型的競爭,它更加是一個公司乃至行業基礎設施的競爭,基礎設施的效果將直接決定模型的效果。

同時,螞蟻集團將繼續支持 OceanBase 開源開放,把 Data × AI 的能力逐漸開放給行業,為整個社會提供 Data × AI 的 Infra 創新服務,我們想借助一點小小的力量,為我們的行業,為 AGI 的夢想添磚加瓦。

最后,我想以印在 50 英鎊上的圖靈名言結束今天的分享:“這不過是將來之事的序章,也不過是將來之事的影子。”AGI 的夢想很大,期待與各位開發者同行。謝謝!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/82382.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/82382.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/82382.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python網絡爬蟲的基本使用

各位帥哥美女點點關注,有關注才有動力啊 網絡爬蟲 引言 我們平時都說Python爬蟲,其實這里可能有個誤解,爬蟲并不是Python獨有的,可以做爬蟲的語言有很多例如:PHP、JAVA、C#、C、Python。 為什么Python的爬蟲技術會…

網頁模板素材網站 web前端網頁制作模板

在當今數字化時代,Web 前端網頁制作對于企業和個人來說至關重要。無論是企業官網、個人博客還是電商網站,一個美觀、功能性強且易于維護的網頁設計能夠有效提升用戶體驗和品牌形象。然而,從零開始設計一個網頁往往需要耗費大量的時間和精力&a…

ROS系列(一):ROS入門指南 —— 核心解析與版本演進

引言 機器人操作系統(ROS)的誕生,不僅是一場技術革命,更是一張重新定義機器人開發范式的藍圖。從實驗室的原型驗證到工業場景的規模化落地,從單機智能到群體協作,ROS以開源、模塊化和生態驅動的特性&#…

將 Docker 鏡像推送到 GitLab Container Registry 的完整步驟

一、前提準備 GitLab 項目: 在 GitLab 上擁有一個項目,例如 your-group/your-project-name。重要: 確保項目路徑(尤其是項目名稱部分)全部使用小寫字母。例如,如果初始是 Your-Project,請在項目設置中將其路徑修改為 y…

Java-HashMap基礎與擴展學習總結

?面試官?: “HashMap 是 Java 中最常用的數據結構之一,你能說說它的底層實現嗎?比如哈希沖突是怎么解決的?” ?你?(結合源碼與優化場景): “好的,HashMap 底層是數組鏈表/紅黑…

嵌入式學習之系統編程(五)進程(2)

一、進程的退出 (一)僵尸進程與孤兒進程 (二)相關函數 1、exit函數 2、_exit函數 3、atexit函數 二、進程空間的回收(相關函數) 1、wait函數 2、waitpid函數 3、練習 4、exec族 5、system函數 一…

AI時代新詞-Transformer架構:開啟AI新時代的關鍵技術

一、什么是Transformer架構? Transformer架構 是一種基于自注意力機制(Self-Attention Mechanism)的深度學習模型架構,最初由Vaswani等人在2017年的論文《Attention Is All You Need》中提出。它主要用于處理序列數據&#xff08…

基于cornerstone3D的dicom影像瀏覽器 第二十三章 mpr預設窗值與vr preset

文章目錄 前言一、mpr窗口預設窗值二、vr preset三、調用流程 前言 實現mpr窗口預設窗值,vr窗口預設配色 效果如下: 一、mpr窗口預設窗值 可參考 第十五章 預設窗值 邏輯一樣的,把windowWidth, windowCenter值轉換為voiRange值,…

shell之通配符及正則表達式

通配符與正則表達式 通配符(Globbing) 通配符是由 Shell 處理的特殊字符,用于路徑或文件名匹配。當 Shell 在命令參數中遇到通配符時,會將其擴展為匹配的文件路徑;若沒有匹配項,則作為普通字符傳遞給命令…

繼電保護與安全自動裝置:電力系統安全的守護神

電力系統是現代社會賴以生存的基礎設施,而繼電保護和安全自動裝置則是保障電力系統安全穩定運行的守護神。 它們默默無聞地工作著,在電力系統出現異常時,能夠迅速準確地切除故障,防止事故擴大,保障電力供應。 那么&…

Flink流處理基礎概論

文章目錄 引言Flink基本概述傳統數據架構的不足Dataflow中的幾大基本概念Dataflow流式處理宏觀流程數據并行和任務并行的區別Flink中幾種數據傳播策略Flink中事件的延遲和吞吐事件延遲事件的吞吐如何更好的理解事件的延遲和吞吐flink數據流的幾種操作輸入輸出轉換操作滾動聚合窗…

Tomcat 使用與配置全解

一、 Tomcat簡介 Tomcat服務器是Apache的一個開源免費的Web容器。它實現了JavaEE平臺下部分技術規范,屬于輕量級應用服務器。 1. Tomcat版本 Tomcat版本 JDK版本 Servlet版本 JSP版本 10.0.X 8 and later 5.0 3.0 9.0.x 8 and later 4.0 2.3 8.0.x 7…

Unity3D仿星露谷物語開發52之菜單頁面

1、目標 創建菜單頁面,可通過Esc鍵開啟或關閉。 當把鼠標懸停在上面時它會高亮,然后當點擊按鈕時標簽頁會被選擇。 2、 創建PauseMenuCanvas (1)創建Canvas 在Hierarchy -> PersistentScene -> UI下創建新的Cavans命名為…

Spring Boot 調優的 12 個關鍵節點

數據庫連接池調優:精準匹配系統資源 癥狀: 默認配置下,連接池資源使用不當,高并發時連接耗盡或排隊。 常見誤區: spring:datasource:hikari:maximum-pool-size: 1000 # 設置過大connection-timeout: 30000 # 設置…

前端流行框架Vue3教程:28. Vue應用

28. Vue應用 應用實例 每個 Vue 應用都是通過 createApp函數創建一個新的 應用實例 main.js import {createApp} from vue import App from ./App.vue// app:Vue的實例對象 // 在一個Vue項目中,有且只有一個Vue的實例對象 const app createApp(App)/* 根組件選項…

MongoDB 數據庫遷移:完整指南與最佳實踐

在現代數據驅動的應用中,數據庫遷移是一項常見的任務,無論是升級 MongoDB 版本、更換服務器硬件,還是遷移到云環境(如 MongoDB Atlas),都需要一個可靠的遷移策略。錯誤的遷移方式可能導致數據丟失、應用停機…

MQTT-Vue整合

Vue整合 依賴環境 nodejs 版本 > 18安裝 element plus npm install element-plus安裝 mqtt npm install mqtt初始化Vue項目 使用 vite 創建項目 執行命令 npm create vitelatest輸入項目名稱 vue-mqtt-demo MQTT連接 連接組件代碼 components/MqttDemo.vue <script…

IP 地址反向解析(IP反查域名)原理與應用

一、IP 地址反向解析的原理與技術細節 IP 地址反向解析&#xff08;Reverse IP Lookup&#xff09;是一種將 IP 地址映射回其關聯域名或主機名的網絡技術&#xff0c;與常見的正向 DNS 解析&#xff08;將域名解析為 IP 地址&#xff09;形成互補。這一過程在網絡安全研究、漏…

Mermaid 文件支持的圖表

Mermaid 文件后綴支持多種類型的圖表&#xff0c;包括但不限于&#xff1a; 流程圖&#xff1a;用于描述流程和決策的圖表&#xff0c;常用于業務流程的表示和分析。 時序圖&#xff1a;用于描述事件發生的順序和時序關系的圖表&#xff0c;常用于系統交互和消息傳遞的分析。 …

用 Python 構建自動駕駛的實時通信系統:讓車輛“交流”起來!

用 Python 構建自動駕駛的實時通信系統:讓車輛“交流”起來! 自動駕駛技術正加速變革全球交通體系,它不僅是機器學習與計算機視覺的勝利,更是一場 高效通信架構的革命。自動駕駛汽車需要實時交換信息,比如: 傳感器數據(雷達、激光雷達、攝像頭)V2V(車與車通信)V2X(…