5 月 17 日,“第三屆 OceanBase 開發者大會”在廣州舉辦,會中,螞蟻集團 CTO 何征宇,進行了題為《AGI時代,海量數據帶來的質變》的主題分享。他深度剖析了AI 時代下,數據應用范式的變革,以及生成式AI技術為數據基礎設施帶來的發展機遇與技術挑戰。
何征宇在演講中提出,當前大模型的成就源于互聯網海量數據,但其存在的"幻覺問題"本質上也是數據問題。他強調數據質量直接決定大模型的能力天花板,并系統闡述了面臨的四大主要挑戰:第一,數據獲取成本不斷攀升;第二,嚴謹行業存在數據稀缺且流通難的困境;第三,多模態數據處理對數據處理能力提出更高要求;最后,數據質量評估體系尚不完善。
何征宇表示,螞蟻集團將支持 OceanBase 在金融、醫療、生活等 AI 核心場景的突破,支持 OceanBase 實踐 Data × AI 的理念和架構創新。同時繼續支持 OceanBase 開源開放,將 Data × AI 的能力逐漸開放給行業,為 AGI 的夢想添磚加瓦。
以下是他的分享全文:
螞蟻集團 CTO 何征宇在 OceanBase 第三屆開發者大會現場
各位 OceanBase 的開發者大家好!非常榮幸能夠有這次機會和大家聊一聊通用人工智能(AGI)。我今天想分享的題目是《AGI 時代,海量數據帶來的質變》。
為什么我會來這次會議,我其實覺得首先要講一句話,沒有數據肯定就沒有今天的 AI 和大模型;沒有開發者的興起和爆發,也就不會有 AI 應用的爆發。正是數據的力量鑄就了今日的 AI 與大模型,而開發者生態的蓬勃發展和持續創新,是真正推動 AI 應用爆發的核心引擎。
AI 的發展其實并不是一帆風順,甚至它不是線性的。這已經是 AI 的第四次爆發式發展了,AI 終于變得通用,這里蘊藏著巨大的市場機會和商業機會。當 ChatGPT 發布的時候,你會看到很多原有需要做專用模型的任務,包括翻譯、寫作、對話等等都只是需要這一個智能模型,從我們的視角看過來,這是符合“長尾理論”的。知名科技雜志《連線》前主編 Chris Anderson 在早年著作中提出的經典案例:在書中,他以亞馬遜書店為例指出,其成功關鍵在于將稀缺難尋的長尾書籍悉數納入銷售體系,也就是它把所有難找、長尾的書本全部上架了。這背后遵循的冪律法則對技術從業者而言并不陌生——當海量長尾需求聚合時,其總和將超越任何單一主流市場的規模。
今天 AGI 意味著什么?當前 AGI 的突破在于單個模型或解決方案能夠完成多個細分 AI 任務。隨著這些基礎功能的實現,我們預見將涌現出指數級增長的長尾應用需求。這些需求的疊加效應極有可能超越現有 AI 市場的總和,預示著一場由技術革命驅動的商業爆發即將來臨。更多的人會享受到更大更好的 AI 服務。對于基礎設施開發者和技術團隊則面臨三重挑戰——構建足以支撐海量需求的服務架構,持續降低計算成本,以及不斷突破智能系統的性能極限。唯有在規模效應、成本控制和技術突破三個維度同步推進,方能把握這場智能革命的戰略機遇。
對數據意味著什么?“數據的邊界決定著智能的上限”—這句話很多人都有共識。物理學家費曼的名言“我無法創造的即我無法理解”也尤為深刻,成為生成式人工智能的指引。在此啟示下,我們可以說:無法數字化即無法智能化。一方面,數字化的過程即是創造智能的過程:模型本身需要數據,將物理世界轉化為數字形態,不論是文字還是影像,都是人類智能的結晶。從另外一方面說,當前大模型面臨的大多數幻覺問題,其本質源于特定領域的數據缺失或質量缺陷——當模型遭遇數據空白區域時,由于模型訓練目標是流暢表達,基于概率的生成會導致預測失準。這一認知反向印證了基礎邏輯:優化數據質量與完善數據體系,才是解決幻覺最源頭應該去做的事情。
今天,我們認為 AGI 在數據領域依然面臨很多的挑戰,這里簡單跟大家分享一下我們的看法:
一是數據的獲取成本顯著增加。OpenAI 前首席科學家 Ilya Sutskever 曾用"數據是人工智能的化石原料"的隱喻揭示行業困境:作為大模型訓練基石的互聯網公開數據資源已接近枯竭。這種枯竭并非物理意義上的耗盡,而是指唾手可得的、廉價的數據資源已被用完。因為互聯網上的數據,大家都可以 Free Access。廉價數據用完了,就只剩真正昂貴的數據。未來一個企業成功與否,我們判斷不是看它如何消費數據、應用數據,而是看它如何能夠高效率地產生高質量的數據,這將成為未來任何一個數字化企業的成功標準。
二是行業數據流通難。我們觀察到一個本質的問題,行業嚴謹性與數據可得性呈反向關系,越嚴謹的行業數據越稀缺。高嚴謹性行業(如法律、醫療)存在三重特征:數字化進程滯后、數據質量要求嚴苛、核心數字化知識沉淀不足,這共同導致了高質量數據的結構性缺失。而生成式 AI 在專業領域的有效應用,既需要高密度的垂直領域知識(包括形式邏輯、因果推理等認知范式),又依賴跨行業知識遷移能力。以 DeepSeek-R1 為例,其通過代碼邏輯向文本創作遷移已驗證技術可行性,但專業領域的智能化突破仍面臨關鍵瓶頸——如何系統性地將行業特有的思維范式、專業規則等隱性知識轉化為可計算模型?該瓶頸若無法突破,將嚴重制約專業領域的智能化進程。
三是多模態數據處理難。我認為不可忽視的核心一點是,我們身處的世界是三維的,并不像語言一樣是線性的。未來的數據不僅僅包括文本,也包含大量的視覺、觸覺信息,包括機器人領域的本體感覺等一系列維度。可以預見,即便當前大模型已經能夠處理數十億量級文本單元(Token),未來數據規模仍將呈指數級增長。面對未來更海量的數據,我們將如何處理,這也是另外一個非常大的挑戰。
四是質量評估難。大家知道大模型最難的一個問題是怎么評估,評估的質量又決定模型的質量。評估到底是什么?評估本身也是數據,它需要大量的評估數據,需要大量具備人類思維,或者人類知識數據。這些數據如何獲取也是一個很大的挑戰,不然我們訓練大模型永遠就像“煉丹”一樣,只有出爐了之后才知道好不好。
以上問題是目前我們觀察到的挑戰。應該如何攻克它,這是個 Open Question,很多公司都在嘗試攻克,能夠解決任何一個問題都有可能成為一個偉大的商業公司。我們有一句話可以分享給大家:未來所有數據公司都將成為 AI 公司。
OceanBase 是為理想而生,更是為場景而生。過去 OceanBase 自研海量交易數據的技術創新,應用到螞蟻集團的內部場景,我們針對當年所面臨的 IOE 架構的挑戰,率先應用了全分布式的數據庫架構。在這個之上,我們構建了包括容災、海量數據服務能力等技術體系。可以毫不謙遜的說,OceanBase 是螞蟻集團持續創新,突破行業技術難題的代表。面向未來,我堅信 OceanBase 將為實現 AGI 夢想繼續綻放。在上述的問題里,我相信 OceanBase 將大有可為。
螞蟻集團將支持 OceanBase 突破一些關鍵的 AI 場景,包括在金融、醫療、生活等螞蟻 AI 的核心場景突破,支持 OceanBase 實踐 Data × AI 的理念和架構創新。今天 AI 的競爭已經進入到深水區,AI 的競爭不僅僅只是模型的競爭,它更加是一個公司乃至行業基礎設施的競爭,基礎設施的效果將直接決定模型的效果。
同時,螞蟻集團將繼續支持 OceanBase 開源開放,把 Data × AI 的能力逐漸開放給行業,為整個社會提供 Data × AI 的 Infra 創新服務,我們想借助一點小小的力量,為我們的行業,為 AGI 的夢想添磚加瓦。
最后,我想以印在 50 英鎊上的圖靈名言結束今天的分享:“這不過是將來之事的序章,也不過是將來之事的影子。”AGI 的夢想很大,期待與各位開發者同行。謝謝!