寫在前面
本文主要內容是上次接受 infoQ 訪談,百度智能云朱潔老師介紹了大模型和 AI 結合相關話題,這次整體再刷新下,給到對這個領域感興趣的同學。
當前,百度智能云云數據庫特惠專場開始!熱銷規格新用戶免費使用,歡迎參與!
引言
AI 和數據庫結合是個老調重彈的事情,主要兩個方向,一個 DB4AI,另外一個是 AI4DB。大模型沒有出來之前,這塊其實就有不少實踐。比如用AI 來解決數據庫的一些運維問題,比如磁盤自動擴容,資源瓶頸自動擴容等。以及DB 的數據賦能給 AI 應用。在這些最常見的探索之后,應該說AI 和數據庫的結合碰到了瓶頸,又慢慢冷了下來。
大模型出來之后,因為大模型在理解、生成、邏輯和記憶四大能力上和原來 AI 技術有本質的區別,所以業界對AI 和數據庫能碰撞出什么火化充滿了期待。
本文就是探討大模型出來之后,所以數據庫和大模型數據庫結合這塊的最新發展以及未來趨勢。尤其是在過去一年里面大模型快速發展,如長文本能力,對于的數據庫也快速發展,比如向量數據庫,多路召回,更強性能等。應該說兩者是相輔相成,未來可期。
大模型和數據庫結合最新的一些進展
1、大模型和數據庫結合主要方向
大模型對數據庫技術帶來的機遇是遠大于挑戰的。
傳統數據庫技術或者大數據技術處理的還是以結構化數據為主,或者要把非結構化數據先預處理成結構化數據才好處理。但事實上,非結構化數據才是最自然,體量最大的數據。大模型技術讓非結構化數據有新的處理方法,放大非結構數據的價值,因此也帶來了底層數據庫更多的發揮空間。
大模型對數據庫的影響主要可以從兩個方面看,
-
一個是 DB4AI,主要是向量數據庫技術。通過向量數據庫解決大模型知識更新不及時,幻覺問題,以及缺乏企業內部知識,也無法進行細粒度安全管理等問題。
-
另一個是 AI4DB,通用大模型技術對數據庫本身進行優化,主要方向包括數據庫自動運維,SQL 生成,SQL 優化,智能問答等等,另外還有一個更大的提升是,大模型改進了和人的交互方式,所以未來一些周邊的運維和輔助工具的使用體驗和效率通過大模型的結合得到質的提升。
2、DB4AI 主要發展
百度智能云發布了 VectorDB 1.0,向量數據庫是企業不可或缺的知識庫核心組件,它針對傳統知識庫問答系統遇到的性能瓶頸、維護挑戰及規模限制等問題提供了有力解決方案。全新發布的百度向量數據庫 VectorDB 1.0,不僅集成了全面的運維控制和安全防護能力,還兼容了千帆、LangChain 等主流生態系統,能夠幫助企業輕松管理數以千萬計的文檔知識,最大支持百億向量存儲規模以及毫秒級的向量檢索速度。同時,相比同類型開源產品,VectorDB 1.0 性能最高提升 10 倍。
3、向量技術和大模型搭配主要解決什么問題
大模型技術讓非結構化數據有了新的應用空間,數據庫變化比較大的是對文本等非結構化數據處理,以及未來甚至圖片,視頻等多模的數據。
目前這塊發展很快,主要包括文本拆分,怎么 Embedding 多模數據,怎么實現多路召回,以及向量引擎通過 GPU ,以及更好數據組織模式來實現高性價比等。
4、大模型技術對傳統數據庫的提升主要在哪些方面
大模型屬于人工智能領域的一個重要組成部分。現在一般說大模型是指生成式 AI 技術(GenAI)。
在數據庫領域一直使用 AI 技術,傳統上主要是一些預測算法,分類算法這些,解決比如運維的問題。大模型誕生之后,在代碼生成,知識處理方面相比傳統 AI 技術有了革命性提升,但是在一些傳統系統運維,調優方面還是傳統算法實現更簡單,效率更高。
因此大模型技術更多的是在原來的技術的基礎上更深入的解決原來不好解決的代碼生成,知識管理等。對原有技術是一個非常大的補充,提升和擴展。
各個廠家都在進行相應的嘗試和布局。當前比較創新的數據庫和大模型結合的案例和應用有:
-
智能問答:通過大模型技術解決數據庫運維問題,DBA 值班等。
-
代碼生成 & 翻譯:自然語言到 SQL(NL2SQL),或者把一種 SQL 翻譯成另外一種,典型的 Oracle 翻譯成 MySQL 之類。
-
SQL 優化:改寫、注釋、糾錯、解釋,補全
-
智能問數:自然語言詢問,內部通過大模型轉成 SQL,查詢出結果,然后大模型再總結以報表,報告形式展示出來。
5、AI4DB 主要發展
百度智能云發布了數據庫智能駕駛艙(Database Smart Cockpit,DBSC),這個服務是利用大模型技術解決數據庫運維,安全,智能問答的能力。通過內置的百度文心大模型能力,再加上百度積累的數據庫運維知識庫等,幫助用戶回答云原生數據庫 GaiaDB、MySQL、Redis 等數據庫產品的各種使用場景復雜問題,以及顯著降低異常問題定位時間,以及提升 SQL 優化效率等。目前這個服務在百度內部已經成功幫助 DBA 團隊降低超過 50% 的運維工作量。
6、在 AI 與數據庫的結合中,百度智能云的主要策略
AI 技術和數據庫技術都在快速發展過程中,我們幾個主要的策略有:
-
堅持技術和場景結合的原則:技術只有和場景深度結合,才容易成熟,以及真正解決問題。因此我們對大模型的應用并不追求嘗鮮,一定是選擇可以和場景深度結合,各方面條件成熟,以及內部深度使用之后再給到我們的客戶。
-
堅持技術的普惠的原則:普惠核心意味著要讓更多用戶,更多場景可以使用。對數據庫技術來說主要體現在兩點:首先我們在設計的時候就會基于通用硬件去設計,云上,云下都可以部署,大客戶,小客戶都能用。這個體現在我們的 VectorDB,DBSC,GaiaDB 等多個產品中。另外一個核心是堅持起步門檻低,為了讓更多用戶用到,我們 VectorDB,DBSC 目前都提供了免費版本,讓用戶可以直接使用。也歡迎大家到百度智能云上選擇相應的免費版本,體驗最新大模型加持的能力。
-
堅持開放的原則:除了我們自研之外,我們也非常歡迎更多的第三方廠商和我們一起共建,或者集成我們的產品。
7、對未來的展望
這個領域還在一個剛起步和快速發展階段,各種概念層出不窮,當前的能力也有非常大的提升空間,所以未來還是有非常大的想象空間。我覺得下一個階段的發展,核心有以下:
-
已有產品的成熟,隨著技術發展,使用者越多,會更催熟當前的產品,更深度的解決客戶實際場景問題。
-
多模態支持:當前技術處理文本為主,未來多模態的能力會越來越強,也會在這個基礎上誕生更多的應用。
當前,百度智能云云數據庫特惠專場開始!熱銷規格新用戶免費使用,歡迎參與!