大模型和數據庫最新結合進展

寫在前面

本文主要內容是上次接受 infoQ 訪談,百度智能云朱潔老師介紹了大模型和 AI 結合相關話題,這次整體再刷新下,給到對這個領域感興趣的同學。

當前,百度智能云云數據庫特惠專場開始!熱銷規格新用戶免費使用,歡迎參與!

引言

AI 和數據庫結合是個老調重彈的事情,主要兩個方向,一個 DB4AI,另外一個是 AI4DB。大模型沒有出來之前,這塊其實就有不少實踐。比如用AI 來解決數據庫的一些運維問題,比如磁盤自動擴容,資源瓶頸自動擴容等。以及DB 的數據賦能給 AI 應用。在這些最常見的探索之后,應該說AI 和數據庫的結合碰到了瓶頸,又慢慢冷了下來。

大模型出來之后,因為大模型在理解、生成、邏輯和記憶四大能力上和原來 AI 技術有本質的區別,所以業界對AI 和數據庫能碰撞出什么火化充滿了期待。

本文就是探討大模型出來之后,所以數據庫和大模型數據庫結合這塊的最新發展以及未來趨勢。尤其是在過去一年里面大模型快速發展,如長文本能力,對于的數據庫也快速發展,比如向量數據庫,多路召回,更強性能等。應該說兩者是相輔相成,未來可期。

圖片

大模型和數據庫結合最新的一些進展

1、大模型和數據庫結合主要方向

大模型對數據庫技術帶來的機遇是遠大于挑戰的。

傳統數據庫技術或者大數據技術處理的還是以結構化數據為主,或者要把非結構化數據先預處理成結構化數據才好處理。但事實上,非結構化數據才是最自然,體量最大的數據。大模型技術讓非結構化數據有新的處理方法,放大非結構數據的價值,因此也帶來了底層數據庫更多的發揮空間。

大模型對數據庫的影響主要可以從兩個方面看,

  • 一個是 DB4AI,主要是向量數據庫技術。通過向量數據庫解決大模型知識更新不及時,幻覺問題,以及缺乏企業內部知識,也無法進行細粒度安全管理等問題。

  • 另一個是 AI4DB,通用大模型技術對數據庫本身進行優化,主要方向包括數據庫自動運維,SQL 生成,SQL 優化,智能問答等等,另外還有一個更大的提升是,大模型改進了和人的交互方式,所以未來一些周邊的運維和輔助工具的使用體驗和效率通過大模型的結合得到質的提升。

2、DB4AI 主要發展

百度智能云發布了 VectorDB 1.0,向量數據庫是企業不可或缺的知識庫核心組件,它針對傳統知識庫問答系統遇到的性能瓶頸、維護挑戰及規模限制等問題提供了有力解決方案。全新發布的百度向量數據庫 VectorDB 1.0,不僅集成了全面的運維控制和安全防護能力,還兼容了千帆、LangChain 等主流生態系統,能夠幫助企業輕松管理數以千萬計的文檔知識,最大支持百億向量存儲規模以及毫秒級的向量檢索速度。同時,相比同類型開源產品,VectorDB 1.0 性能最高提升 10 倍。

3、向量技術和大模型搭配主要解決什么問題

大模型技術讓非結構化數據有了新的應用空間,數據庫變化比較大的是對文本等非結構化數據處理,以及未來甚至圖片,視頻等多模的數據。

目前這塊發展很快,主要包括文本拆分,怎么 Embedding 多模數據,怎么實現多路召回,以及向量引擎通過 GPU ,以及更好數據組織模式來實現高性價比等。

4、大模型技術對傳統數據庫的提升主要在哪些方面

大模型屬于人工智能領域的一個重要組成部分。現在一般說大模型是指生成式 AI 技術(GenAI)。

在數據庫領域一直使用 AI 技術,傳統上主要是一些預測算法,分類算法這些,解決比如運維的問題。大模型誕生之后,在代碼生成,知識處理方面相比傳統 AI 技術有了革命性提升,但是在一些傳統系統運維,調優方面還是傳統算法實現更簡單,效率更高。

因此大模型技術更多的是在原來的技術的基礎上更深入的解決原來不好解決的代碼生成,知識管理等。對原有技術是一個非常大的補充,提升和擴展。

各個廠家都在進行相應的嘗試和布局。當前比較創新的數據庫和大模型結合的案例和應用有:

  • 智能問答:通過大模型技術解決數據庫運維問題,DBA 值班等。

  • 代碼生成 & 翻譯:自然語言到 SQL(NL2SQL),或者把一種 SQL 翻譯成另外一種,典型的 Oracle 翻譯成 MySQL 之類。

  • SQL 優化:改寫、注釋、糾錯、解釋,補全

  • 智能問數:自然語言詢問,內部通過大模型轉成 SQL,查詢出結果,然后大模型再總結以報表,報告形式展示出來。

5、AI4DB 主要發展

百度智能云發布了數據庫智能駕駛艙(Database Smart Cockpit,DBSC),這個服務是利用大模型技術解決數據庫運維,安全,智能問答的能力。通過內置的百度文心大模型能力,再加上百度積累的數據庫運維知識庫等,幫助用戶回答云原生數據庫 GaiaDB、MySQL、Redis 等數據庫產品的各種使用場景復雜問題,以及顯著降低異常問題定位時間,以及提升 SQL 優化效率等。目前這個服務在百度內部已經成功幫助 DBA 團隊降低超過 50% 的運維工作量。

6、在 AI 與數據庫的結合中,百度智能云的主要策略

AI 技術和數據庫技術都在快速發展過程中,我們幾個主要的策略有:

  • 堅持技術和場景結合的原則:技術只有和場景深度結合,才容易成熟,以及真正解決問題。因此我們對大模型的應用并不追求嘗鮮,一定是選擇可以和場景深度結合,各方面條件成熟,以及內部深度使用之后再給到我們的客戶。

  • 堅持技術的普惠的原則:普惠核心意味著要讓更多用戶,更多場景可以使用。對數據庫技術來說主要體現在兩點:首先我們在設計的時候就會基于通用硬件去設計,云上,云下都可以部署,大客戶,小客戶都能用。這個體現在我們的 VectorDB,DBSC,GaiaDB 等多個產品中。另外一個核心是堅持起步門檻低,為了讓更多用戶用到,我們 VectorDB,DBSC 目前都提供了免費版本,讓用戶可以直接使用。也歡迎大家到百度智能云上選擇相應的免費版本,體驗最新大模型加持的能力。

  • 堅持開放的原則:除了我們自研之外,我們也非常歡迎更多的第三方廠商和我們一起共建,或者集成我們的產品。

7、對未來的展望

這個領域還在一個剛起步和快速發展階段,各種概念層出不窮,當前的能力也有非常大的提升空間,所以未來還是有非常大的想象空間。我覺得下一個階段的發展,核心有以下:

  • 已有產品的成熟,隨著技術發展,使用者越多,會更催熟當前的產品,更深度的解決客戶實際場景問題。

  • 多模態支持:當前技術處理文本為主,未來多模態的能力會越來越強,也會在這個基礎上誕生更多的應用。

當前,百度智能云云數據庫特惠專場開始!熱銷規格新用戶免費使用,歡迎參與!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/37860.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/37860.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/37860.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Android中ViewModel+LiveData+DataBinding的配合使用(kotlin)

Android 中 ViewModel、LiveData 和 Data Binding 的配合使用(Kotlin) 摘要 本文將介紹如何在 Android 開發中結合使用 ViewModel、LiveData 和 Data Binding 進行數據綁定和狀態更新。我們將詳細探討這三者之間的關系,并展示如何在 Kotlin…

最逼真的簡易交通燈設計

最逼真的簡易交通燈設計 需要資料的請在文章末尾獲取(有問題可以私信我哦~~) 01 資料內容 Proteus仿真文件程序源碼實物制作,代碼修改,功能定制(需額外收費,價格實惠,歡迎咨詢) …

實驗場:在幾分鐘內使用 Elasticsearch 進行 RAG 應用程序實驗

作者:來自 Elastic Joe McElroy, Serena Chou 什么是 Playground(實驗場)? 我們很高興發布我們的 Playground 體驗 —- 一個低代碼界面,開發人員可以在幾分鐘內使用自己的私人數據探索他們選擇的 LLM。 在對對話式搜…

41割隊伍

上海市計算機學會競賽平臺 | YACSYACS 是由上海市計算機學會于2019年發起的活動,旨在激發青少年對學習人工智能與算法設計的熱情與興趣,提升青少年科學素養,引導青少年投身創新發現和科研實踐活動。https://www.iai.sh.cn/problem/387 題目描述 給定 ??n 個數字 ??1,?…

一周小計(1):實習初體驗

實習的第一周,從最開始的配環境做好準備工作,到拉項目熟悉項目,然后自己去寫需求,每一步都有很大收獲,得到很多人幫助真的好感謝,以下是個人這幾天的記錄與感想。 (這個其實是我寫的周報&#x…

Hi3861 OpenHarmony嵌入式應用入門--LiteOS Semaphore做同步使用

信號量作為同步使用 創建一個Semaphore對象,并指定一個初始的計數值(通常稱為“許可”或“令牌”的數量)。這個計數值表示當前可用的資源數量或可以同時訪問共享資源的線程數。當一個線程需要訪問共享資源時,它會嘗試從Semaphore…

加油站可視化:打造智能化運營與管理新模式

智慧加油站可視化通過圖撲 HT 構建仿真的三維模型,將加油站的布局、設備狀態、人員活動等信息動態呈現。管理者可以通過直觀的可視化界面實時監控和分析運營狀況,快速做出決策,提高管理效率和安全水平,推動加油站向智能化管理轉型…

后端之路第三站(Mybatis)——結合案例講Mybatis怎么操作sql

先講一下準備工作整體流程要做什么 我們要基于一個員工管理系統作為案例,進行員工信息的【增、刪、改、查】 原理就是用Mybatis通過java語言來執行sql語句,來達到【增、刪、改、查】 一、準備工作 1、引入數據庫數據 首先我們把一個員工、部門表的數…

【51單片機入門】速通定時器

文章目錄 前言定時器是什么初始化定時器初始化的大概步驟TMOD寄存器C/T寄存器 觸發定時器中斷是什么中斷函數定時器點亮led 總結 前言 在嵌入式系統的開發中,定時器是一個非常重要的組成部分。它們可以用于產生精確的時間延遲,或者在特定的時間間隔內觸…

對外發布的PDF文檔進行數字證書簽名的重要性?

對外發布的PDF文檔進行數字證書簽名具有以下幾個重要性: 身份驗證:數字簽名可以證明文檔的來源,即確認文檔的簽署者身份。這如同在紙質文檔上手寫簽名或加蓋公章,但更安全可靠,因為數字簽名是基于加密技術,…

Java--常用類APl(復習總結)

前言: Java是一種強大而靈活的編程語言,具有廣泛的應用范圍,從桌面應用程序到企業級應用程序都能夠使用Java進行開發。在Java的編程過程中,使用標準類庫是非常重要的,因為標準類庫提供了豐富的類和API,可以簡化開發過…

【接口自動化測試】第三節.實現項目核心業務接口自動化

文章目錄 前言一、實現登錄接口對象封裝和調用 1.0 登錄接口的接口測試文檔 1.1 接口對象層(封裝) 1.2 測試腳本層(調用)二、課程新增接口對象封裝和調用 2.0 課程新增接口的接口測試文檔 2.1 接口對象層…

AVL樹模擬

1.概念 雖然二叉搜索樹可以縮短查找的效率,但如果數據有序或者接近有序時二叉搜索樹樹將退化為單支樹,查找元素相當于在順序表中搜索元素,效率低下。AVL 樹是具有一下性質的二叉搜索樹: 1.它的左右子樹都是AVL樹 2.左右子…

Mac 如何安裝 wget

1.安裝 Homebrew2.安裝 wget3.檢測 wget 是否安裝成功 1.安裝 Homebrew 在安裝 wget 之前需要安裝一個適用于 mac 的包管理器 Homebrew,打開 mac 終端執行如下命令進行安裝: /usr/bin/ruby -e "$(curl -fsSL https://cdn.jsdelivr.net/gh/ineo6/h…

【Git】GitIgnore不生效

這里可能有兩種原因,一個沒有刷新Git緩存,二是Git忽略規則有問題 更新Git緩存 git rm -r --cached . git add . git commit -m "modify git ignore rule"Ignore規則 檢查下忽略文件的目錄表示是否正確 XXX忽略任意目錄下名為XXX的文件 …

新手第一個漏洞復現:MS17-010(永恒之藍)

文章目錄 漏洞原理漏洞影響范圍復現環境復現步驟 漏洞原理 漏洞出現在Windows SMB v1中的內核態函數srv!SrvOs2FeaListToNt在處理FEA(File Extended Attributes)轉換時。該函數在將FEA list轉換成NTFEA(Windows NT FEA)list前&am…

【Golang - 90天從新手到大師】Day14 - 方法和接口

一. go方法 go方法:在函數的func和函數名間增加一個特殊的接收器類型,接收器可以是結構體類型或非結構體類型。接收器可以在方法內部訪問。創建一個接收器類型為Type的methodName方法。 func (t Type) methodName(parameter list) {}go引入…

在 MATLAB 中顯示 3D 圖像

文章目錄 前言1. 曲面圖 (Surface Plot)2. 網格圖 (Mesh Plot)3. 散點圖 (Scatter Plot)4. 等值線圖 (Contour Plot) 前言 提示:這里可以添加本文要記錄的大概內容: 項目需要: 提示:以下是本篇文章正文內容,下面案例…

享元模式(設計模式)

享元模式(Flyweight Pattern)是一種結構型設計模式,它通過共享細粒度對象來減少內存使用,從而提高性能。在享元模式中,多個對象可以共享相同的狀態以減少內存消耗,特別適合用于大量相似對象的場景。 享元模…

解決“Duplicate keys detected: ‘ ‘.This may cause an update error.”問題

問題原因 出現“Duplicate keys detected”的錯誤,通常表示在v-for指令中使的:key綁定值有重復。 如果前端是靜態數據,一般能自我避免:key綁定值有重復。如果前端是綁定的動態數據,那么需要另外提供一個唯一的鍵。 在這個例子中&#xff0c…