1.向量
向量是多維數據空間中的一個坐標點。
向量類型
圖像向量 文本向量? 語音向量
Embedding
非結構化數據轉換為向量過程
通過深度學習訓練,將真實世界離散數據,投影到高維數據空間上,通過數據在空間中間的距離體現真實世界的相似度
Vector Embedding 向量嵌入
將非數值詞語符號等非結構化數據編碼成數值向量
Word Embedding 詞嵌入
通過NN學習,文本中詞語作為NN輸入,輸出對應詞向量 Word Vector。詞向量是一個數值向量,每個數值代表詞語的某個特征
向量的每個數值表示某個特征,只要向量足夠大,特征區分足夠明顯
2.向量數據庫
向量數據庫為向量數據提供專用的存儲和索引機制
向量數據被存儲為高維空間中的點
向量數據庫發展階段
向量存儲類型
1.私域知識 Domain Knowledge
可以把向量數據庫作為大模型的外掛知識庫
2.本地存儲 Local Storage
將向量數據存儲到本地
3.長期記憶 Long Time Storage
大模型具有短期記憶,具有上下文信息數量限制。
向量數據庫作為外部數據庫 存儲單次上傳的超大文本 對外內容等信息,為大模型提供理論上沒有上限的長期記憶
向量數據庫作用
1.相似性搜索
根據向量距離或相似性對向量數據進行快速準確的相似性搜索,即可以根據語義或者上下文含義查找最相似或相關的數據
2.提升性能
相似度計算 相似性搜索 高效存儲 分布式
向量數據庫評價指標
1.準確率? ?
檢索相關的向量/檢索出向量總數
2.召回率
檢索相關的向量/向量數據中相關的向量總數
3.每秒平均吞吐
每秒向量數據庫能夠處理的查詢請求次數
4.平均響應延遲
請求平均響應時間
向量相似度計算
向量索引
向量數據庫索引分類
按照數據結構
哈希索引
樹索引
圖索引
倒排文件索引
按照量化壓縮
相似性搜索算法
向量數據量應用場景
圖像相似性搜索
視頻相似性搜索
音頻相似性搜索
推薦系統
問答系統
混合搜索系統
大模型與向量數據庫
當前主流向量數據庫
2024年精選推薦的16個向量數據庫:提升你的AI應用性能-CSDN博客
相關學習資料
三天搞定【大模型系列】之向量數據庫教程(搭建、原理、實戰)_嗶哩嗶哩_bilibili
【上集】向量數據庫技術鑒賞_嗶哩嗶哩_bilibili
【下集】向量數據庫技術鑒賞_嗶哩嗶哩_bilibili