大語言模型學習--向量數據庫基礎知識

1.向量

向量是多維數據空間中的一個坐標點。

向量類型

圖像向量 文本向量? 語音向量

Embedding

非結構化數據轉換為向量過程

通過深度學習訓練,將真實世界離散數據,投影到高維數據空間上,通過數據在空間中間的距離體現真實世界的相似度

Vector Embedding 向量嵌入

將非數值詞語符號等非結構化數據編碼成數值向量

Word Embedding 詞嵌入

通過NN學習,文本中詞語作為NN輸入,輸出對應詞向量 Word Vector。詞向量是一個數值向量,每個數值代表詞語的某個特征

向量的每個數值表示某個特征,只要向量足夠大,特征區分足夠明顯

2.向量數據庫

向量數據庫為向量數據提供專用的存儲和索引機制

向量數據被存儲為高維空間中的點

向量數據庫發展階段

向量存儲類型

1.私域知識 Domain Knowledge

可以把向量數據庫作為大模型的外掛知識庫

2.本地存儲 Local Storage

將向量數據存儲到本地

3.長期記憶 Long Time Storage

大模型具有短期記憶,具有上下文信息數量限制。

向量數據庫作為外部數據庫 存儲單次上傳的超大文本 對外內容等信息,為大模型提供理論上沒有上限的長期記憶

向量數據庫作用

1.相似性搜索

根據向量距離或相似性對向量數據進行快速準確的相似性搜索,即可以根據語義或者上下文含義查找最相似或相關的數據

2.提升性能

相似度計算 相似性搜索 高效存儲 分布式

向量數據庫評價指標

1.準確率? ?

檢索相關的向量/檢索出向量總數

2.召回率

檢索相關的向量/向量數據中相關的向量總數

3.每秒平均吞吐

每秒向量數據庫能夠處理的查詢請求次數

4.平均響應延遲

請求平均響應時間

向量相似度計算

向量索引

向量數據庫索引分類

按照數據結構

哈希索引

樹索引

圖索引

倒排文件索引

按照量化壓縮

相似性搜索算法

向量數據量應用場景

圖像相似性搜索

視頻相似性搜索

音頻相似性搜索

推薦系統

問答系統

混合搜索系統

大模型與向量數據庫

當前主流向量數據庫

2024年精選推薦的16個向量數據庫:提升你的AI應用性能-CSDN博客

相關學習資料

三天搞定【大模型系列】之向量數據庫教程(搭建、原理、實戰)_嗶哩嗶哩_bilibili

【上集】向量數據庫技術鑒賞_嗶哩嗶哩_bilibili

【下集】向量數據庫技術鑒賞_嗶哩嗶哩_bilibili

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/71961.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/71961.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/71961.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

項目工坊 | Python驅動淘寶信息爬蟲

目錄 前言 1 完整代碼 2 代碼解讀 2.1 導入模塊 2.2 定義 TaoBao 類 2.3 search_infor_price_from_web 方法 2.3.1 獲取下載路徑 2.3.2 設置瀏覽器選項 2.3.3 反爬蟲處理 2.3.4 啟動瀏覽器 2.3.5 修改瀏覽器屬性 2.3.6 設置下載行為 2.3.7 打開淘寶登錄頁面 2.3.…

藍橋杯題型

藍橋杯 藍橋杯題型分類語法基礎藝術與籃球(日期問題)時間顯示(時間問題)跑步計劃(日期問題)偶串(字符)最長子序列(字符)字母數(進制轉換)6個0&…

【C語言】文件操作篇

目錄 文件的基本概念文本文件和二進制文件的差異 文件指針FILE 結構體文件指針的初始化和賦值 文件打開與關閉常見操作文件的打開文件的關閉 常見問題打開文件時的路徑問題打開文件失敗的常見原因fclose 函數的重要性 文件讀寫操作常見操作字符讀寫字符串讀寫格式化讀寫二進制讀…

【leetcode hot 100 21】合并兩個有序鏈表

解法一:新建一個鏈表存放有序的合并鏈表。當list1和list2至少有一個非空時,返回非空的;否則找出兩個鏈表的最小值作為新鏈表的頭,然后依次比較兩鏈表,每次都先插入小的值。 /*** Definition for singly-linked list.*…

Ubuntu 24.04.2 安裝 PostgreSQL 16 、PostGIS 3

安裝 PostgreSQL 16 apt install postgresql-16passwd postgres,修改 postgres 用戶密碼su postgrespsql -U postgres, 以 postgres 的身份登錄數據庫alter user postgres with password abc123;\q 退出/etc/postgresql/16/main/postgresql.conf 可修改 #listen_ad…

Spring Boot框架總結(超級詳細)

前言 本篇文章包含Springboot配置文件解釋、熱部署、自動裝配原理源碼級剖析、內嵌tomcat源碼級剖析、緩存深入、多環境部署等等,如果能耐心看完,想必會有不少收獲。 一、Spring Boot基礎應用 Spring Boot特征 概念: 約定優于配置&#…

postgresql14編譯安裝腳本

#!/bin/bash####################################readme################################### #先上傳postgresql源碼包,再配置yum源,然后執行腳本 #備份官方yum源配置文件: #cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS…

AI開發利器:miniforge3無感平替Anaconda3

相信有和我遭遇一樣的同學吧,之前裝了anaconda用的挺好的(可以參考AI開發利器:Anaconda),但是考慮到有可能收到軟件侵權的律師函的風險,還是果斷找個替代品把anaconda卸載掉。miniforge就是在這樣的背景下發…

Reactor中的Flux和Mono的區別

Reactor中的Flux和Mono的區別 在Reactor框架中,Flux 和 Mono 是兩個核心的類型,分別用于處理不同的數據流場景。理解它們之間的區別是掌握響應式編程的關鍵。 1. 基本概念 Flux: 表示一個異步、非阻塞的流,能夠發布零個或多個元素。它適用于…

AI-NAS:當存儲遇上智能,開啟數據管理新紀元

在數據爆炸的時代,NAS(網絡附加存儲)已成為個人和企業存儲海量數據的利器。然而,面對日益龐大的數據量,傳統的NAS系統在文件管理和搜索效率上逐漸力不從心。AI-NAS應運而生,它將NAS與人工智能(A…

用 Vue 3.5 TypeScript 做了一個日期選擇器(改進版)

上一篇 已經實現了一個日期選擇器&#xff0c;只不過是模態窗的形式&#xff0c;這個版本改為文本框彈出&#xff0c;點擊空白處可關閉日歷 代碼也增加了不少 <template><div><!-- 添加文本框 --><div class"date-picker-input-wrapper">&l…

【09】單片機編程核心技巧:變量賦值,從定義到存儲的底層邏輯

【09】單片機編程核心技巧&#xff1a;變量賦值&#xff0c;從定義到存儲的底層邏輯 &#x1f31f; 核心概念 單片機變量的定義與賦值是程序設計的基礎&#xff0c;其本質是通過 RAM&#xff08;隨機存儲器&#xff09; 和 ROM&#xff08;只讀存儲器&#xff09; 的協作實現…

【爬蟲】開篇詞

一、網絡爬蟲概述 二、網絡爬蟲的應用場景 三、爬蟲的痛點 四、需要掌握哪些技術&#xff1f; 在這個信息爆炸的時代&#xff0c;如何高效地獲取和處理海量數據成為一項核心技能。無論是數據分析、商業情報、學術研究&#xff0c;還是人工智能訓練&#xff0c;網絡爬蟲&…

文字轉語音chat-tts-ui

去年已經使用過chattts了&#xff0c;但是昨晚想用的時候卻記怎么打開了&#xff0c;找了一下以前的筆記 MacOS 下源碼部署chat-tts-ui 配置好 python3.9-3.11 環境,安裝git &#xff0c;執行命令 brew install libsndfile git python3.10 繼續執行 brew install ffmpeg ? …

基于SpringBoot+Vue的瑜伽課體驗課預約系統【附源碼】

基于SpringBootVue的瑜伽課體驗課預約系統 一、系統技術說明二、運行說明三、系統的演示四、系統的核心代碼演示 一、系統技術說明 框架&#xff1a;SpringbootVue 數據庫&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09; 數據庫工具&#xff1a;Navicat11 開發軟…

sparkTTS window 安裝

SparkTTS 的簡介 Spark-TTS是一種基于SpardAudio團隊提出的 BiCodec 構建的新系統&#xff0c;BiCodec 是一種單流語音編解碼器&#xff0c;可將語音策略性地分解為兩種互補的標記類型&#xff1a;用于語言內容的低比特率語義標記和用于說話者特定屬性的固定長度全局標記。這種…

從零開始:使用 Python 實現機器學習的基礎與實踐

文章大綱&#xff1a; 引言 機器學習的定義與應用場景。Python 在機器學習領域的優勢。本文目標&#xff1a;通過 Python 實現一個簡單的機器學習項目。 環境準備 安裝 Python 和必要的庫&#xff08;如 NumPy、Pandas、Scikit-learn&#xff09;。使用 Jupyter Notebook 或 V…

ApoorvCTF Rust語言逆向實戰

上周參加了國外的比賽&#xff0c;名稱叫&#xff1a;ApoorvCTF 看一下老外的比賽跟我們有什么不同&#xff0c;然后我根據國內比賽對比發現&#xff0c;他們考點還是很有意思的&#xff0c;反正都是逆向&#xff0c;哈哈哈 Rusty Vault 題目描述&#xff1a; In the heart…

Git和GitHub基礎教學

文章目錄 1. 前言2. 歷史3. 下載安裝Git3.1 下載Git3.2 安裝Git3.3 驗證安裝是否成功 4. 配置Git5. Git基礎使用5.1 通過Git Bash使用5.1.1 創建一個新的倉庫。5.1.1.1 克隆別人的倉庫5.1.1.2 自己創建一個本地倉庫 5.1.2 管理存檔 5.2 通過Visual Studio Code使用 6. Git完成遠…

MySQL中like模糊查詢如何優化?

大家好&#xff0c;我是鋒哥。今天分享關于【MySQL中like模糊查詢如何優化?】面試題。希望對大家有幫助&#xff1b; MySQL中like模糊查詢如何優化? 1000道 互聯網大廠Java工程師 精選面試題-Java資源分享網 在 MySQL 中&#xff0c;LIKE 模糊查詢雖然非常常見&#xff0c;…