快速上手LangChain(三)構建檢索增強生成(RAG)應用

文章目錄

  • 快速上手LangChain(三)構建檢索增強生成(RAG)應用
    • 概述
    • 索引
      • 阿里嵌入模型 Embedding
    • 檢索和生成
    • RAG應用(demo:根據我的博客主頁,分析一下我的技術棧)

快速上手LangChain(三)構建檢索增強生成(RAG)應用

langchain官方文檔:https://python.langchain.ac.cn/docs/tutorials/rag/

概述

典型的 RAG 應用程序有兩個主要組件

  • 索引:一個從源頭攝取數據并對其進行索引的管道。這通常離線進行

  • 檢索和生成:實際的 RAG 鏈,它在運行時獲取用戶查詢,從索引中檢索相關數據,然后將其傳遞給模型。

索引

在這里插入圖片描述

  • 加載:首先我們需要加載數據。這可以使用文檔加載器完成。
  • 拆分:文本拆分器將大型 Documents 分成更小的塊。這對于索引數據和將其傳遞到模型中都很有用,因為大的塊更難搜索,并且無法容納在模型的有限上下文窗口中。
  • 存儲:我們需要一個地方來存儲和索引我們的拆分,以便稍后可以搜索它們。這通常使用向量存儲和嵌入模型完成。

由于原始文檔過大,超出了LLM的上下文窗口,需要將其分塊才能讓LLM識別。LangChain 提供了許多內置的文本分塊工具,例如 CharacterTextSplitter

總結:RAG需要從向量數據庫檢索上下文然后輸入LLM進行生成,因此需要提前將文本數據向量化并存儲到向量數據庫

阿里嵌入模型 Embedding

Embedding(也稱為嵌入)是將文本、圖片或音視頻等數據轉化為向量(數字序列)的一種方法。向量的特點在于可以用數學方式表示數據間的關系,向量之間的距離代表數據的相關性。距離越小,相關性越高;距離越大,相關性越低。

通用文本向量,是通義實驗室基于LLM底座的多語言文本統一向量模型,面向全球多個主流語種,提供高水準的向量服務,幫助開發者將文本數據快速轉換為高質量的向量數據。

通義官方文檔:https://help.aliyun.com/zh/model-studio/user-guide/embedding
langchain相關代碼:libs/community/langchain_community/embeddings/dashscope.py

檢索和生成

  • 檢索:給定用戶輸入,使用檢索器從存儲中檢索相關拆分。
  • 生成:聊天模型 / LLM 使用包含問題和檢索數據的提示來生成答案

在這里插入圖片描述

一旦我們索引了數據,我們將使用LangGraph作為我們的編排框架來實現檢索和生成步驟。

RAG應用(demo:根據我的博客主頁,分析一下我的技術棧)

langchain官方文檔:https://python.langchain.ac.cn/docs/tutorials/rag/

我們將構建一個應用程序,該應用程序可以回答有關網站內容的問題。我們將使用的特定網站是 Lilian Weng 的LLM Powered Autonomous Agents博客文章,這使我們可以詢問有關該文章內容的問題。

這里我們把官方demo改造一下,指定我們自己的一篇博客文章,使用阿里的嵌入模型進行向量化,細節上做了一點優化。

  1. 安裝依賴
pip install --upgrade langchain-text-splitters langchain-community
  1. 下載&加載語料
loader = WebBaseLoader(web_paths=(

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/64926.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/64926.shtml
英文地址,請注明出處:http://en.pswp.cn/web/64926.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[cg] android studio 無法調試cpp問題

折騰了好久,native cpp庫無法調試問題,原因 下面的Deploy 需要選Apk from app bundle!! 另外就是指定Debug type為Dual,并在Symbol Directories 指定native cpp的so路徑 UE項目調試: 使用Android Studio調試虛幻引擎Android項目…

【Windows】powershell 設置執行策略(Execution Policy)禁止了腳本的運行

報錯信息: 無法加載文件 C:\Users\11726\Documents\WindowsPowerShell\profile.ps1,因為在此系統上禁止運行腳本。有關詳細信息,請參 閱 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_Execution_Policies。 所在位置 行:1 字符…

可編輯37頁PPT |“數據湖”構建汽車集團數據中臺

薦言分享:隨著汽車行業智能化、網聯化的快速發展,數據已成為車企經營決策、優化生產、整合供應鏈的核心資源。為了在激烈的市場競爭中占據先機,汽車集團亟需構建一個高效、可擴展的數據管理平臺,以實現對海量數據的收集、存儲、處…

【快速實踐】類激活圖(CAM,class activation map)可視化

類激活圖可視化:有助于了解一張圖像的哪一部分讓卷積神經網絡做出了最終的分類決策 對輸入圖像生成類激活熱力圖類激活熱力圖是與特定輸出類別相關的二維分數網格:對任何輸入圖像的每個位置都要進行計算,它表示每個位置對該類別的重要程度 我…

ros2 py文件間函數調用

文章目錄 寫在前面的話生成python工程包命令運行python函數命令python工程包的目錄結構目錄結構(細節) 報錯 1( no module name ***)錯誤示意 截圖終端輸出解決方法 報錯 2( AttributeError: *** object has no attrib…

Milvus×合邦電力:向量數據庫如何提升15%電價預測精度

01. 全球能源市場化改革下的合邦電力 在全球能源轉型和市場化改革的大背景下,電力交易市場正逐漸成為優化資源配置、提升系統效率的關鍵平臺。電力交易通過市場化手段,促進了電力資源的有效分配,為電力行業的可持續發展提供了動力。 合邦電力…

OLED的顯示

一、I2C I2C時序:時鐘線SCL高電平下:SDA由高變低代表啟動信號,開始發送數據;SCL高電平時,數據穩定,數據可以被讀走,開始進行讀操作,SCL低電平時,數據發生改變&#xff1…

VMware運維效率提升50%,RVTools管理更簡單

RVTools 是一款專為 VMware 虛擬化環境量身打造的高效管理工具,基于 .NET 4.7.2 框架開發,并與 VMware vSphere Management SDK 8.0 和 CIS REST API 深度集成,能夠全面呈現虛擬化平臺的各項關鍵數據。該工具不僅能夠詳細列出虛擬機、CPU、內…

JS 中 json數據 與 base64、ArrayBuffer之間轉換

JS 中 json數據 與 base64、ArrayBuffer之間轉換 json 字符串進行 base64 編碼 function jsonToBase64(json) {return Buffer.from(json).toString(base64); }base64 字符串轉為 json 字符串 function base64ToJson(base64) {try {const binaryString atob(base64);const js…

介紹 C++ 中的智能指針及其應用:以 PyTorch框架自動梯度AutogradMeta為例

介紹 C 中的智能指針及其應用:以 AutogradMeta 為例 在 C 中,智能指針(Smart Pointer)是用于管理動態分配內存的一種工具。它們不僅自動管理內存的生命周期,還能幫助避免內存泄漏和野指針等問題。在深度學習框架如 Py…

python +t kinter繪制彩虹和云朵

python t kinter繪制彩虹和云朵 彩虹,簡稱虹,是氣象中的一種光學現象,當太陽光照射到半空中的水滴,光線被折射及反射,在天空上形成拱形的七彩光譜,由外圈至內圈呈紅、橙、黃、綠、藍、靛、紫七種顏色。事實…

Zabbix5.0版本(監控Nginx+PHP服務狀態信息)

目錄 1.監控Nginx服務狀態信息 (1)通過Nginx監控模塊,監控Nginx的7種狀態 (2)開啟Nginx狀態模塊 (3)配置監控項 (4)創建模板 (5)用默認鍵值…

Python入門教程 —— 字符串

字符串介紹 字符串可以理解為一段普通的文本內容,在python里,使用引號來表示一個字符串,不同的引號表示的效果會有區別。 字符串表示方式 a = "Im Tom" # 一對雙引號 b = Tom said:"I am Tom" # 一對單引號c = Tom said:"I\m Tom" # 轉義…

AcWing練習題:差

讀取四個整數 A,B,C,D,并計算 (AB?CD)的值。 輸入格式 輸入共四行,第一行包含整數 A,第二行包含整數 B,第三行包含整數 C,第四行包含整數 D。 輸出格式 輸出格式為 DIFERENCA X,其中 X 為 (AB?CD) 的…

小程序添加購物車業務邏輯

數據庫設計 DTO設計 實現步驟 1 判斷當前加入購物車中的的商品是否已經存在了 2 如果已經存在 只需要將數量加一 3 如果不存在 插入一條購物車數據 4 判斷加到本次購物車的是菜品還是套餐 Impl代碼實現 Service public class ShoppingCartServiceImpl implements Shoppin…

如何在谷歌瀏覽器中使用自定義搜索快捷方式

在數字時代,瀏覽器已經成為我們日常生活中不可或缺的一部分。作為最常用的瀏覽器之一,谷歌瀏覽器憑借其簡潔的界面和強大的功能深受用戶喜愛。本文將詳細介紹如何自定義谷歌瀏覽器的快捷工具欄,幫助你更高效地使用這一工具。 一、如何找到谷歌…

Python 3 與 Python 2 的主要區別

文章目錄 1. 語法與關鍵字print 函數整數除法 2. 字符串處理默認字符串類型字符串格式化 3. 輸入函數4. 迭代器和生成器range 函數map, filter, zip 5. 標準庫變化urllib 模塊configparser 模塊 6. 異常處理7. 移除的功能8. 其他重要改進數據庫操作多線程與并發類型注解 9. 總結…

關于IDE的相關知識之二【插件推薦】

成長路上不孤單😊😊😊😊😊😊 【14后😊///計算機愛好者😊///持續分享所學😊///如有需要歡迎收藏轉發///😊】 今日分享關于ide插件推薦的相關內容&#xff01…

如何獲取穩定高效的動態代理?

在數據采集的領域,動態代理IP是我們探索網絡世界的小助手,它不僅幫助我們高效地收集信息,還能在保護數據安全方面發揮重要作用。但如何在眾多選擇中找到最適合的那個——即穩定且高效的動態代理也是一大難題。 明確你的需求 首先&#xff0…

基于微信小程序的校園點餐平臺的設計與實現(源碼+SQL+LW+部署講解)

文章目錄 摘 要1. 第1章 選題背景及研究意義1.1 選題背景1.2 研究意義1.3 論文結構安排 2. 第2章 相關開發技術2.1 前端技術2.2 后端技術2.3 數據庫技術 3. 第3章 可行性及需求分析3.1 可行性分析3.2 系統需求分析 4. 第4章 系統概要設計4.1 系統功能模塊設計4.2 數據庫設計 5.…