探索 LLM：從基礎原理到 RAG 實現的深度解析

一.LLM基礎知識

1.1 大語言模型（Large Language Model，LLM）

他是模型，是 AI 能力的核心。
他是語言模型，其核心能力在于語言能力。
他是大語言模型，與傳統模型相比，它最大的特點就是“大”。

1.2 AI應用

AI應用，就是以 LLM 為核心的各種應用
從API的角度理解GPT模型，它最核心的參數就是輸入一個或多個字符串，然后，大模型輸出一個字符串
與傳統的應用開發不同的是，這個 API 并非是傳統應用開發中按照特定預期處理的結果。
使用傳統的 API，我們需要關注的是接口文檔，而想要發揮 LLM 的威力，我們需要對大模型有一定的了解

1.3 大模型原理

一次添加一個詞
下一個詞是什么
token
溫度（Temperature）：表示隨機性強弱的概念
這個參數越小，表示確定性越強，越大，表示隨機性越強，簡單理解就是，溫度越高越活躍
Embedding ：在大模型內部處理的是向量，，Embedding 是一種將高維數據（如文本、圖像、視頻等）轉換為低維向量表示的技術。這種技術在自然語言處理（NLP）、計算機視覺等領域有著廣泛的應用。Embedding 的核心思想是將離散數據映射到連續的向量空間，使得相似的數據點在向量空間中的距離較近，而不相似的數據點則距離較遠。

1.4 promot工程

提示詞 = 定義角色 + 背景信息 + 任務目標 + 輸出要求
要求：大模型處理復雜任務場景的能力
原因：Agent背后的技術能讓大模型推斷下一步行為，利用大模型的推理能力，依賴于promot工程
起源：Natural Language Processing（NLP）:如果給予 AI 適當的引導，它能更準確地理解我們的意圖，響應我們的指令
零樣本提示（Zero-Shot Prompting）:適合簡單的任務。比如，一些簡單查詢就可以使用零樣本提示。我們需要做的就是調整提示詞
少樣本提示（Few-Shot Prompting）:適合復雜的任務。比如，我們需要讓 AI 回答一個問題，我們需要提供一些例子，讓 AI 學習這些例子，然后再回答問題。
思維鏈提示（Chain-of-Thought Prompting）:思維鏈提示給出的答案則是帶有完整的思考過程，是一個“慢下來”的答案，于是得到了一個正確的答案
ReAct 框架（Reasoning + Acting） :推理 + 行動=大模型為了完成一個大目標，需要不斷地做一些任務。每個任務都會經歷思考（Thought）、行動（Action）、觀察（Observation）三個階段。

二.LLM-Code

2.1 Open AI API

Text Generation：生成和處理文本
Embeddings：文本轉向量
Speech to Text：語音轉文本
Image Generation：生成圖像
Vision：處理圖像輸入

2.2 SSE

SSE 是服務器發送事件（Server-Sent Event），它是一種服務器推送技術，客戶端通過 HTTP 連接接收來自服務器的自動更新
它描述了服務器如何在建立初始客戶端連接后向客戶端發起數據傳輸。

為啥不用WebSocket

SSE 的技術特點契合流式應答的需求:客戶端與大模型的交互是一次性的，每產生一個 token，服務端就可以給客戶端推送一次，當生成內容結束時，斷掉連接，無需考慮客戶端的存活情況
如果采用 WebSocket 的話，服務端就需要維護連接，像 OpenAI 這樣的服務體量，維護連接就會造成很大的服務器壓力，而且，在生成內容場景下，也沒有向服務端進一步發送內容，WebSocket 的雙向通信在這里也是多余的
SSE 這項技術而言，它存在已經很長時間了，2004 年就有人提出,大模型才流行起來

2.3 核心的三個抽象

ChatModel：整個框架的核心，根據輸入的內容生成輸出
PromptTemplate：負責處理輸入，有效拆分開發者提示詞和用戶提示詞
OutputParser：負責處理輸出，許多輸出解析器里包含了格式指令

2.4 編碼實現

from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage
from langchain_core.chat_history import BaseChatMessageHistory
from langchain_core.prompts import ChatPromptTemplate 
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.runnables import RunnableWithMessageHistory # 設置 API 密鑰
api_key = "你的密鑰"
# 初始化 ChatOpenAI 實例時傳遞 API 密鑰
chat_model = ChatOpenAI(model="gpt-4o-mini", api_key=api_key)
store = {}
def get_session_history(session_id: str) -> BaseChatMessageHistory:if session_id not in store:store[session_id] = InMemoryChatMessageHistory()return store[session_id]
prompt = ChatPromptTemplate.from_messages([("system","你現在扮演程序員的角色，可以直接生成代碼",),MessagesPlaceholder(variable_name="messages"),]
)
with_message_history = RunnableWithMessageHistory(prompt | chat_model,get_session_history
)
config = {"configurable": {"session_id": "chatLLMCode"}}
while True:user_input = input("You:> ")if user_input.lower() == 'exit':breakstream = with_message_history.stream({"messages": [HumanMessage(content=user_input)]},config=config)for chunk in stream:print(chunk.content, end='', flush=True)print()

三.RAG

3.1 檢索增強生成（Retrieval Augmented Generation，RAG）

檢索增強生成（Retrieval Augmented Generation，RAG）是一種結合了檢索和生成的技術，它可以在生成文本時，利用外部的知識庫來增強生成的內容。
檢索增強生成:在本地檢索到相關的內容，把它增強到提示詞里，然后再去做內容生成
產生背景：

* 讓LLM知道自己的行業知識，有兩種方式

模型微調：使用業務信息對已經訓練好的模型進行微調
RAG：在上下文中帶有業務信息，讓大模型據此進行整合

3.2 Embeddings和VectorStore

Embeddings：Embeddings 是一種將高維數據（如文本、圖像、視頻等）轉換為低維向量表示的技術。這種技術在自然語言處理（NLP）、計算機視覺等領域有著廣泛的應用。Embeddings 的核心思想是將離散數據映射到連續的向量空間，使得相似的數據點在向量空間中的距離較近，而不相似的數據點則距離較遠。
VectorStore：VectorStore 是一種用于存儲和檢索向量數據的技術。它可以將高維向量數據存儲在一個向量空間中，以便快速查找相似的向量。VectorStore 的核心思想是將高維數據映射到低維向量空間，以便進行高效的相似度搜索。
3.索引（Indexing）：索引是一種用于快速查找數據的技術。它可以將數據存儲在一個索引中，以便快速查找數據。索引的核心思想是將數據映射到一個索引空間中，以便進行高效的查找。
相似度搜索（Similarity Search）：相似度搜索是一種用于查找與給定向量最相似的向量的技術。它可以將給定的向量與索引中的向量進行比較，以便找到最相似的向量。相似度搜索的核心思想是將給定的向量映射到索引空間中，以便進行高效的查找。

3.3 索引過程

首先，我們需要將文本數據轉換為向量。這可以通過使用 Embeddings 技術來實現。
然后，我們需要將向量存儲在一個向量空間中。這可以通過使用 VectorStore 技術來實現。
最后，索引把信息放到向量數據庫中，而檢索就是把信息提取出來，提取出來的信息與用戶提示詞合并起來，再到大模型去完成生成

RAG 是為了讓大模型知道更多的東西。

3.4 RAG的實現

# 導入 operator 模塊中的 itemgetter 函數，用于從字典中獲取指定鍵的值
from operator import itemgetter
# 導入 typing 模塊中的 List 類型，用于定義列表類型的變量
from typing import List
# 導入 tiktoken 庫，用于計算字符串中的 token 數量
import tiktoken
# 從 langchain_core.messages 模塊中導入各種消息類和消息修剪函數
from langchain_core.messages import BaseMessage, HumanMessage, AIMessage, ToolMessage, SystemMessage, trim_messages
# 從 langchain_core.chat_history 模塊中導入聊天歷史類
from langchain_core.chat_history import BaseChatMessageHistory, InMemoryChatMessageHistory
# 從 langchain_core.prompts 模塊中導入提示模板類和消息占位符類
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
# 從 langchain_core.runnables 模塊中導入可運行傳遞類
from langchain_core.runnables import RunnablePassthrough
# 從 langchain_core.runnables.history 模塊中導入帶有消息歷史的可運行類
from langchain_core.runnables.history import RunnableWithMessageHistory
# 從 langchain_openai 模塊中導入 OpenAIEmbeddings 類，用于生成文本的嵌入向量
from langchain_openai import OpenAIEmbeddings
# 從 langchain_openai.chat_models 模塊中導入 ChatOpenAI 類，用于與 OpenAI 的聊天模型進行交互
from langchain_openai.chat_models import ChatOpenAI
# 從 langchain_chroma 模塊中導入 Chroma 類，用于與 Chroma 向量數據庫進行交互
from langchain_chroma import Chroma# 創建一個 Chroma 向量數據庫實例，指定集合名稱為 "rag"，嵌入函數為 OpenAIEmbeddings()，持久化目錄為 "vectordb"
vectorstore = Chroma(collection_name="rag",embedding_function=OpenAIEmbeddings(),persist_directory="vectordb"
)# 將向量數據庫轉換為檢索器，使用相似度搜索類型
retriever = vectorstore.as_retriever(search_type="similarity")# 定義一個函數，用于計算字符串中的 token 數量
def str_token_counter(text: str) -> int:# 獲取 "o200k_base" 編碼enc = tiktoken.get_encoding("o200k_base")# 返回編碼后的字符串長度return len(enc.encode(text))# 定義一個函數，用于計算消息列表中的 token 數量
def tiktoken_counter(messages: List[BaseMessage]) -> int:# 初始化 token 數量為 3num_tokens = 3# 每個消息的 token 數量為 3tokens_per_message = 3# 每個名稱的 token 數量為 1tokens_per_name = 1# 遍歷消息列表for msg in messages:# 如果消息是人類消息，設置角色為 "user"if isinstance(msg, HumanMessage):role = "user"# 如果消息是 AI 消息，設置角色為 "assistant"elif isinstance(msg, AIMessage):role = "assistant"# 如果消息是工具消息，設置角色為 "tool"elif isinstance(msg, ToolMessage):role = "tool"# 如果消息是系統消息，設置角色為 "system"elif isinstance(msg, SystemMessage):role = "system"# 如果消息類型不支持，拋出異常else:raise ValueError(f"Unsupported messages type {msg.__class__}")# 累加 token 數量num_tokens += (tokens_per_message+ str_token_counter(role)+ str_token_counter(msg.content))# 如果消息有名稱，累加名稱的 token 數量if msg.name:num_tokens += tokens_per_name + str_token_counter(msg.name)# 返回 token 數量return num_tokens# 創建一個消息修剪器，設置最大 token 數量為 4096，策略為 "last"，token 計數器為 tiktoken_counter，包括系統消息
trimmer = trim_messages(max_tokens=4096,strategy="last",token_counter=tiktoken_counter,include_system=True,
)# 創建一個空字典，用于存儲會話歷史
store = {}# 定義一個函數，用于獲取會話歷史
def get_session_history(session_id: str) -> BaseChatMessageHistory:# 如果會話 ID 不存在，創建一個新的內存聊天歷史實例if session_id not in store:store[session_id] = InMemoryChatMessageHistory()# 返回會話歷史實例return store[session_id]# 創建一個 ChatOpenAI 實例，用于與 OpenAI 的聊天模型進行交互
model = ChatOpenAI()# 創建一個聊天提示模板，包含系統消息、歷史消息占位符和人類消息
prompt = ChatPromptTemplate.from_messages([("system","""You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.Context: {context}""",),MessagesPlaceholder(variable_name="history"),("human", "{question}"),]
)# 定義一個函數，用于格式化文檔列表
def format_docs(docs):# 返回格式化后的文檔字符串return "\n\n".join(doc.page_content for doc in docs)# 創建一個上下文獲取器，通過檢索器獲取相關文檔，并格式化文檔
context = itemgetter("question") | retriever | format_docs
# 創建第一個步驟，將上下文賦值給 "context" 鍵
first_step = RunnablePassthrough.assign(context=context)
# 創建一個鏈，將第一個步驟、提示模板、消息修剪器和聊天模型連接起來
chain = first_step | prompt | trimmer | model# 創建一個帶有消息歷史的可運行實例，將鏈、會話歷史獲取器、輸入消息鍵和歷史消息鍵連接起來
with_message_history = RunnableWithMessageHistory(chain,get_session_history=get_session_history,input_messages_key="question",history_messages_key="history",
)# 設置配置，指定會話 ID 為 "dreamhead"
config = {"configurable": {"session_id": "dreamhead"}}# 無限循環
while True:# 獲取用戶輸入user_input = input("You:> ")# 如果用戶輸入為 "exit"，退出循環if user_input.lower() == 'exit':break# 如果用戶輸入為空，繼續循環if user_input.strip() == "":continue# 使用帶有消息歷史的可運行實例處理用戶輸入，并獲取流式響應stream = with_message_history.stream({"question": user_input}, config=config)# 逐塊打印流式響應內容for chunk in stream:print(chunk.content, end='', flush=True)# 打印換行符print()