構建RAG混合開發---PythonAI+JavaEE+Vue.js前端的實踐

7GB顯存如何部署bf16精度的DeepSeek-R1 70B大模型？-CSDN博客

服務容錯治理框架resilience4j&sentinel基礎應用---微服務的限流/熔斷/降級解決方案-CSDN博客

conda管理python環境-CSDN博客

快速搭建對象存儲服務 - Minio，并解決臨時地址暴露ip、短鏈接請求改變瀏覽器地址等問題-CSDN博客

大模型LLMs的MCP入門-CSDN博客

使用LangGraph構建多代理Agent、RAG-CSDN博客

大模型LLMs框架Langchain之鏈詳解_langchain.llms.base.llm詳解-CSDN博客

大模型LLMs基于Langchain+FAISS+Ollama/Deepseek/Qwen/OpenAI的RAG檢索方法以及優化_faiss ollamaembeddings-CSDN博客

大模型LLM基于PEFT的LoRA微調詳細步驟---第二篇：環境及其詳細流程篇-CSDN博客

大模型LLM基于PEFT的LoRA微調詳細步驟---第一篇：模型下載篇_vocab.json merges.txt資源文件下載-CSDN博客?使用docker-compose安裝Redis的主從+哨兵模式_使用docker部署redis 一主一從一哨兵模式 csdn-CSDN博客

docker-compose安裝canal并利用rabbitmq同步多個mysql數據_docker-compose canal-CSDN博客

技術體系

PythonAI ---- 本文主要是本地Ollama加載模型

流式輸出核心代碼

?完整的代碼

JavaAI

引入依賴

返回Flux流 --- 測試

解決中文亂碼問題

結合Python流接口

初始化WebClient

接收String流

接收JSON流

日志&錯誤處理

移除多余的前綴

保存歷史記錄

完整代碼

SpringBoot啟動---瀏覽器請求

Test/Main啟動

Vue前端

創建項目

HBuilderX創建

使用命令創建

?修改HelloWorld.vue

請求測試

寫在前文：之所以設計這一套流程，是因為 Python在前沿的科技前沿的生態要比Java好，而Java在企業級應用層開發比較活躍；

畢竟許多企業的后端服務、應用程序均采用Java開發，涵蓋權限管理、后臺應用、緩存機制、中間件集成及數據庫交互等方面。但是現在的AI技術生態發展得很快，而Python在科研(數據科學/機器學習領域)語言，在這方面有天然的優勢；所以為了接入大模型LLMs，選擇用Python接入大模型LLMs，然后通過FastAPI發布HTTP接口，讓Java層負責與前端Vue.js應用及Python流接口進行交互，這樣的話，前端直接訪問Java應用，企業應用只需要保持現有生態即可，當前的權限、后臺應用、緩存、中間件等流程都不用再Python端再次開發，省去了很多工作；

整個流程如下： python負責和模型交互---Java作為中間層負責和前端Vue以及Python流接口交互-----Vue負責展示；

技術體系

PythonAI端：
- LLM模型：本地ChatOllama+Qwen VLLm+Qwen、本地通過HF的Transformer加載- Embedding向量：OllamaEmbedding + nomic-embed-text:latest- 向量庫FAISS：使用本地版本的Faiss庫- 檢索優化：混合(二階段)檢索：similarity_score_threshold相似性打分(向量檢索)+BM25(關鍵字)檢索構成的混合檢索 結合 FlashRank重排序優化檢索繼續優化，多階段檢索：多查詢檢索(LLM擴展)、混合檢索(向量檢索+BM25關鍵字檢索)、重排序優化、LLM壓縮；---之所以不使用多查詢LLM擴展和LLM壓縮，是因為性能問題---在使用LLM壓縮時，最好結合微調效果會好很多，不然可能會排除掉一些問題和答案關聯性不強但實際上是一一對應的問題答案；使用單獨使用混合檢索的時候滿足絕大多數情況；- 重排序：離線的FlashRankRerank+默認ms-marco-MultiBERT-L-12模型
- 流輸出：使用StreamingResponse包裝結合yield關鍵字；
- 性能優化：調用astream的異步執行方法/如果要使用stream同步方法，那么使用iterate_in_threadpool轉異步/也可以使用async+with來管理異步執行
JavaAI端：
- 核心：Springboot
- 請求流接口：WebClient
- 返回流結果：Flux前端：vue3+vite構建項目

核心接口主要包含下面的功能：

Python的流輸出：Python通過yield定義一個生成器函數(可以不間斷的返回數據),然后通過“StreamingResponse”包裝后流式返回；

---注意：return是一次性返回；

Java請求流接口：在Java端我們使用WebClient請求Python的流接口；

Java流輸出：將結果轉為Flux類型的數據返回到前端頁面；

---?此時這兩個接口，都是可以直接通過瀏覽器訪問接口查看效果

--- 如果使用Postman，必須返回標準的SSE格式的數據，不然是看不到效果的；

SSE數據格式：每個數據塊以"data: "開頭，結尾加兩個換行符

PythonAI ---- 本文主要是本地Ollama加載模型

下一篇更新：云服務通過VLLm部署模型，然后本地使用OpenAI加載云端的VLLm模型；以及“使用HuggingFace的原生Transformer加載LLM”