Datawhale AI夏令營 第三期 task2 稍微改進

在打造基于大語言模型(LLM)+文檔檢索的問答系統中,財經研報類文檔是最具挑戰的場景之一。它包含圖文混排、精細定位需求(頁碼、文件名)、問題措辭高度多樣化等一系列復雜性。
下面的內容是大模型輔助整理的:
本項目圍繞一個目標:給定一個用戶問題,從數百份PDF財經報告中找出相關信息并生成準確答案,并給出其出處(文件名和頁碼),通過逐步優化 chunk 策略、向量檢索和 LLM 提示工程

在train數據集上的得分為0.663,測試集目前為0.29679(排名第三)

更新:加入了文檔來源的大模型輸出和元數據的比對,切換大模型為Qwen3-32B,目前分數:0.36493(排名第一)

在這里插入圖片描述

評分標準分三部分,總分 1:

維度 權重 說明
文件名匹配度 0.25 答案中的文件名是否與參考答案一致
頁碼匹配度 0.25 答案中頁碼是否準確
答案內容相似度 0.5 使用字符級 Jaccard 相似度度量回答文本差異

🏁 初始方案:頁面粒度chunk(Baseline)
做法:
每一頁作為一個chunk

用FAISS構建向量索引

每次檢索返回最相似的幾頁

問題:
粒度太大,LLM難以定位具體內容

過度信息干擾答案質量

無法定位到確切頁碼和文件名

📉 得分:0.002

🔧 改進一:遞歸Chunk + 直接向量檢索
每頁文本遞歸分塊

每個chunk保留其來源元數據 {filename, page_number}

用文本嵌入直接構建向量索引

📈 得分顯著提升

🧩 頁碼匹配精度優化
一個核心挑戰是:如何讓LLM生成答案時,引用準確的頁碼?

采取的策略:

從文檔解析階段開始,全程保留元數據:
每一段文本、每張圖片都保留 {filename, page_number}

在提示中引導 LLM 輸出來源信息

請用如下格式回答:
{“answer”: “…”, “filename”: “…”, “page”: …}
🔁 檢索優化策略
多路召回:
雙路召回:將檢索向量劃分為兩種策略:全文語義 vs. 精準短句(如問句特征)

重排(Re-ranking)策略:
采用 RRF(Reciprocal Rank Fusion):

多路召回的結果融合排序

提高相關 chunk 的綜合得分,提升命中率

🔍 LLM輸出頁碼不準的問題
即使檢索相關 chunk 的元數據正確,LLM有時也會:

忽略頁碼

捏造頁碼或文件名

輸出格式錯誤(影響JSON解析)

解決:
構建嚴格提示模板,限制輸出格式

增加后處理邏輯,驗證輸出格式合法性,出錯回退使用 chunk 元數據

引入 _safe_parse() 工具,對返回結果進行強健解析

🧱 持續挑戰

  1. 格式輸出不穩定
    LLM容易輸出錯 JSON,或 hallucinate 來源信息
    強化提示模板
    后處理校驗修復

  2. 問題表達方式高度自由
    用戶問法與文檔表達方式差距大

優化嵌入模型選擇(支持中文財經語料)

其實分數還可以再高,因為現在的文件名是提取的大模型的回答,只用8B的大模型,會有很多錯誤,比如本來正確的名字輸出為繁體,或者漢字輸出為字母等,所以這個地方需要大模型+元數據同時判斷,還沒有用mineru或者其他的文檔結構化轉換工具,現在分塊方法還是太樸素了,也還沒用引入多模態(表格解析和圖像解析)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92050.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92050.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92050.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LeetCood算法題~水果成籃

水果成籃 你正在探訪一家農場,農場從左到右種植了一排果樹。這些樹用一個整數數組 fruits 表示,其中 fruits[i] 是第 i 棵樹上的水果 種類 。你想要盡可能多地收集水果。然而,農場的主人設定了一些嚴格的規矩,你必須按照要求采摘水…

【Lua】題目小練8

-- 題目 1&#xff1a;定義一個類 Person-- 屬性&#xff1a;name、age&#xff0c;其中 age 默認是 0&#xff0c;不能小于 0。-- 方法&#xff1a;introduce()&#xff0c;輸出 "My name is <name>, I am <age> years old."-- 要求使用封裝思想&#x…

SAP PP CK466

原因 作業價格沒有維護 解決方案 KP26

如何解決pip安裝報錯ModuleNotFoundError: No module named ‘keras’問題

【Python系列Bug修復PyCharm控制臺pip install報錯】如何解決pip安裝報錯ModuleNotFoundError: No module named ‘keras’問題 摘要 在使用 PyCharm 進行深度學習項目開發時&#xff0c;常常需要通過 pip install keras 來安裝 Keras 庫。但有時即便命令執行成功&#xff0c…

人工智能領域、圖歐科技、IMYAI智能助手2024年全年歷史更新大事件匯總

2024年 2024年12月29日 【通知】 1、主站導出文檔功能優化升級&#xff0c;新增支持了純文本WORD導出功能&#xff0c;支持使用WPS軟件打開 注&#xff1a;原來的富文本WORD不支持使用WPS打開&#xff0c;只支持系統自帶的WORD軟件打開&#xff0c;比如Microsoft Office Word 2…

UWB實操:使用UCI CMD測距;UCI CMD是一串數字,創建測距session,配置測距session,開始測距session。

使用UCI CMD測距; UCI CMD是一串數字,創建測距session,配置測距session,開始測距session。根據 FiRa_UCI_Technical_Specification,我們可以分析并組織測距cmd 例如: Fira2.0 1v1 發起 DSTWR 創建測距session:210000052222222200 配置測距session: 2103001F222…

從AUTOSAR角度理解CAN以及CANFD

一、AUTOSAR對CAN和CAN FD的基礎定位 CAN&#xff1a;基于傳統CAN 2.0B協議&#xff0c;是AUTOSAR早期版本&#xff08;如4.0.3及之前&#xff09;的核心車載通信協議&#xff0c;支持最大8字節 payload&#xff0c;仲裁段波特率通常≤1Mbps&#xff0c;適用于低帶寬、高實時性…

第27章:服務部署與容器化

1. 課程引言 在前面的章節中&#xff0c;我們已經完成了電商項目核心服務的開發。然而&#xff0c;開發完成只是項目生命周期的一部分&#xff0c;如何將這些服務高效、可靠地部署到生產環境&#xff0c;是決定項目成敗的關鍵一步。本章將聚焦于服務的部署&#xff0c;重點介紹…

力扣148:排序鏈表

力扣148:排序鏈表題目思路代碼題目 給你鏈表的頭結點 head &#xff0c;請將其按 升序 排列并返回 排序后的鏈表 。 思路 當我們第一眼看見這道題時心中其實是有思路的&#xff0c;我們不想這是個鏈表就當它是一個整型數組。那么自然而然就會想到各種各樣的排序方法&#xf…

基于k8s環境下的pulsar常用命令(下)

#作者&#xff1a;Unstopabler 文章目錄permissionSchemapermission pulsar的權限控制是在namespace級別的 kubectl exec pulsar-toolset-0 -n pulsar – bin/pulsar-admin namespaces grant-permission mytenant/mynamespace –actions produce,consume –role admin10 注…

2.4 組件通信

Props 和 Events&#xff08;父子組件通信&#xff09;Props&#xff1a;父組件向子組件傳遞數據使用 props。子組件通過聲明 props 來接收來自父組件的數據。<!-- 父組件 --> <template><ChildComponent :message"parentMessage" /> </templat…

PCL學習之路-基礎知識-(一)

文章目錄1.西門子S7系列PLC類型劃分(1).大型PLC&#xff1a;S7-400(2).中型PLC&#xff1a;S7-300(3).小型PLC&#xff1a;S7-200系列2.西門子S7外形結構(1).總覽&#xff1a;PLC的“器官”分工邏輯3.輸出電路(1).小型繼電器輸出形式(2).大功率晶體管/場效應管輸出形式(3).雙向…

leetcode654:最大二叉樹(遞歸與單調棧雙解法)

文章目錄一、 題目描述二、 核心思路&#xff1a;分而治之與遞歸構造三、代碼實現與深度解析四、 關鍵點與復雜度分析五、拓展解法單調棧解法兩種解法對比LeetCode 654. 最大二叉樹&#xff0c;【難度&#xff1a;中等&#xff1b;通過率&#xff1a;82.6%】&#xff0c;這道題…

Python 循環語法詳解

在編程中&#xff0c;循環是一種非常常見的控制結構。很多時候&#xff0c;我們需要重復做一些事情&#xff0c;比如遍歷列表、處理數據、嘗試直到成功等。這時候&#xff0c;就離不開循環了。Python 提供了兩種主要的循環結構&#xff1a;for 循環 和 while 循環。本篇文章會從…

一個小巧神奇的 USB數據線檢測儀

一個小巧的數據線檢測儀&#xff0c;檢測各種USB數據線是否損壞、通斷&#xff0c;TYPE_C、MICRO_B、蘋果線、燒錄線、網線都可檢測。嵌入式開發者的稱手工具。 這個是我個人制作的&#xff0c;SMT和連接器比較貴&#xff0c;特別是24PIN的C口連接器&#xff0c;我掛在黃色小魚…

37.【.NET8 實戰--孢子記賬--從單體到微服務--轉向微服務】--擴展功能--增加Github Action

在第二部分&#xff08;微服務基礎工具與技術&#xff09;中我們講解了GitHub Action的相關知識&#xff0c;那么在這一節中&#xff0c;我們將為已有的微服務增加GitHub Action的支持。 一、什么是GitHub Action 雖然前面已經介紹過GitHub Action的相關知識&#xff0c;但這里…

ROS2 通過 命令行 發布速度控制指令 控制 麥克娜姆輪

在 ROS2 中&#xff0c;要通過命令行發布速度控制指令來控制麥克娜姆輪機器人&#xff0c;你需要知道機器人所使用的速度控制話題和消息類型。通常麥克娜姆輪機器人使用geometry_msgs/Twist消息類型來接收速度指令。 以下是通過命令行發布速度控制指令的方法&#xff1a; 首先確…

多層Model更新多層ListView

一、總體架構QML (三層 ListView)└─ C 單例 DataCenter (QQmlContext 注冊)├─ L1Model (一級節點)│ └─ 內部持有 QList<L2Model*>│ └─ L2Model (二級節點)│ └─ 內部持有 QList<L3Model*>│ └─ L3Model (三級節…

Git基礎操作教程

本文目的是掌握Git基礎操作教程一、Git簡介Git&#xff1a;分布式版本控制系統&#xff0c;使用倉庫(Repository)來記錄文件的變化最流行的版本控制系統有兩種&#xff1a;集中式&#xff08;SVN&#xff09;、分布式&#xff08;Git&#xff09;二、Git操作1.創建倉庫倉庫(Rep…

Android 之 Kotlin

變量變量的聲明Kotlin使用var&#xff0c;val來聲明變量&#xff0c;注意&#xff1a;Kotlin不再需要;來結尾var 可變變量&#xff0c;對應java的非final變量var b 1val不可變變量&#xff0c;對應java的final變量val a 1兩種變量并未聲明類型&#xff0c;這是因為Kotlin存在…