2024 arXiv Cost-Efficient Prompt Engineering for Unsupervised Entity Resolution

論文基本信息

題目: Cost-Efficient Prompt Engineering for Unsupervised Entity Resolution
作者: Navapat Nananukul, Khanin Sisaengsuwanchai, Mayank Kejriwal
機構: University of Southern California, Information Sciences Institute, Los Angeles, CA, United States of America
發表地點與年份: arXiv 預印本,2024 年
關鍵詞術語: large language models, prompt engineering, unsupervised entity resolution, inter-consistency of prompting

摘要(詳細復述)

背景:實體消岐(Entity Resolution, ER)是識別不同數據源中指向同一真實實體的記錄的任務,傳統方法依賴大量人工特征工程和訓練數據篩選。
方案概述:本研究探索使用大型語言模型(LLM)如 GPT-3.5 作為無監督 ER 的相似性函數,通過六種不同的提示工程方法(包括單屬性、多屬性、JSON 格式、相似度評分和少樣本示例)在電子商務數據集上進行實驗。
主要結果/提升:實驗表明,GPT-3.5 在無監督 ER 上表現良好(F1 分數超過 80%),但更復雜、昂貴的提示方法未必優于簡單方法。例如,單屬性提示(single-attr)在成本降低 37% 的情況下,性能與多屬性方法相近。
結論與意義:LLM 為 ER 提供了一種領域無關的解決方案,但提示設計需權衡成本與性能;簡單方法在特定假設下可高效工作。

研究背景與動機

學術/應用場景與痛點:ER 廣泛應用于醫療、電商等領域,但傳統方法依賴領域專家進行特征工程和規則設計,成本高且泛化性差。
主流路線與局限:

  • 機器學習方法:使用 SVM、決策樹等分類器,需標注數據和特征工程。
  • 深度學習方法:如 BERT,自動學習表示但仍需訓練數據。
  • 規則方法:基于相似度閾值和預定義規則,依賴專家知識,難以優化。

代表工作與局限:

方法類型優點不足
機器學習可學習復雜模式需標注數據、特征工程
深度學習自動特征學習計算開銷大、需訓練數據
規則方法無需訓練數據規則設計繁瑣、泛化性差

問題定義(形式化)

輸入:兩個實體集合 E1E_1E1?E2E_2E2?(或單個集合 EEE),每個實體 eee 表示為 (id,Aid)(id, A_{id})(id,Aid?),其中 AidA_{id}Aid? 是屬性鍵值對字典。
輸出:所有匹配的實體對 (ei,ej)(e_i, e_j)(ei?,ej?)ei∈E1e_i \in E_1ei?E1?, ej∈E2e_j \in E_2ej?E2?),即重復項。
目標函數:最大化 F1 分數(精確率和召回率的調和平均)。
評測目標:使用精確率、召回率、F1 分數評估性能,成本通過 OpenAI API 的 token 消耗計算。

創新點

  1. 系統化提示工程評估:首次針對無監督 ER 任務,系統比較六種提示方法(包括單屬性、多屬性、JSON 結構、相似度評分、少樣本)的性能和成本。
  2. 成本-性能權衡分析:證明簡單提示(如單屬性)在成本顯著降低(37%)的情況下,性能與復雜方法相當,挑戰了“更復雜提示必然更好”的假設。
  3. 一致性研究:通過統計檢驗(如 t-test)和混淆矩陣分析不同提示方法輸出的一致性,發現方法間在重復項上存在顯著分歧。

方法與核心思路

在這里插入圖片描述
這是一個典型的ER工作流程的說明性示例,但使用LLM作為相似性(或“匹配”)函數。每個實體集合代表一個結構化的ER數據集,各個實體使用彩色方框表示。如第3節中所解釋的,首先應用分塊來將相似的實體聚類成塊,以減少比較所有實體對的二次復雜性。只有共享塊的實體被配對并提交給LLM,以做出它們是否匹配(是)或不匹配(否)的最終決定。

整體框架

研究采用標準 ER 工作流,但使用 LLM(GPT-3.5)作為相似性函數。工作流包括:

  1. 阻塞(Blocking):減少實體對比較數量(本研究假設完美阻塞,直接使用標注對)。
  2. 相似性計算:通過提示工程讓 LLM 判斷實體對是否匹配。
實體集合 E1
阻塞
實體集合 E2
候選對集合
LLM 相似性函數
匹配決策

步驟分解

  1. 構建提示模板:包含三個核心組件——候選對、ER 指令、輸出格式。
  2. 設計提示模式:通過修改組件生成六種模式(見下文)。
  3. 調用 LLM:發送提示,解析返回的決策或相似度。
  4. 后處理:對于相似度模式(multi-sim),選擇最優閾值 θ\thetaθ 最大化 F1。
  5. 評估:計算精確率、召回率、F1 和成本。

模塊與交互

  • 候選對表示模塊:處理實體屬性(單屬性、多屬性拼接、JSON 結構化)。
  • 指令模塊:控制 LLM 行為(直接決策、生成相似度、添加角色描述)。
  • 示例模塊(僅少樣本模式):注入標注示例引導 LLM。
  • 輸出解析模塊:提取 LLM 返回的決策或相似度。

公式與符號

核心評估公式:

Precision=∣TP∣∣TP∣+∣FP∣ \text{Precision} = \frac{|\text{TP}|}{|\text{TP}| + |\text{FP}|} Precision=TP+FPTP?

Recall=∣TP∣∣TP∣+∣FN∣ \text{Recall} = \frac{|\text{TP}|}{|\text{TP}| + |\text{FN}|} Recall=TP+FNTP?

F1=2×Precision×RecallPrecision+Recall \text{F1} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} F1=Precision+Recall2×Precision×Recall?

其中 TP、FP、FN 分別表示真陽性、假陽性、假陰性。

偽代碼

Input: 實體對集合 P, 提示模式 M
Output: 預測標簽列表 L
for each pair (e_i, e_j) in P:prompt = construct_prompt(e_i, e_j, M)  // 根據模式構建提示response = call_gpt3.5(prompt)          // 調用 LLMif M == "multi-sim":score = extract_similarity(response) // 提取相似度else:label = extract_decision(response)   // 提取決策L.append(label)
if M == "multi-sim":θ = find_optimal_threshold(P_scores)    // 選擇最大化 F1 的閾值L = [1 if score >= θ else 0 for score in P_scores]
return L

偽代碼描述:該流程遍歷所有實體對,根據提示模式構建提示并調用 GPT-3.5;對于相似度模式,先提取分數再通過閾值二值化;其他模式直接提取決策標簽。

復雜度分析

  • 時間復雜度:O(∣P∣×t)O(|P| \times t)O(P×t),其中 ∣P∣|P|P 是實體對數量,ttt 是 LLM 響應時間(常數)。
  • 空間復雜度:O(∣P∣)O(|P|)O(P) 存儲結果。
  • 資源開銷:成本由 token 數量決定,多屬性提示比單屬性昂貴 37%。

關鍵設計選擇

  • 使用預訓練 LLM:無需微調,利用先驗知識處理跨領域 ER。
  • 強調成本效率:針對工業級 ER 需處理百萬對實體,簡單提示可顯著降低成本。
  • 結構化 JSON 實驗:假設機器可讀格式提升性能,但結果相反,說明 LLM 更適應自然語言。

實驗設置

數據集:

  1. WDC Computers:1,100 對(300 重復),7 個屬性。
  2. Amazon-Google Products (AG):11,460 對(1,166 重復),3 個屬性(含文本描述)。
    對比基線:六種提示方法(無外部基線,內部比較)。
    評價指標:精確率、召回率、F1(定義見公式),成本(美元)。
    實現細節:
  • 框架:OpenAI GPT-3.5 API。
  • 硬件:未說明。
  • 超參數:未說明(如溫度)。
  • 隨機性:少樣本示例隨機選擇,但種子未說明。

實驗結果與分析

主結果:下表匯總兩種數據集上六種方法的性能(F1)和成本(美元),最佳性能加粗:

提示模式WDC F1WDC 成本AG F1AG 成本
multi-attr0.91$3.040.87$0.93
single-attr0.94$2.190.81$0.59
multi-json0.81$3.230.69$0.99
few-shot0.96$3.750.87$1.36
multi-sim0.71$3.110.95$0.95
no-persona0.97$2.010.71$0.68

關鍵發現:

  • 單屬性提示:在 WDC 上 F1 最高(0.94),成本降低 37%;在 AG 上 F1 略降(0.81 vs 0.87)。
  • JSON 格式有害:multi-json 在兩組數據上 F1 均下降(WDC: 0.91→0.81, AG: 0.87→0.69)。
  • 相似度評分不穩定:multi-sim 在 AG 上表現最佳(0.95),但在 WDC 上最差(0.71)。
  • 角色描述重要性:no-persona(無角色)在 AG 上性能顯著下降(F1=0.71 vs 0.87)。

消融實驗:通過對比 multi-attr(基線)、single-attr(減屬性)、no-persona(減角色)進行隱含消融,顯示角色和屬性選擇的影響。
統計顯著性:t-test 表明 no-persona 與其他方法在多數情況下差異顯著(p < 0.05)。
一致性分析:表 4 和表 5 顯示,方法間在重復項上分歧較大(如 multi-json 誤判 46% 的 multi-sim 正確對)。

誤差分析與失敗案例

錯誤類別:

  1. 技術術語混淆:如 RAM 通道數(Quad vs Dual)和時序格式(CL16 vs 16-16-16-19)導致誤判。
  2. 模型編號歧義:細微差異(如 SDCFXPS-128GB-X46 vs SDCFXPS-128GB)導致幻覺(LLM 錯誤聲稱編號相同)。
  3. 信息過載:多屬性提示有時引入噪聲(如測試速度 2800MHz 與 2400MHz 沖突)。
    邊界條件:LLM 在“簡單”對上穩健(明顯匹配/不匹配),但在細節差異上表現不佳。

復現性清單

代碼/數據:數據通過 Google Drive 鏈接公開(見原文 Data Availability)。
模型權重:使用 OpenAI GPT-3.5 API,非開源模型。
環境與依賴:未說明。
運行命令:未說明。
許可證:未說明。

結論與未來工作

結論:GPT-3.5 可作為無監督 ER 的可行方案,但提示設計需謹慎;簡單方法常更經濟。
未來工作:

  • 探索 LLM 用于阻塞(blocking)步驟。
  • 研究更高效的提示策略(如動態屬性選擇)。
  • 開源數據促進進一步研究。

注:部分細節(如超參數、代碼環境)未在原文中說明,以“未說明”標注。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921269.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921269.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921269.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【XR技術概念科普】什么是注視點渲染(Foveated Rendering)?為什么Vision Pro離不開它?

一、前言2023 年&#xff0c;蘋果推出了 Vision Pro 頭顯&#xff0c;把“空間計算”概念推向大眾。與以往的 XR 設備不同&#xff0c;Vision Pro 強調高分辨率、真實感與沉浸感。然而&#xff0c;這種體驗背后隱藏著一個巨大的技術挑戰&#xff1a;如何在有限的計算與能耗條件…

Qt 系統相關 - 1

雖然 Qt 是跨平臺的 C 開發框架&#xff0c;Qt 有很多能力其實是操作系統提供的&#xff0c;只不過 Qt 封裝了系統的 API程序時運行在操作系統上的&#xff0c;需要系統給我們提供支撐&#xff01;事件文件操作多線程編程網絡編程多媒體&#xff08;音頻&#xff0c;視頻&#…

“12306”有多牛逼?從架構師的角度詳細的告訴你

12306鐵路票務系統架構深度解析 &#x1f4da; 目錄 系統概述業務特點與技術挑戰整體架構設計核心技術架構高并發處理策略數據存儲與管理緩存體系設計分布式系統架構安全防護體系性能優化策略監控與運維技術演進歷程總結與展望 每到春節、國慶這種全民遷徙的時刻&#xff0c;…

數據采集機器人哪家好?2025 年實測推薦:千里聆 RPA 憑什么成企業首選?

在數字化轉型加速的今天&#xff0c;數據采集已成為企業運營的核心環節&#xff0c;數據采集機器人正在重構企業的效率邊界。2025 年中國 RPA 市場排名顯示&#xff0c;泛微旗下的千里聆 RPA 已躋身行業前五&#xff0c;成為中大型國央企的首選品牌。本文將通過三維評估體系&am…

基礎crud項目(前端部分+總結)

本人根據自己對前端微不足道的理解和 AI 老師的指導下&#xff0c;艱難地完成了基礎crud代碼的全棧開發&#xff0c;算是自己的第一個 Java 項目&#xff0c;對此做個簡單總結。 后端部分 在前后端分離開發中&#xff0c;前端負責頁面交互與數據展示&#xff0c;后端提供接口支…

MATLAB矩陣及其運算(二)函數

函數分為MATLAB內置函數及用戶自定義函數&#xff0c;用戶可以直接調用內置函數進行數據處理。內置函數的使用函數由三部分組成&#xff1a;名稱、輸入和輸出。內置函數示例&#xff1a;單輸入單輸出函數&#xff1a;sqrt(x)&#xff1b;單輸入多輸出函數&#xff1a;size(x)&a…

自動化運維-ansible中對于大項目的管理

自動化運維-ansible中對于大項目的管理 一、引用主機清單 在Playbook中引用主機時&#xff0c;hosts 字段指定的目標必須與Ansible主機清單中定義的標識符完全匹配。如果清單中配置的是主機名&#xff0c;則在Playbook中使用IP地址或其他別名將無法匹配&#xff0c;導致任務被跳…

59_基于深度學習的麥穗計數統計系統(yolo11、yolov8、yolov5+UI界面+Python項目源碼+模型+標注好的數據集)

目錄 項目介紹&#x1f3af; 功能展示&#x1f31f; 一、環境安裝&#x1f386; 環境配置說明&#x1f4d8; 安裝指南說明&#x1f3a5; 環境安裝教學視頻 &#x1f31f; 二、數據集介紹&#x1f31f; 三、系統環境&#xff08;框架/依賴庫&#xff09;說明&#x1f9f1; 系統環…

面試問題詳解十六:Qt 內存管理機制

在 Qt 開發過程中&#xff0c;很多初學者&#xff08;包括不少有經驗的 C 程序員&#xff09;經常會產生這樣的疑問&#xff1a;“我在 Qt 中 new 出來的控件好像都沒有 delete&#xff0c;那內存不會泄漏嗎&#xff1f;”比如下面這段代碼&#xff1a; void Widget::createLef…

Pycharm 試用

Ubuntu 重置Pycharm試用期限&#xff08;30 天&#xff09; 先關閉Pycharm刪除系統緩存 rm -rf ~/.config/JetBrains/ && rm -rf ~/.local/share/JetBrains/ && rm -rf ~/.cache/JetBrains/刪除已經安裝的 Pycharm 軟件運行目錄去官網下載新的 就行了

C++ Qt 開發核心知識

Qt 框架概述Qt 是一個跨平臺的 C 應用程序開發框架&#xff0c;廣泛用于開發圖形用戶界面程序。其核心特性包括跨平臺能力、豐富的功能模塊和強大的工具集。核心概念與機制元對象系統Qt 擴展了標準 C&#xff0c;通過元對象系統提供信號與槽機制、運行時類型信息和動態屬性系統…

net9 aspose.cell 自定義公式AbstractCalculationEngine,帶超鏈接excel轉html后背景色丟失

AbstractCalculationEngine 是 Aspose.Cells 中一個強大的抽象類&#xff0c;允許您自定義公式計算邏輯。當您需要覆蓋默認計算行為或實現自定義函數時非常有用。直接上代碼1. 創建自定義計算引擎using Aspose.Cells; using System;// 創建自定義計算引擎 public class CustomC…

如何監控員工的電腦?7款實用的員工電腦管理軟件,探索高效管理捷徑!

當銷售團隊在淘寶刷單、設計師用公司電腦挖礦、程序員頻繁訪問代碼托管網站時&#xff0c;企業損失的不僅是帶寬——低效、泄密、合規風險正成為隱形利潤殺手。 傳統管理依賴“人盯人”或抽查日志&#xff0c;但面對分布式辦公與遠程協作趨勢&#xff0c;這些方法早已力不從心…

機器視覺軟件--VisionPro、Visual Master,Halcon 和 OpenCV 的學習路線

Halcon 和 OpenCV區別 Halcon 和 OpenCV 都是計算機視覺領域的重要工具&#xff0c;但它們的設計理念、功能側重和適用場景有顯著不同。下面這個表格匯總了它們的核心區別&#xff0c;方便你快速了解&#xff1a; 開發模式與體驗??&#xff1a;Halcon 配備了強大的??圖形化…

算法-根據前序+中序遍歷打印樹的右視圖

題目請根據二叉樹的前序遍歷&#xff0c;中序遍歷恢復二叉樹&#xff0c;并打印出二叉樹的右視圖數據范圍&#xff1a; 0≤n≤100000≤n≤10000 要求&#xff1a; 空間復雜度 O(n)O(n)&#xff0c;時間復雜度 O(n)O(n)如輸入[1,2,4,5,3],[4,2,5,1,3]時&#xff0c;通過前序遍歷…

Kafka面試精講 Day 7:消息序列化與壓縮策略

【Kafka面試精講 Day 7】消息序列化與壓縮策略 在Kafka的高性能消息系統中&#xff0c;消息序列化與壓縮是影響吞吐量、延遲和網絡開銷的核心環節。作為“Kafka面試精講”系列的第7天&#xff0c;本文聚焦于這一關鍵主題&#xff0c;深入剖析其原理、實現方式、配置策略及常見…

Xterminal軟件下載_Xterminal ssh遠程鏈接工具下載__Xterminal安裝包 網盤下載_Xterminal ssh遠程鏈接工具安裝包

Xterminal 作為一款國產 SSH 工具&#xff0c;專為開發人員量身打造。它支持 SSH 和 Telnet 協議連接遠程服務器與虛擬機&#xff0c;無論是進行代碼部署&#xff0c;還是服務器運維&#xff0c;都能輕松勝任。軟件界面采用極簡設計&#xff0c;黑色背景搭配白色文字&#xff0…

Lua > 洛谷

Lua > 洛谷P1000 超級瑪麗游戲P1001 AB ProblemP1008 [NOIP 1998 普及組] 三連擊P1035 [NOIP 2002 普及組] 級數求和P1046 [NOIP 2005 普及組] 陶陶摘蘋果P1047 [NOIP 2005 普及組] 校門外的樹P1085 [NOIP 2004 普及組] 不高興的津津P1089 [NOIP 2004 提高組] 津津的儲蓄計劃…

小企業環境-火山方舟和扣子

背景說明 并不是說應該怎么辦&#xff0c;而是基本配置有這些可以進行使用&#xff0c;具體不同企業使用的時候肯定要個性化配置。 使用了火山方舟和扣子 火山方舟 應用實驗室列表 簡單使用了提示詞的功能&#xff0c;后端服務ARK_API_KEY 應用ID 來對應請求發送http請求…

QT-事件

Qt事件 除了信號和槽通信機制外&#xff0c;Qt中還提供了事件處理機制實現與用戶的交互和對象間的通信。Qt捕獲底層操作系統消息&#xff0c;進行封裝之后轉換為Qt事件&#xff0c;事件處理后才發出信號。 一、事件概述Qt中事件是程序內部或外部發生的動作。比如程序外部&#…