大型語言模型(LLMs)在開放領域任務中表現出色,但在快速演變的專業領域(如醫學、金融)中面臨挑戰:
- 知識更新難題:傳統指令微調(Instruction Fine-Tuning, IFT)依賴顯式指令,難以適應動態知識。
- 災難性遺忘:持續預訓練(Continued Pretraining, CPT)可能導致模型遺忘已有知識。
- 推理能力限制:模型難以通過純文本學習建立領域內深層語義關聯。
本文提出上下文微調(Contextual Fine-Tuning, CFT),通過模擬人類認知策略的提示語,結合上下文學習和微調的方法,通過簡單的領域自適應提示顯著提高了LLMs在新領域的知識獲取和開放式推理能力。實驗結果表明,CFT在醫療和金融領域的基準測試中均優于傳統的持續預訓練和指令微調方法。
CFT在處理領域特定數據時的具體優勢:
?提高學習效率:CFT通過上下文提示提供額外的語義信息,幫助模型更好地理解和學習新領域的知識,從而提高了學習效率。實驗表明,CFT模型在訓練過程中損失更低,收斂速度更快。
?增強模型性能:CFT在多個醫療和財務基準測試中均表現出優于CPT和IFT的性能。例如,在醫療領域的多選題數據集中,CFT的平均準確率提高了4.89%。
?減少遺忘:CFT通過結合上下文學習和微調,能夠在學習新領域知識的同時保留已有的知識,減少了知識遺忘的現象。這與傳統的持續預訓練方法相比具有顯著優勢。
?適用性廣泛:CFT不僅適用于生物醫學領域,還可以擴展到其他領域,如金融、法律等,顯示出其廣泛的適用性和靈活性。
方法創新:上下文微調(CFT)
核心思想
- 認知策略驅動:設計受教育學理論啟發的上下文提示(如“關注核心概念”“批判性分析”),引導模型學習新知識時的語義理解。
- 梯度對齊:通過提示語控制模型優化方向,減少無效參數更新,緩解遺忘問題。
技術實現
- 輸入構造:
在原始輸入序列前添加上下文提示語,例如:
"Critically analyze the upcoming information. Look for underlying assumptions..."
形成新輸入:[提示語] + [原始文本]
通過指導GPT-4o-mini根據每個訓練批次的內容創建提示來自動生成上下文提示。
具體來說,我們使用以下指令模板:在此模板中,{{ INSTRUCTION }}被替換為從以下五種不同指令中抽取的一個樣本指令,以生成多種提示:
- “給定以下文本,生成一個鼓勵讀者關注所呈現的主要觀點和主題的上下文提示。該上下文提示應簡潔并幫助讀者深入參與內容。”
- “分析下面的文本,并創建一個引導讀者批判性地思考內容的上下文提示,質疑假設并評估論點。”提示應鼓勵讀者考慮文中提出的不同觀點。
- “閱讀文本,并生成一個情境提示,鼓勵讀者思考信息如何與他們現有的知識或經驗相聯系。提示應促進新見解與先前理解的整合。”
- “閱讀以下文本,并創建一個情境提示,引導讀者用自己的話總結主要觀點。提示應鼓勵綜合信息以便更好地理解。”
- “根據下面的文本,制定一個情境提示,引導讀者比較和對比所介紹的概念與相關話題或先前知識。提示應幫助識別相似之處和差異。”
同樣,{{ TEXT }} 會被每批的文本替換。
以下是適用于 OpenMedText 的生成的上下文提示示例:
- “對這項關于 PCR 技術和 LeHV-5 檢測的研究中的方法和發現進行批判性評估。實驗設計的基礎假設是什么?是否有其他方法或觀點可以挑戰或補充所提出的論點?考慮這些方法對更廣泛的獸醫醫學科學研究和診斷的影響。”
- “思考鉀離子通道與癌癥治療中的化療耐藥性之間的復雜關系。所呈現的機制與你之前對癌細胞生物學和耐藥性的了解有何比較?確定不同類型癌癥中 K+通道的作用的異同及其對治療策略的影響。考慮將這種理解納入臨床實踐的潛在途徑。”
- “從多個角度考慮學校早餐參與情況的發現及其對學生健康的影響。教育工作者、政策制定者、學校管理人員和醫療保健專業人員可能如何不同地解釋這些結果?思考每個利益相關者如何在其各自的角色中使用這些信息來改善學生健康和教育成果。”
-
訓練目標:
損失函數定義為:
L C F T ( θ ) = ? E x , c ∑ k = 1 n log ? P θ ( x k ∣ c , x < k ) \mathcal{L}_{CFT}(\theta) = -\mathbb{E}_{x,c} \sum_{k=1}^n \log P_\theta(x_k | c, x_{<k}) LCFT?(θ)=?Ex,c?k=1∑n?logPθ?(xk?∣c,x