自主學習-《Self-Adapting Language Models》

代碼

https://jyopari.github.io/posts/seal

擬人比喻:

學生把備考的東西,以自己的方式記成筆記精華,更有利于他的理解和記憶。

背景:

Self-improving:

本文:

輸入外界知識,LLM將其整理為筆記(self-edit);拿筆記做訓練數據做SFT,SFT后的模型(臨時用,不更新到最終模型里)用外界知識的QA進行評判打分;作錯題的筆記,直接扔棄;作對題的筆記,將<其外界知識,筆記>輸入到模型進行reward為正的RL訓練,更新模型。

算法:

C是外界知識,\tau是該知識對應的QA。

損失函數:

reward, 做對了題就是1,做錯了就是0:

經過近似,loss:

說白了就是"SFT on good self-edits"

這里的外層loop相當于teacher, 內層loop相當于student。在本文兩者是同一模型;也可分開為2個模型。

實驗:

1. 知識內化

實驗結果:

Train on Passage: 直接使用原始的外部知識來SFT訓練模型;不使用任何合成數據。(結果表明,效果提升非常小)

Train on Passage+Synthetic: 使用原始外部知識+本模型合成的self-edit數據,共同SFT訓練模型;除了不進行RL訓練,其他設置和SEAL組相同。(結果表明,這組效果提升較大,但加上RL訓練的SEAL能更好些)

Train on Passage+GPT-4.1 Synthetic:?使用原始外部知識+GPT4.1生成的self-edit數據,共同SFT訓練模型;(結果表明,效果提升較大,但SEAL雖然用的小模型來合成self-edit數據,因為有RL訓練,效果更好)

2. ARC推理和泛化能力benchmark

?self-edit的內容,就是:1. 調用tools做數據增強;2.SFT優化的參數;

存在的問題:

災難性遺忘。容易記住新的忘了舊的。?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909684.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909684.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909684.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

馬上行計劃管理后端架構

小程序日活未破萬低成本高可用及滾動發版實戰。 小程序已經積累很多用戶了&#xff0c;高可用及滾動發布已經提上日程。 日活未破萬&#xff0c;選購多臺多家云服務器或者自建機房搭建k8s(Kubernetes)&#xff0c;成本顯然有點太高了。因此取了折中的辦法本地和云端服務同時啟…

C++---類和對象(上)

1.類的定義 1.1類定義格式 首先我們引入一個新的關鍵字-----class&#xff0c;class定義一個類。 定義方法 跟我們之前定義結構體非常的像 那我們來簡單的看一個類的定義 我們C語言實現的時候&#xff0c;結構體和函數是分離的。但是現在不需要&#xff0c;我可以直接寫 …

UE5.5構建iOS失敗但沒有顯式錯誤信息的問題

報錯信息如下 UnrealBuildTool failed. See log for more details. (/Users/somebody/Library/Logs/Unreal Engine/LocalBuildLogs/UBA-UnrealDemo-IOS-Shipping_2.txt) AutomationException: UnrealBuildTool failed. See log for more details. (/Users/somebody/Library/Lo…

淺談 Unity XR:從混戰到統一,OpenXR 的演進與現實困境

一.引言 在 XR&#xff08;擴展現實&#xff09;技術日漸普及的今天&#xff0c;Unity 已成為開發 VR、AR 和 MR 應用的主流平臺。然而在這個生態蓬勃發展的背后&#xff0c;XR 的接口標準也經歷了混亂到統一的演進過程。從早期的廠商割據&#xff0c;到 Unity 的初步抽象&…

Python基礎教學:航天工程領域的精確計算和金融領域的精確計算,分別采用的小數保留位數的方法有哪些?有什么區別?-由Deepseek產生

在Python中處理航天工程和金融領域的精確計算時&#xff0c;雖然都強調精度&#xff0c;但因目標需求、誤差容忍度和計算性質不同&#xff0c;其小數保留位數的方法和策略存在顯著差異。以下是關鍵方法和區別分析&#xff1a; 一、航天工程領域 核心需求&#xff1a; 物理世界…

機器人玩具:成年人的心靈游樂場與未來前哨

當提及“機器人玩具 ”&#xff0c;許多人腦海中仍會浮現出孩童在游戲墊上擺弄塑料小人的畫面。然而&#xff0c;時代已悄然轉變——那些曾被視為童年專屬的機械伙伴&#xff0c;如今正被越來越多的成年人鄭重捧在手中。這不是一種幼稚的退行&#xff0c;而是一場關于創造力、情…

Spring Cloud LoadBalancer深度解析:官方負載均衡方案遷移指南與避坑實踐

引言&#xff1a;為什么LoadBalancer正在取代Ribbon&#xff1f; “Ribbon已進入維護模式” —— Spring官方公告 當你的Spring Boot升級到3.x版本&#xff0c;Ribbon的依賴項將無法通過編譯。作為Spring Cloud 官方欽定的替代方案&#xff0c;LoadBalancer憑借&#xff1a; ?…

暴雨服務器成功中標洪湖市政府框架采購項目

近日&#xff0c;在洪湖市政府 2025 年度行政事業單位服務器封閉式框架協議采購項目中&#xff0c;暴雨服務器憑借其卓越的性能、優質的服務以及合理的價格&#xff0c;成功脫穎而出&#xff0c;贏得了該項目的中標資格。這一成果不僅標志著暴雨服務器在政府領域的認可度進一步…

C# 多線程按順序執行之ManualResetEvent

ManualResetEvent被用于在** 兩個或多個線程間** 進行線程信號發送。 多個線程可以通過調用ManualResetEvent對象的WaitOne方法進入等待或阻塞狀態。當控制線程調用Set()方法&#xff0c;所有等待線程將恢復并繼續執行。 以下是使用ManualResetEvent的例子&#xff0c;確保多線…

SQL里的正則

1393-capital-gainloss https://leetcode.com/problems/capital-gainloss/description/ IDEA報紅但是能執行&#xff01; -- 用全部賣出的減去全部買入的 with b as ( select stock_name, sum(price) AS total_buy_price from Stocks where operation Buygroup by stock_na…

計算機求職提前批/求職什么時候投遞合適

前言 大家秋招或者春招&#xff0c;可能一直在網上沖浪&#xff0c;看到一些人在鼓吹說提前批開始&#xff0c;秋招開始。必須要趕緊找工作了&#xff0c;再不找就失業了等等。 然后&#xff0c;到自己就開始焦慮&#xff0c;感覺別人都在投簡歷&#xff0c;自己不投感覺很吃虧…

八種數據結構簡介

目錄 1.1 數據結構概述 1.2 數據結構的分類 1.2.1 邏輯結構 1&#xff09;集合 2&#xff09;線性結構 3&#xff09;樹形結構 4&#xff09;圖形結構 1.2.2 物理結構 1&#xff09;順序存儲 2&#xff09;鏈式存儲 3&#xff09;散列存儲 4&#xff09;索引存儲 …

破壁虛實的情感科技革命:元晟定義AI陪伴機器人個性化新紀元

在人工智能席卷全球的浪潮中&#xff0c;廣東中山一家名為元晟傳媒科技的企業正悄然改寫情感陪伴產業的游戲規則。作為廣東元伴智能科技&#xff08;下稱“元伴智能”&#xff09;的戰略級下屬機構&#xff0c;中山元晟傳媒科技憑借獨特的“技術場景流量”三角模型&#xff0c;…

leetcode_455 分餅干

1. 題意 給一堆餅干&#xff0c;和一群小朋友。餅干有大小&#xff0c;小朋友有胃口值&#xff1b;小朋友不吃比自己胃口小的餅干&#xff0c;問這些餅干能滿足多少小朋友食用。 2. 題解 排序貪心 優先用小餅干滿足胃口小的小朋友&#xff0c;這樣大餅干就能留給胃口大的小朋…

使用 C# 源生成器(Source Generators)進行高效開發:增強 Blazor 及其他功能

.NET 中源生成器的引入徹底改變了我們的開發方式&#xff0c;它消除了動態邏輯&#xff0c;并在編譯時生成靜態代碼。這不僅提高了應用程序的性能&#xff0c;還提升了開發人員的生產力和代碼質量。 如果您正在使用Blazor&#xff08;WebAssembly 或服務器&#xff09;或構建需…

word如何插入高清晰的matlab繪圖

emf矢量圖 在matlab中畫好的圖另存為emf格式&#xff0c;保存到本地&#xff0c;然后在word中選擇插圖圖片&#xff0c;注意不要復制粘貼。 親測好用&#xff01;

解鎖 ChatGPT 超能力:全新「記憶」功能深度解析!

點擊下方“JavaEdge”&#xff0c;選擇“設為星標” 第一時間關注技術干貨&#xff01; 免責聲明~ 任何文章不要過度深思&#xff01; 萬事萬物都經不起審視&#xff0c;因為世上沒有同樣的成長環境&#xff0c;也沒有同樣的認知水平&#xff0c;更「沒有適用于所有人的解決方案…

低壓電涌保護:構筑電氣設備的安全防線

在現代電力系統中&#xff0c;低壓電涌保護扮演著至關重要的角色。雷電和電力系統中的瞬態過電壓&#xff0c;是威脅電氣設備安全運行的潛在風險。低壓電涌保護器&#xff08;SPD&#xff09;作為一種專門設計的防護裝置&#xff0c;能夠有效地抑制這些電涌&#xff0c;確保電氣…

GitLab多人協作MR流程規范模版(merge)

以下是一個適用于 GitLab 多人協作的 MR 流程規范模板&#xff0c;涵蓋分支策略、MR 創建流程、沖突處理、審查要求和 CI/CD 設置。可以直接復制到團隊 Wiki 或文檔中使用。 &#x1f4d8; 一、分支策略 main ← 線上生產分支&#xff0c;僅從 release 合并 dev …

分布式系統全鏈路監控之一:分布式全鏈路監控基礎概念和OpenTelemetry

文章目錄 前言什么是OpenTelemetry核心概念可觀測性可靠性和指標理解分布式鏈路追蹤日志跨度鏈路 上下文傳播上下文傳播 信號日志OTel日志在 OTel Collector 中的 OTel日志應用程序的OTel日志 結構化、非結構化和半結構化日志結構化日志非結構化日志半結構化日志 OTel日志組件 …