本周大模型新動向:獎勵引導、多模態代理、鏈式思考推理

點擊藍字

關注我們

AI TIME歡迎每一位AI愛好者的加入!

01

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design

本文提出了一種用于生物分子設計中獎勵引導生成的擴散模型微調框架。擴散模型在建模復雜、高維數據分布方面表現出色,但在實際應用中,僅生成高保真度的樣本是不夠的,還需要針對可能不可微的獎勵函數進行優化,例如基于物理的模擬或基于科學知識的獎勵。盡管已有研究探索使用強化學習(RL)方法對擴散模型進行微調,但這些方法通常存在不穩定性、采樣效率低和模式坍塌等問題。本文提出的基于迭代蒸餾的微調框架能夠使擴散模型針對任意獎勵函數進行優化。該方法將問題視為策略蒸餾:在roll-in階段收集離線數據,在roll-out階段模擬基于獎勵的軟最優策略,并通過最小化模擬軟最優策略與當前模型策略之間的KL散度來更新模型。與現有的基于RL的方法相比,本文的離線策略公式和KL散度最小化增強了訓練的穩定性和采樣效率。實驗結果表明,該方法在蛋白質、小分子和調控DNA設計等多樣化任務中均表現出優異的獎勵優化效果。

文章鏈接:

https://arxiv.org/pdf/2507.00445

02

Enhancing Reasoning Capabilities in SLMs with Reward Guided Dataset Distillation

本文提出了一種獎勵引導的數據集蒸餾框架AdvDistill,用于提升小型語言模型(SLMs)的推理能力。現有的知識蒸餾技術雖然能夠將大型語言模型(LLMs)的能力傳遞給更小的學生模型,但通常僅圍繞學生模型模仿教師模型的分布內響應,限制了其泛化能力,尤其是在推理任務中。AdvDistill框架利用教師模型對每個提示生成的多個響應,并基于規則驗證器分配獎勵。這些變化的、正態分布的獎勵在訓練學生模型時作為權重。研究方法及其后續的行為分析表明,學生模型在數學和復雜推理任務上的表現顯著提升,展示了在數據集蒸餾過程中引入獎勵機制的有效性和益處。

文章鏈接:

https://arxiv.org/pdf/2507.00054

03

APT: Adaptive Personalized Training for Diffusion Models with Limited Data

本文提出了一種名為“適應性個性化訓練(APT)”的框架,用于在數據有限的情況下個性化擴散模型,以應對過擬合、先驗知識丟失和文本對齊退化等挑戰。APT通過以下三種策略來緩解過擬合:(1)適應性訓練調整,引入過擬合指標以檢測每個時間步的過擬合程度,并基于該指標進行自適應數據增強和自適應損失權重調整;(2)表示穩定化,通過約束中間特征圖的均值和方差來防止噪聲預測的過度偏移;(3)注意力對齊以保持先驗知識,通過對齊微調模型與預訓練模型的交叉注意力圖來維持先驗知識和語義連貫性。通過廣泛的實驗,本文證明了APT在緩解過擬合、保持先驗知識以及在有限參考數據下生成高質量、多樣化圖像方面優于現有方法。

文章鏈接:

https://arxiv.org/pdf/2507.02687

04

MPF: Aligning and Debiasing Language Models post Deployment via Multi-Perspective Fusion

本文提出了一種名為“多視角融合(MPF)”的后訓練對齊框架,用于應對大型語言模型(LLMs)中偏見緩解的需求。MPF基于SAGED流程——一個用于構建偏見基準和提取可解釋基線分布的自動化系統——利用多視角生成來暴露并使LLMs輸出中的偏見與細膩的人類基線對齊。通過將基線(例如人力資源專業人士的情緒分布)分解為可解釋的視角組件,MPF通過采樣和基于分解中獲得的概率加權平衡響應來引導生成。實證研究表明,MPF能夠使LLMs的情緒分布與反事實基線(絕對平等)和人力資源基線(對頂尖大學有偏見)對齊,從而實現較小的KL散度、校準誤差的降低以及對未見問題的泛化。這表明MPF提供了一種可擴展且可解釋的對齊和偏見緩解方法,與已部署的LLMs兼容,并且不需要廣泛的提示工程或微調。

文章鏈接:

https://arxiv.org/pdf/2507.02595

05

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent

盡管通過長度外推、高效注意力機制和記憶模塊的改進,處理無限長文檔且在性能不下降的情況下保持線性復雜度仍然是長文本處理中的終極挑戰。本文直接針對長文本任務進行端到端優化,并引入了一種名為“MemAgent”的新代理工作流,該工作流分段閱讀文本并使用覆蓋策略更新記憶。本文擴展了DAPO算法,通過獨立上下文多輪對話生成來促進訓練。MemAgent展示了卓越的長文本處理能力,能夠從訓練時的8K上下文(處理32K文本)外推到3.5M問答任務,且性能損失小于5%,并在512K RULER測試中達到95%以上。這表明MemAgent提供了一種可擴展且可解釋的對齊和偏見緩解方法,與已部署的語言模型兼容,并且不需要廣泛的提示工程或微調。

文章鏈接:

https://arxiv.org/pdf/2507.02259

06

SurgVisAgent: Multimodal Agentic Model for Versatile Surgical Visual Enhancement

精確的外科手術干預對患者安全至關重要,先進的增強算法已被開發出來以協助外科醫生進行決策。盡管取得了顯著進展,但這些算法通常針對特定場景中的單一任務設計,限制了其在復雜現實情況中的有效性。本文提出了一種名為“SurgVisAgent”的端到端智能外科視覺代理,基于多模態大型語言模型(MLLMs)。SurgVisAgent能夠動態識別內窺鏡圖像中的失真類別和嚴重程度,從而執行多種增強任務,如低光照增強、過曝校正、運動模糊消除和煙霧去除。為了實現卓越的外科場景理解,本文設計了一個先驗模型,提供特定領域的知識。此外,通過上下文中的少量樣本學習和鏈式思考(CoT)推理,SurgVisAgent能夠根據廣泛的失真類型和嚴重程度提供定制化的圖像增強,從而滿足外科醫生的多樣化需求。此外,本文構建了一個全面的基準,模擬現實世界的外科失真情況,廣泛的實驗表明,SurgVisAgent超越了傳統的單一任務模型,展現了其作為外科輔助統一解決方案的潛力。

文章鏈接:

https://arxiv.org/pdf/2507.02252

07

ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning

事件流場景文字識別是近年來新興的研究領域,相比廣泛使用的RGB相機,在極端挑戰性場景(如低光照、快速運動)中表現更優。現有研究要么采用端到端的編碼器-解碼器框架,要么利用大型語言模型(LLMs)增強識別能力,但它們仍受限于可解釋性不足和上下文邏輯推理能力弱的挑戰。本文提出了一種基于鏈式思考推理的事件流場景文字識別框架,稱為ESTR-CoT。具體而言,本文首先采用視覺編碼器EVA-CLIP(ViT-G/14)將輸入的事件流轉換為標記,并利用Llama標記器對給定的生成提示進行編碼。通過Q-former將視覺標記對齊到預訓練的大型語言模型Vicuna-7B,并同時輸出答案和鏈式思考(CoT)推理過程。該框架可以通過端到端的監督微調進行優化。此外,本文還提出了一個大規模的CoT數據集,通過生成、潤色和專家驗證三個階段處理,用于訓練框架。該數據集為后續基于推理的大型模型開發提供了堅實的數據基礎。在三個事件流STR基準數據集(EventSTR、WordArt*、IC15*)上的廣泛實驗充分驗證了所提框架的有效性和可解釋性。

文章鏈接:

https://arxiv.org/pdf/2507.02200

本期文章由陳研整理

近期活動分享

?關于AI TIME?

AI TIME源起于2019年,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法和場景應用的本質問題進行探索,加強思想碰撞,鏈接全球AI學者、行業專家和愛好者,希望以辯論的形式,探討人工智能和人類未來之間的矛盾,探索人工智能領域的未來。

迄今為止,AI TIME已經邀請了2000多位海內外講者,舉辦了逾800場活動,超1000萬人次觀看。

我知道你?

在看

提出觀點,表達想法,歡迎?

留言

點擊?閱讀原文?查看更多!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/92146.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/92146.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/92146.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JAVA+AI教程-第三天

我將由簡入繁,由零基礎到詳細跟大家一起學習java---------------------------------------------------------------------01、程序流程控制:今日課程介紹02、程序流程控制:if分支結構if分支有三種形式,執行順序就是先執行if&…

自定義命令行解釋器shell

目錄 一、模塊框架圖 二、實現目標 三、實現原理 四、全局變量 五、環境變量函數 六、初始化環境變量表函數 七、輸出命令行提示符模塊 八、提取命令輸入模塊 九、填充命令行參數表模塊 十、檢測并處理內建命令模塊 十一、執行命令模塊 十二、源碼 一、模塊框架圖…

uniapp使用uni-ui怎么修改默認的css樣式比如多選框及樣式覆蓋小程序/安卓/ios兼容問題

修改 uni-ui 多選框 (uni-data-checkbox) 的默認樣式 在 uniapp 中使用 uni-ui 的 uni-data-checkbox 組件時,可以通過以下幾種方式修改其默認樣式: 方法一:使用深度選擇器格式一:在頁面的 style 部分使用深度選擇器 >>>…

《Linux 環境下 Nginx 多站點綜合實踐:域名解析、訪問控制與 HTTPS 加密部署》?

綜合練習:請給openlab搭建web網站,網站需求: 1.基于域名www.openlab.com可以訪問網站內容為 welcome to openlab!!, 2.給該公司創建三個子界面分別顯示學生信息,教學資料和繳費網站,基于www.openlab.com/student 網站訪…

網絡基礎1-11綜合實驗(eNSP):vlan/DHCP/Web/HTTP/動態PAT/靜態NAT

注:在華為模擬器(eNSP)上做的實驗其中,在內網實驗:Vlan/DHCP/VWeb/HTTP,在外網實驗:動態PAT/靜態NAT一、拓撲結構1. 核心設備與連接設備接口連接對象VLAN/IP角色LSW2/LSW3Ethernet 0/0/1-2PC1/P…

Mac上安裝Claude Code的步驟

以下是基于現有信息的簡明安裝指南,適用于macOS系統。請按照以下步驟操作: 前提條件 操作系統:macOS 10.15或更高版本。Node.js和npm:Claude Code基于Node.js,需安裝Node.js 18和npm。請檢查是否已安裝: …

MybatisPlus-15.擴展功能-邏輯刪除

一.邏輯刪除配置邏輯刪除的字段時,logic-delete-field字段配置的是邏輯刪除的實體字段名。字段類型可以是boolean和integer。在java中默認是boolean類型。邏輯已刪除值默認為1,而邏輯未刪除值默認為0。當是1時代表已刪除(1在數據庫表中為true&#xff0c…

IDEA 同時修改某個區域內所有相同變量名

在 IntelliJ IDEA 中,同時修改某個區域內所有 相同變量名 的快捷鍵是: ? Shift F6(重命名變量) 但這個快捷鍵默認是 全局重命名,如果你想 僅修改某個方法或代碼塊內的變量名,可以這樣做:&…

Telink BLE 低功耗學習

低功耗管理(Low Power Management)也可以稱為功耗管理(Power Management),本?檔中會簡稱為PM。Telink低功耗解惑我查閱多連接SDK開發手冊時,低功耗管理章節看了兩三遍也沒太明白,有以下幾個問題…

設備管理系統(MMS)如何在工廠MOM功能設計和系統落地

一、核心系統功能模塊設備管理系統圍繞設備全生命周期管理設計,涵蓋基礎數據管理、設備運維全流程管控及統計分析功能,具體如下:基礎數據管理設備與備件臺賬:包含設備臺賬(設備編號、識別碼、型號、生產日期等&#xf…

低空經濟展 | 牧羽天航空攜飛行重卡AT1300亮相2025深圳eVTOL展

為深入推動低空經濟產業高質量發展,構建全球eVTOL(電動垂直起降飛行器)產業交流合作高端平臺,2025深圳eVTOL展定于2025年9月23日至25日在深圳坪山燕子湖國際會展中心隆重舉辦。本屆展會以“低空經濟?eVTOL?航空應急救援?商載大…

CS231n-2017 Lecture4神經網絡筆記

神經網絡:我們之前的線性分類器可以接受輸入,進而給出評分,這是一種線性變換,再此基礎上,我們對這種線性變換結果進行非線性變換,并輸入到下一層線性分類器中,這個過程就像是人類大腦神經的運作…

暑期算法訓練.5

目錄 20. 力扣 34.在排序數組中查找元素的第一個位置和最后一個位置 20.1 題目解析: 20.2 算法思路: 20.3 代碼演示: ?編輯 20.4 總結反思: 21.力扣 69.x的平方根 21.1 題目解析: 21.2 算法思路:…

【HDLBits習題詳解 2】Circuit - Sequential Logic(5)Finite State Machines 更新中...

1. Fsm1(Simple FSM 1 - asynchronous reset)狀態機可分為兩類:(1)Mealy狀態機:輸出由當前狀態和輸入共同決定。輸入變化可能立即改變輸出。(2)Moore狀態機:輸出僅由當前…

多級緩存(億級流量緩存)

傳統緩存方案問題 多級緩存方案 流程 1.客戶端瀏覽器緩存頁面靜態資源; 2. 客戶端請求到Nginx反向代理;[一級緩存_瀏覽器緩存] 3.Nginx反向代理將請求分發到Nginx集群(OpenResty); 4.先重Nginx集群OpenResty中獲取Nginx本地緩存數據;[二級緩存_Nginx本地緩存] 5.若Nginx本地緩存…

淺談Rust語言特性

如大家所了解的,Rust是一種由Mozilla開發的系統編程語言,專注于內存安全、并發性和高性能,旨在替代C/C等傳統系統編程語言。Rust 有著非常優秀的特性,例如:可重用模塊 內存安全和保證(安全的操作與不安全的…

React探索高性能Tree樹組件實現——react-window、react-vtree

🚀 簡介 在現代 Web 應用中,處理大量層級數據的樹形結構是一個常見挑戰。傳統的樹組件在面對成千上萬個節點時往往會出現性能瓶頸,導致頁面卡頓、內存占用過高等問題。本文將深入探討如何使用 react-window 和 react-vtree 構建高性能的虛擬…

C++ 中的默認構造函數:非必要,不提供

《More Effective C:35個改善編程與設計的有效方法》 讀書筆記:非必要不提供default constructor在 C 中,默認構造函數(即無需任何參數即可調用的構造函數)是對象“無中生有”的一種方式。它的核心作用是在沒有外部信息…

如何選擇低代碼開發平臺

選擇低代碼開發平臺需要考慮平臺的開發效率、靈活性和擴展能力、安全性和合規性、成本效益等關鍵因素。 具體來說,平臺的靈活性和擴展能力尤為重要,這決定了平臺是否能長期滿足企業日益增長的復雜需求。例如,企業在評估平臺時,應關…

電子數據取證領域的雙輪驅動——手工分析 vs 自動化分析

在你剛步入電子數據取證領域時,可能很快就注意到一個普遍現象:大多數取證分析師前期都花費大量時間在網上查閱博客、PDF、推文等信息,尋找證據線索的“藏身之處”——例如注冊表項、日志文件路徑、可疑文件命名模式或遠程登錄痕跡等。這種信息…