點擊藍字
關注我們
AI TIME歡迎每一位AI愛好者的加入!
AITIME
01
ICLR 2025預講會特邀報告
AITIME
02
ICLR 2025預講會西湖大學張岳老師實驗室專場
01
AI生成文本的自動化檢測
Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection
鮑光勝,張岳實驗室博士生(2022級)
時間:3月4日10:00-10:15
簡介:
先進的大型語言模型能夠生成幾乎與人類撰寫的文本無法區分的內容,這使得自動、準確地檢測AI生成文本變得非常重要。然而,目前的檢測技術面臨一個很大的挑戰:白盒檢測方法檢測能力很強,但由于方法需要使用模型的預測分布,只能使用能力相對較弱的開源模型;而黑盒檢測方法雖然能使用能力較強的私有模型(如gpt-4),但因為這類方法本身的缺陷,其檢測能力并不強。由于私有模型只能通過API訪問,無法提供完整的預測分布或內部嵌入,使得讓白盒方法使用私有模型實現強強聯手看起來似乎不可能。為解決這一難題,我們提出了Glimpse,一種概率分布估計方法,從API返回的部分觀察中,預測恢復完整分布,從而成功地將多種白盒方法擴展到最新的私有模型上。實驗表明,Glimpse結合Fast-DetectGPT方法和GPT-3.5模型,在五個最新大模型生成的語料上,實現了約95%的檢測準確率,相較于開源模型基線將檢測準確率相對提高了51%。我們的研究表明最新的大模型可以有效檢測自己的輸出,展示先進的大模型本身就是抵御它們自身風險的最佳護盾。
論文地址:
https://arxiv.org/pdf/2412.11506
代碼地址:
https://github.com/baoguangsheng/glimpse
02
CycleResearcher: 通過自動化審稿提升自動化研究
CycleResearcher: Improving Automated Research via Automated Review
翁詣軒,張岳實驗室訪問學生
時間:3月4日10:15-10:30
簡介:
本文探討了利用開源大語言模型(LLMs)實現科研全流程自動化的可行性,提出了一種結合研究生成與自動化評審的迭代強化學習框架。該框架包含兩個核心組件:CycleResearcher作為策略模型,負責文獻綜述、實驗設計及論文撰寫;CycleReviewer作為獎勵模型,模擬同行評審過程,通過強化學習提供反饋以優化研究輸出。研究構建了Review-5k(包含論文評審數據)和Research-14k(涵蓋機器學習領域論文全文及大綱)兩個新數據集,支持模型訓練與評估。實驗結果表明,CycleReviewer在預測論文得分上較個體人類評審者平均絕對誤差(MAE)降低26.89%,顯示出其在評審支持中的潛力;CycleResearcher生成的論文在模擬評審中得分為5.36,較會議錄用論文(5.69)仍有改進空間。研究還設計了AI生成內容檢測工具(準確率超95%),并強調倫理規范,倡導透明披露AI參與以維護學術誠信。該工作為AI驅動的自動化科研提供了新思路,同時兼顧了技術創新與學術責任。?
03
大語言模型的個性化對齊
Personality Alignment of Large Language Models?
朱敏郡,張岳實驗室博士生(2023級)
時間:3月4日10:30-10:45
簡介:
本文提出了一種名為“人格對齊”的創新方法,旨在解決大型語言模型(LLMs)在個性化交互中的局限性。傳統模型通常基于普世人類價值觀對齊,而本研究強調從個體差異出發,通過心理學測評工具量化用戶特性。研究者構建了涵蓋32萬真實用戶的PAPI數據集,包含正面的“大五人格”(開放性、盡責性、外向性、宜人性、神經質)和負面的“黑暗三聯征”(馬基雅維利主義、自戀、心理變態)雙重評估體系,首次實現了語言模型在健康與病態人格維度的全面校準。針對個性化數據稀缺和計算效率挑戰,團隊開發了無需訓練的“人格激活搜索”(PAS)方法。該方法通過識別關鍵注意力頭并定向調整激活向量,在保持模型參數不變的前提下,僅需傳統方法1/6的優化時間即可實現精準對齊。實驗表明,PAS在Llama-3等模型上的對齊效果顯著優于DPO、PPO等主流方法,甚至在部分指標上超越GPT-4。研究還揭示了人格對齊對復雜推理能力的正向影響,如提升盡責性可使模型數學解題準確率提高0.68個百分點。這項工作為構建真正個性化的AI系統提供了新范式。
論文地址:
https://openreview.net/pdf?id=0DZEs8NpUH
代碼地址:
https://github.com/zhu-minjun/PAlign
04
NovelQA:對超過20萬個tokens的文檔進行基準問答
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens
王存翔,張岳實驗室2019級博士生
時間:3月4日10:45-11:00
簡介:
為了引導和評測大模型的這種能力,我們基于幾十本長篇英文小說,標注了幾千條需要大模型從小說各個角落獲取信息并進行復雜推理的問答題,比如“主教請JearValiean吃飯的時候桌上點了幾根蠟燭”這種給別人轉述故事的時候人家追問100次你都不會講到的細節,還有比如“馬德蘭市長在小說開頭馬車下救的人在書中間跟Jean Valiean的名字有什么關系”這種轉了很多章節和人物關系的問題。并且為了防止數據的泄漏,我們只在網上開源題目,而不開源答案,而讓參與者通過CodaBench提交他們的回答并且算分。
論文地址:
https://openreview.net/forum?id=uMEsKEiB7J
AITIME
03
觀看地址
進入Bilibili直播間觀看,
提問有可能會被選中由講者回答!
歡迎關注AITIME論道 Bilibili 觀看更多講者回放!
AITIME
04
加入群聊
添加"AI TIME小助手",發送“ICLR”,
將拉您進“AI TIME 交流群”!
往期精彩活動推薦
CVPR 2025結果出爐|一作講者已開啟招募,歡迎新老朋友來預講會相聚!
?關于AI TIME?
AI TIME源起于2019年,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法和場景應用的本質問題進行探索,加強思想碰撞,鏈接全球AI學者、行業專家和愛好者,希望以辯論的形式,探討人工智能和人類未來之間的矛盾,探索人工智能領域的未來。
迄今為止,AI TIME已經邀請了2000多位海內外講者,舉辦了逾700場活動,超800萬人次觀看。
我知道你?
在看
提出觀點,表達想法,歡迎?
留言
點擊?閱讀原文?進入直播間!