??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/
盡管大型語言模型已經展現出令人驚嘆的能力,但至今尚未取得真正意義上的突破性發現。這引發了一個耐人尋味的疑問:為什么會這樣?
有一種可能的解釋是,這類模型缺乏人類思維的一些根本特征:它們是靜態的,無法從經驗中持續學習,也沒有類似人腦“默認模式網絡”(Default Mode Network, DMN)那樣的后臺處理機制——而這恰恰是人類靈感和頓悟的重要來源之一。
為了應對這一局限,有研究者提出了一種稱為“白日夢循環”(Day-Dreaming Loop, DDL)的設想。這是一種在背景中運行的過程,持續地從模型的記憶中抽取兩個概念的組合,由生成模型探索它們之間非顯而易見的聯系,再由評估模型篩選出具有真正價值的創見。這些被識別出的想法將被重新注入系統的記憶中,形成一種復利式的反饋機制:新生成的想法又成為未來概念組合的種子。
不過,這一機制所需的代價——即所謂的“白日夢稅”(daydreaming tax)——可能非常高昂,因為從大量組合中發現有價值的新穎點的命中率極低。然而,這種“浪費”可能正是創新的必要代價。同時,這也為模型蒸餾(model distillation)設置了障礙,因為白日夢機制所產生的洞見往往是無人會主動提出的問題。
從戰略角度來看,這一結論具有反直覺的意味:為了讓 AI 對終端用戶來說更加高效且低成本,或許必須先建構那些大多數算力都用于無用搜索的“昂貴系統”。未來,可能會出現一類專用于生成專有訓練數據的高成本白日夢型 AI,而真正面向大眾的,是繼承其成果的高效、小型模型。這種路徑,可能為穿越即將到來的“數據壁壘”提供一條出路。
美國作家威廉·費菲爾德(William Fifield)在1964年的一篇綜合訪談中,曾引用畢加索的一句話作為回應當時興起的“電子大腦”現象:“但它們沒用。它們只能給出答案。”這句話意味深長,似乎也道出了當前 LLM 研究的瓶頸。
在播客主持人帕特爾(Dwarkesh Patel)看來,至今尚未有任何大型語言模型展現出真正出人意料的突破性洞察,哪怕它們具備極高的知識密度和測試分數。這是一個真正的謎題——因為在提示適當時,這些模型似乎能以令人振奮的方式整合信息,幾乎接近“洞察”的邊緣,但始終未能跨越那一關鍵點。究竟缺少了什么?
有兩項關鍵的“缺失能力”被認為是原因之一:
一、持續學習(Continual Learning)
當前主流 LLM 都是凍結狀態的神經網絡(frozen NNs),即在部署后不再發生參數更新。這意味著它們無法進行動態的再訓練,也無法從新的經驗中獲得反饋。盡管“動態評估”(dynamic evaluation)等技術早已存在并可用于在線學習,但主流 LLM 并未采用。
因此,它們常常困在自身的“先驗”知識中,無法擺脫初始猜測和顯而易見的答案。人類歷史中從未有任何一個患有順行性遺忘癥(anterograde amnesia)的人能創造出重大創新,而 LLM 恰恰面臨類似狀況。
二、持續思考(Continual Thinking)
另一項區別則是人類研究者從不停止思考。人腦即使在睡眠中,也在不斷處理信息,這部分解釋了為何大腦在靜息狀態下也消耗大量能量。
科學與創造力研究強調時間與睡眠在激發“孵化效應”(incubation effect)方面的重要性。人類的靈感往往并非出現在主動思考時,而是在放松或“放空”時突然出現。這種“涌現思維”的例子數不勝數:從過時的冷笑話到錯過的暗示,從突如其來的焦慮想法到意外的靈感閃現。
這些思維的爆發往往是無意識且不可預測的,與當前所專注的任務毫無關聯。例如,一位作者正在撰寫游戲美學的文章時,突發靈感想到了“LLM 的默認模式網絡應該是什么樣子”這一問題,從而催生了這篇設想。
假設:白日夢循環機制(Day-Dreaming Loop)
那么,這種思維過程是如何、何時、何地發生的?
顯然,它并非發生在顯意識中,且通常是在無意間發生的。這是一種普遍現象,并不易耗盡:即便歷經幾十年,許多人仍然定期體驗到這些突發念頭。它可能是生物學上昂貴的過程,因為其本質涉及復雜的計算和神經資源消耗。推測多數動物并不具備類似“靈光一現”的能力。
其機制可能是并行的,因為人腦可能同時在多個神經通路中進行概念組合。它可能部分與海馬體在睡眠中進行的記憶重播過程相關,但又不完全等同,因為白日夢式的思考也常發生在醒著時處理短期記憶的過程中。
此外,它可能被集中注意力的任務所抑制。例如,研究者發現,在專注閱讀或編碼時,這種突發想法幾乎停止;而一旦暫停,靈感就如潮水般涌來。
因此提出了“白日夢循環”這一模型:人腦在空閑時隨機提取兩個記憶片段進行組合,并對結果進行評估,若認為“有趣”,便晉升為顯意識,甚至可能寫入長期記憶。這一機制雖然簡單,卻可能是人類創新的核心引擎。
研究者指出,不需要復雜的高階組合就能實現持續創新,因為一旦新的組合進入知識庫,它就會生成更多潛在的新組合。在經濟創新模型中,查爾斯·瓊斯(Charles I. Jones, 2021)也曾展示,即使“低垂果實”被優先采摘,創新仍然可以持續增長,甚至呈指數爆炸。
不過,該機制也極為浪費,大多數組合毫無價值,難以優化。由于人腦會隨時間改變,過去被判斷為無趣的組合在將來可能變得有價值,因此也必須反復檢查。
LLM 對應機制的可能性
當前的大型語言模型并不具備任何類似機制。它們需要明確的提示才能開始任務,不會主動對記憶中的事實進行組合或生成內在獨白。
然而,這種機制的實現并非遙不可及。例如,可從向量數據庫中隨機抽取兩個概念,然后使用“頭腦風暴”提示語,接著進行價值判斷。具體提示可以包括如下要素:
生成模型任務:
你是一位富有創意的綜合思維者。請在以下兩個概念之間尋找深刻、非顯而易見且具有潛在突破意義的聯系。不要陳述顯而易見之處,而應生成假設、隱喻、研究問題或創新觀點,并對推理過程加以解釋。
概念一:{Chunk A}
概念二:{Chunk B}
評價模型任務:
請從以下維度對生成的假設進行評分(1-10):
新穎性:該想法是否令人驚訝且非顯而易見?
連貫性:推理是否合乎邏輯?
實用性:該想法能否引發測試性假設、新產品或解決問題的可能?
并簡要說明評分理由。
障礙與問題
在效率、質量與成本之間,難以三者兼得。如果以人腦為類比,“白日夢機制”的成本上限可能是普通 LLM 推理成本的 20 倍,這對實際應用提出了巨大挑戰。
這也解釋了為何 LLM 在經濟層面優于人類:它們主動避開了“生成新穎性”和“持續代理”的高代價。因為即便偶爾有突破,也很少有用戶愿意為其額外付出幾十倍的費用。
而且,由于突破往往來自最偏僻的概念組合,也就無法通過簡單篩選降低計算成本。即便用戶對系統輸出隨機冷笑話或吸血鬼假新聞感到不滿,也無從改進。
深遠影響
未來可能出現以“白日夢 AI”為核心的全新訓練體系。這些系統專門用于生成高質量、原創性的專有訓練數據,從而喂養下一代更加高效的小型 LLM。
這類機制也將形成一種天然的“數據護城河”(data moat):它們生成的內容不是用戶事先知道要問的問題,因此無法通過 API 日志或蒸餾方式輕易復制。只有那些愿意承擔“白日夢稅”的研究者、高端用戶或自治智能體才可能真正從中受益。
考慮到強化學習(RL)規模法則和持續上升的資本投入,未來的語言模型可能需要先變得“緩慢且昂貴”,才能在終端實現“快速且便宜”。