絕區陸--大語言模型的幻覺問題是如何推動科學創新

介紹

大型語言模型 (LLM)（例如 GPT-4、LLaMA-2、PaLM-2、Claude-2 等）已展示出為各種應用生成類似人類文本的出色能力。然而，LLM 的一個鮮為人知的方面是它們傾向于“產生幻覺”或生成不正確或沒有根據的事實陳述。我不認為這僅僅是一個限制，我認為，如果得到正確引導，LLM 幻覺實際上可以幫助激發新的科學發現和編碼創新。

讓我來解釋一下大語言模型幻覺的自由特性如何讓他們能夠建立人類大腦可能無法建立的橫向聯系。研究人員開始向大語言模型提出科學難題和問題，看看他們能想出什么非常規的解決方案。雖然大多數輸出??可能毫無意義，但一些想法可以提供有希望的新研究方向。

作為一名軟件開發人員和工程師，我將特別關注如何促使大語言模型 (LLM) 集思廣益，想出解決編碼問題的創新方法。他們不受約束的幻想可能會產生新的算法、數據結構、架構和編程范例。我將提供大語言模型 (LLM) 在被要求解決復雜挑戰時可能編寫的富有想象力的代碼示例。

大語言模型幻覺的力量

但首先，為什么 LLM 幻覺具有如此大的創造潛力？當 LLM 接受大量文本數據集的訓練時，它們會發展出一種令人印象深刻的能力，能夠以非常像人類的方式繼續討論任何主題的段落。然而，與人類不同，LLM 并不真正理解它們生成的內容。它們沒有現實世界知識或常識的基礎。

因此，大語言模型可以自信地討論實際上并不存在的概念、人物、地點和事件。例如，GPT-4 可以令人信服地描述一個它完全虛構的國家的地理。細節似乎足夠連貫，直到你意識到它沒有任何事實依據。

對于大多數應用來說，這些事實幻覺是大語言模型的一大缺點。但一些研究人員正在探索大語言模型生成文本不受控制、不受約束的性質是否也能釋放出不同尋常的創造力。正因為 GPT-4 不知道幻想和現實之間的區別，它的想象力是無限的。不受關于什么是可能的或科學有效的先入為主的觀念的束縛，GPT-4 可以拋出人類會自我審查的非常規假設和解決方案。

當然，LLM 并不真正理解科學，在被要求解決復雜問題時，他們給出的大多是胡言亂語。但在這些混亂中，一些研究人員認為，偶爾也會有一些精彩的提示，它們可以表明人類專家可能沒有考慮到的有前途的新研究方向。訣竅在于設計有效的提示，以有效地激發 LLM 的想象力，同時過濾掉那些讓人產生幻覺的廢話。在太狹窄（限制 LLM 的創造力）和太開放（引發胡言亂語）之間可能存在一個最佳的提示點。

幻覺創意代碼

作為一名開發人員和工程師，我特別興奮于利用 LLM 幻覺來激發解決編碼問題的創新方法的可能性。現有的程序合成技術可以自動化簡單的編碼，但它們利用了狹義約束內的模式識別。LLM 幻覺提供了一些新的東西：人類程序員可能永遠不會想到的不同代碼概念。

例如，假設我提示 GPT-4：“編寫一種新型壓縮算法的偽代碼，以比 B 幀或 P 幀更有效地縮小視頻文件大小。重點關注關鍵數據結構和邏輯流程。”

LLMs 并不真正了解視頻壓縮或編碼最佳實踐。但擺脫了先入為主的觀念后，它可能會幻化出令人驚訝的創造性偽代碼。也許它利用了一種非常規的預測模型。或者它想出了一種人類程序員不會想到的遞歸數據轉換。同樣，大多數輸出??可能毫無用處，但 LLMs 幻覺的絕對范圍增加了偶然發現有希望的東西的機會。

與人類程序員不同，LLM 可以快速生成并測試心智模型，且不會有任何風險，這可能會帶來富有成效的路徑，而人類可能會過早地拒絕這些路徑，因為它們太過不合常規。這種能力可以擴展到編碼領域。我們可以促使 LLM 產生幻覺，想象出新穎的加密技術、更優雅的數據結構、更快的搜索/排序算法、創造性的 Web 框架或革命性的編程語言。

欺騙的風險

當然，如果我們過于依賴 LLM 幻覺，也會有風險。由于缺乏現實世界的基礎，LLM 在討論它實際上并不理解的概念時聽起來很有說服力。如果我們將 GPT-4 中的每個幻覺代碼想法都視為合理的，我們可能會浪費時間追逐海市蜃樓。

例如，在提示 GPT-4 提出一種新穎的加密貨幣系統后，它可能會使用奇特的加密和創造性的去中心化驗證方法生成代碼。從表面上看，其幻覺加密貨幣在技術上似乎很合理。但如果沒有對分布式系統或經濟學的扎實理解，GPT-4 的建議如果實施，很可能會失敗。它的代碼通過了“嗅探測試”，只是因為 GPT-4 的胡說八道能力太強了！

因此，盡管 GPT-4 不受約束的想象力具有創造潛力，但我們需要進行嚴格的篩選，以確定其眾多幻覺想法中哪些值得進一步探索。對于科學發現，我們仍然需要通過實驗仔細測試 LLM 假設的可行性。對于編碼，我們需要實際嘗試實現 GPT-4 算法和數據結構，以評估它們的實際性能和可擴展性。

大語言模型合作伙伴

我認為 LLM 最大的價值在于充當一個始終存在的自動化頭腦風暴伙伴。我們可以給它提供源源不斷的編碼挑戰和提示變化，以刺激其幻覺輸出。在此過程中，LLM 可以激發我們獨自無法獲得的人類洞察力。

我們不應該將 LLM 視為可以處理問題的自主系統，而應該在 LLM 和人類專家之間建立緊密的反饋循環。我們提示 GPT-4，處理結果，識別有希望的部分，再次提示 GPT-4 完善某些概念，過濾并重復。這構建了新的混合人類-LLM 發現過程，我們才剛剛開始探索。

頭腦風暴會議示例

場景：我是一家對沖基金的數據工程師，該基金采用復雜的機器學習算法來指導我們的交易策略。數據科學團隊依靠我來匯總市場數據流、實施管道并在云端管理我們的大數據基礎設施。

然而，我們當前的數據倉庫和數據湖難以跟上來自市場、替代數據源和我們自己的投資組合分析的金融時間序列數據的爆炸式增長。我們的管道無法以足夠快的速度提取和處理數據以進行機器學習訓練。

我決定選擇 GPT-4 大腦來獲得滿足算法金融對速度、多樣性和數量需求的創造性數據架構理念。

頭腦風暴會議我：“GPT-4，我需要一個創新的大數據藍圖來處理大量、高速率的金融數據饋送，這些數據將動態地為交易模型提供信息。細節對時間非常敏感。概述一種完全針對速度和靈活性進行優化的方法。”

GPT-4：“這聽起來像是云端 Lambda 架構的一個很棒的應用！結合流和批處理路徑，我們可以實現低延遲提取，同時仍支持歷史回測。”

Lambda 架構讓我想起了領域驅動設計的事件源……也許我們可以圍繞來自不同市場的事件流來構建它？

我：“很好，我喜歡 Lambda 的想法！既然金融圍繞市場事件而展開，如果我們在事件流主干上構建它會怎么樣？比如在不同的數據域（交易、訂單、交易等）中遵循事件源模式。有什么創新建議嗎？”

GPT-4：“喜歡事件源概念——它很自然！我們可以將所有市場數據視為來自不同領域的時間事件日志流。一些關鍵創新：

使用集成的 Apache Kafka 生態系統（Kafka、Kafka Connect、KSQL）進行事件提取、代理和流處理。
數據作為事件讓我們能夠利用事件驅動的微服務架構進行擴展和發展。
對于機器學習，Kafka 流式傳輸使實時/持續的模型訓練保持反應能力。
使用 Kafka 時間窗口、時間戳、水印對事件流進行分區，以進行歷史回溯測試。
隨著事件模式的發展，實施 Kafka Schema Registry 進行集中驗證和版本控制。”

GPT-4 詳細介紹了這個事件流平臺，我越來越興奮了！它完美地契合了我們實時、基于時間軸的數據挑戰，同時為批量/歷史建模敞開了大門。我迫不及待地想把它充實成一個久經考驗的金融數據網格，我們可以無限制地擴展。我們的戰略家會喜歡這個的。

關鍵要點

總而言之，雖然大語言模型沒有扎實的知識或推理能力，但它們不受約束的幻想傾向確實提供了不同尋常的創造潛力。通過在人類專家和大語言模型之間建立緊密的反饋回路，我們可以激發任何一方都無法獨立實現的新發現。大語言模型提供豐富的想象力，而人類提供批判性分析。

我尤其熱衷于鼓勵大語言模型提出富有想象力的方法來解決棘手的編碼難題。大語言模型擺脫了先入為主的觀念，可能會想到人類無法想到的非傳統算法、數據結構、架構和范例。它還允許通過生成大量偽代碼來快速進行原型設計。

當然，我們需要嚴格篩選，以確定大語言模型的眾多幻想想法中哪些在技術上是可行的，值得實施。只有一小部分可能被證明是可行的，但這些稀有的寶石可以開辟有前途的新研究方向。隨著時間的推移，隨著我們通過對哪些可行和哪些失敗的反饋來建立大語言模型的知識庫，信噪比可能會大幅提高。

因此，盡管大型語言模型幻覺顯然存在缺點，但我相信我們只觸及了其創造潛力的表面。通過建立緊密的人機-LLM 協作循環，我們可以突破發現的界限！

創作不易，覺得不錯的話，點個贊吧！！！