生成式信息檢索（問答系統與信息檢索的進步）

文章目錄

什么是問答系統（Question Answering Systems）
檢索系統的演變
- 經典檢索系統
- “Term” 文檔搜素的最小單位
- 倒排索引
- 詞嵌入的出現
- 預訓練語言模型
用于問答的語言模型
設計方案選擇：封閉式與開放式問答系統對比
- 方案A：封閉式生成問答
- - 可微搜索索引（DSI）
  - - 挑戰：在 DSI 中添加新文檔
    - 避免在更新DSI（可微搜索引擎）時出現災難性遺忘
    - 挑戰：將DSI擴展到大型文檔集合
  - 閉環生成式問答系統架構
- 方案B：開放式生成問答
- - REALM（Retrieval-Enhanced Language Model）
  - FAIR（Facebook AI Research）
  - RETRO
  - 檢索增強型GQA系統的架構
  - 超越記憶的知識
  - 泛化：工具增強的生成
  - - 關于增強語言模型的進一步閱讀
- 關鍵挑戰
- - 答案的忠實性
  - 答案的歸因
- OpenAI
- Google Research
生成模型和網絡生態系統
- 生成式人工智能對網絡和搜索生態系統的影響
- 對生成的內容進行訓練會導致模型崩潰
- 人類很難分辨語言模型（LM）生成的內容
- 檢測生成的內容
- 內容質量可以用來檢測生成的內容嗎?
- 直接答案會如何影響引薦流量？
- 更好的支持決策過程
總結

什么是問答系統（Question Answering Systems）

Question Answering Systems（問答系統）是一類計算機系統，專門設計用來回答用戶提出的特定問題。這些系統通常利用一組預先定義的規則、算法或者機器學習模型來從一個或多個數據源（例如，數據庫、文本文檔、網頁等）中檢索或生成答案。

問答系統可以根據其應用場景和功能被分類為不同的類型：

基于檢索的問答系統：這類系統從一個預先構建的數據庫或文檔集合中檢索信息來回答問題，常見的算法有 TF-IDF、BM25 等。
基于規則的問答系統：這類系統使用一組預定義的規則來生成答案。
基于機器學習的問答系統：這類系統使用機器學習算法（通常是深度學習模型）來理解問題和生成或檢索答案。

以上內容來源于 ChatGPT 的回答。

問答系統的核心價值主張是使獲得問題的答案變得容易——

問答（QA）系統降低了獲得所需答案所需的精神成本和時間。
與傳統檢索系統相比，它們可以更直接地解決信息需求，但也存在用戶過度信任和依賴此類系統的風險。

檢索系統的演變

檢索系統（Information Retrieval Systems）是一種用于查找、檢索和組織信息的計算機系統或軟件。它們的歷史可以追溯到圖書館的卡片目錄系統，但隨著計算機和互聯網的出現，檢索系統已經發生了顯著的演變。現代檢索系統不僅用于圖書和學術文章，還廣泛應用于網頁、多媒體內容、社交媒體信息等。

早期的檢索，如 Fac-Tronic System 它是最早期的計算機基礎檢索系統之一，它為圖書管理員提供了多種查詢選項，包括按作者、DoD合同號、主題標題以及主題描述符進行搜索。該系統通過返回與查詢匹配的文檔的書架位置來輔助信息檢索。在搜索匹配文檔時，Factronic 采用了一種直接而簡單的方法，即通過對所有可用文檔列表進行線性掃描來找到匹配項。

Fac-Tronic 及其繼承者們塑造了未來七十年信息檢索領域的主導范式。在這一范式中，有信息需求的個體會將其需求轉化為具體的查詢語句，并提交給檢索系統。作為響應，系統會提供一份可能符合該信息需求的文檔引用列表。在理想情況下，這些文檔引用會按照相關性進行排序，并附帶與查詢相關的段落的簡要摘要。

經典檢索系統

概念：經典檢索系統（Classic Information Retrieval Systems）是一種早期的信息檢索系統，主要用于查找和組織存儲在數據庫或文檔集合中的信息。這些系統通常基于一組預定義的規則和算法，如布爾邏輯、向量空間模型（VSM）等，來匹配用戶查詢和文檔。

在這里插入圖片描述

圖示展示了搜索引擎在三個不同年代的用戶界面，從 1996 年到 2023 年。盡管 2023 年的用戶體驗相較于 1996 年有了顯著提升，但其基礎范式依然未發生改變。用戶仍然通過提交描述其信息需求的查詢，來獲取一份可能相關網頁的鏈接列表，這些鏈接通常會附帶一個簡短的“摘要”，以便用戶在不訪問網站的前提下估算其實際相關性。值得注意的是，現代搜索引擎已經能夠直接回答某些特定類型的查詢，比如關于天氣或基礎事實的問題，然而大多數查詢的結果依然是 “10個藍色鏈接”。

使用傳統檢索系統會產生一定的成本，不僅在時間上，還在認知負荷方面。用戶需要將他們的信息需求精細化為查詢語句，然后仔細瀏覽可能相關的文檔結果列表，或者是少數幾篇文檔，以達到他們的需求。這一過程被安德烈·布羅德（Andrei Broder）和普雷斯頓·邁克菲（Preston McAfee）稱為信息收集的“德爾菲成本”，涉及到++時間投入++、++認知負荷++ 和 ++互動成本++。

“Term” 文檔搜素的最小單位

簡單總結，“Term” 是搜索引擎用于索引和查詢的基礎信息單元。
之前提到的 Fac-Tronic 系統，它允許用戶通過合同號、作者和主題標題及描述符來搜索文檔。合同號和作者名對于定位已知內容是有用的，但對于探索未知的信息領域則不然。
在1952年，Taube、Gull和Wachtel提出了一種用于對文檔中的單個詞進行索引的方法，這包括文檔的標題、主題描述符、關鍵詞，甚至是摘要（當時全文索引還是不可行的）。這種方法被稱為“Uniterm coordinate indexing”（Uniterm坐標索引），其核心思想是將文檔視為一個詞袋模型。

在信息檢索和搜索引擎技術中，“Term”（術語或詞項）通常被認為是搜索的最小單位。這意味著在搜索引擎進行索引、查詢處理和相關性評分時，“Term” 是基礎的信息單元。

倒排索引

在 Uniterm 的應用場景中，我們需要一種有效的方式來將查詢詞與文檔相匹配。倒排索引就是這樣一種高效的解決方案。在文檔集合的詞匯表里，每一個單詞都會被映射到一個“倒排列表”，這個列表記錄了該單詞在所有文檔中出現的位置。倒排索引不僅支持基礎查詢，還能處理更復雜的查詢類型，如合取查詢、析取查詢、鄰近查詢、短語查詢，甚至包括排除或否定查詢。這些查詢可以組合使用，從而提供了一種豐富的方式來表達用戶的信息需求。作為附加優點，這種索引結構也便于計算如詞頻-逆文檔頻率（tf-idf）和BM25等詞匯評分函數。

在這里插入圖片描述

在倒排索引檢索系統中，術語是未經解釋的，這意味著系統并沒有捕獲術語之間的語義關聯。比如說，盡管“turtle”（烏龜）和“tortoise”（龜）在英語中是近義詞，索引系統會將它們視為兩個完全不同的詞。為了彌補這一缺陷，這類檢索系統通常在預檢索階段使用同義詞和權重來優化查詢詞，以便進行更準確的評分。

布爾和鄰近運算可以高效地實現，僅需遍歷查詢詞的倒排列表。倒排索引還具有很好的可擴展性，可以通過分片到多臺計算機來處理大型語料庫。索引還可以實時更新，通過創建多個層次并定期合并它們來實現。

與Salton的術語向量模型非常匹配，倒排索引的結構便于計算詞頻（tf）、逆文檔頻率（iDF）或BM25等評分指標。然而，這種方法在尋找語義上相似（而非僅在詞匯上）的文檔方面表現不佳。

Salton的術語向量模型（Salton’s Term Vector Model）是信息檢索和文本挖掘中用于表示文檔和查詢的一種模型。該模型由Gerard Salton和他的同事們在20世紀60年代末至70年代初提出。在這個模型中，文檔和查詢都被表示為多維空間中的向量。每個維度對應一個術語（通常是單詞），而該維度上的值通常是該術語在文檔中的權重，這可以是詞頻（TF）、逆文檔頻率（IDF）或其他復雜的權重。

工作原理
假設有一個詞匯表，其中包含所有可能出現在文檔或查詢中的術語。每個文檔（或查詢）都可以表示為一個向量，其中每個元素對應于詞匯表中一個術語的權重。通過這種方式，文檔和查詢都被轉換為同一空間中的點，從而可以使用各種相似度度量（如余弦相似度）來比較它們。

簡單總結
Salton的術語向量模型是一種將文檔和查詢表示為多維空間中向量的方法，其中每個維度對應一個術語，而該維度上的值是該術語的權重。這種表示方式便于使用各種相似度度量來比較文檔和查詢。

“經典”網絡搜索引擎的架構
在這里插入圖片描述

上圖展示了一個“經典”網絡搜索引擎的架構。
該系統有兩個部分，一個離線組件負責獲取和預處理網絡內容，一個在線組件負責接收查詢并返回結果頁面。
這兩部分通過兩個存儲庫連接在一起——++爬取的網頁語料庫++ 和 ++這些頁面中所有術語(Term)的索引++。

網頁內容由爬蟲程序抓取，然后存儲到語料庫并加入到索引中。當用戶發起查詢時，前端首先從索引里找到相關文檔的引用。接著，前端從語料庫中拉取這些文檔，并為每個結果生成一個摘要。

詞嵌入的出現

在語料庫（即大量文本數據集）中，語義相關的詞語（或術語）更有可能在同一文檔或上下文中一起出現，而與之不相關的詞則相反。

在信息檢索中，有兩種主要的模型：
一是 潛在語義分析（LSA），它依賴于詞語的共現性質；
二是由Salton提出的 向量空間模型，該模型假設所有詞語是統計獨立的。
這兩種模型各有優缺點，但都受到其基礎數據結構（如倒排索引）的限制。

2010年代初，出現了兩個重要的突破：詞嵌入 和 向量數據庫。
詞嵌入能夠捕捉詞語、句子、段落或文檔之間的語義相關性。

“The advent of word embeddings”（詞嵌入的出現）指的是自然語言處理（NLP）和機器學習領域中一種用于表示詞語的高維向量模型的普及和應用。詞嵌入模型如Word2Vec、GloVe等，能夠捕捉詞語之間的語義和句法關系，這是傳統基于詞袋模型或TF-IDF等方法所難以實現的。

工作原理
詞嵌入通常是通過大量文本數據上的無監督學習得到的。這些高維向量能夠捕捉詞語之間復雜的關系，比如同義詞、反義詞、上下文關系等。例如，在詞嵌入空間中，“king” - “man” + “woman” 接近于 “queen”。

向量數據庫則能高效地進行最近鄰搜索。

向量數據庫 是一種專門用于存儲和檢索高維向量數據的數據庫。這些向量通常是由機器學習模型（如詞嵌入或圖像識別模型）生成的。向量數據庫的主要特點是能夠高效地進行最近鄰搜索，即在給定一個查詢向量的情況下，快速找到數據庫中與之最相似（或“最近”）的向量。

谷歌的研究人員在 2014 年的一篇論文中提出將詞嵌入技術從單詞級別擴展到可變長度詞序列（如句子、段落或整個文檔）

在原始的詞嵌入模型中，每個單詞都由一組固定長度的實數表示。這篇后續論文的創新之處在于，它將這種表示法擴展到了更長的文本單位，如句子或段落。盡管這些文本單位的長度是可變的，但它們的表示（即嵌入）仍然是一組固定長度的實數。

與Salton的術語向量模型的區別：

Salton的術語向量模型主要關注詞匯層面的重疊，即文檔中出現了哪些詞。而這種擴展后的詞嵌入模型則更注重“軟”語義相似性，即即使兩個文檔沒有明顯的詞匯重疊，它們也可能在語義上是相似的。

語義相似性：

這種擴展后的模型能夠捕捉到文本之間更為微妙的語義關系，因為它不僅僅依賴于單詞的出現或缺失，而是考慮了文本整體的語義內容。

預訓練語言模型

神經網絡與語言模型

用于將段落映射到嵌入的神經網絡捕捉了訓練數據中語言的各個方面，包括詞匯、語法和形態。這些網絡參數實質上構成了一個“語言模型”。

模型規模與準確性

模型越大，對語言的理解就越全面。但這也帶來了更高的計算成本。

預訓練與微調

由于訓練大型模型計算成本高，因此一種常見的做法是先進行預訓練，然后在特定任務上進行微調。這樣可以更高效地適應不同的任務。

對于預訓練與微調這一趨勢的一個關鍵代表是 2019 年由谷歌發表的 BERT

BERT 模型
BERT（Bidirectional Encoder Representations from Transformers）是一種預訓練的深度學習模型，用于自然語言處理（NLP）任務。它由谷歌發布，并迅速成為了多種NLP任務的標準模型。

BERT 的主要創新之處在于其雙向編碼器結構，這使得模型能夠同時考慮一個詞在句子中的左側和右側上下文 ++（這使得表示是上下文相關的——同音異義詞將對其不同的含義有不同的表示）++ 。這與傳統的單向模型（只考慮左側或右側上下文）相比，能夠更準確地捕捉詞義。

BERT 已經在多個任務上表現出色，包括搜索排名等。預訓練語言模型的技術也在不斷進步，如2022年發布的“PaLM”（Pathways Language Model）。

基于向量的文檔表示，只有在我們能夠有效地找到相似向量的情況下才有用。（給定一個向量，返回數據庫中最接近的k個向量）

??當我們考察信息檢索和搜索引擎的歷史，我們可以看到它們經歷了重要的演變。起初，它們主要使用基于詞匯匹配的方法來工作。然而，隨著時間的推移，搜索引擎朝著更為復雜和語義化的方向發展。

??這個演變導致現代搜索引擎越來越依賴機器學習和神經網絡，特別是預訓練的語言模型，以提供更準確和個性化的搜索結果。這個發展方向的目標是改進用戶的搜索體驗，使其更加滿足個性化需求。

通過使用文檔嵌入和向量數據庫，我們可以改進傳統檢索系統，使其更加注重文本的語義含義而不僅僅是單純的詞匯匹配。傳統的倒排索引被向量數據庫取代，這意味著系統可以更好地理解文本的語義信息。在這種系統中，不再需要頻繁地使用同義詞來擴展查詢詞，因為系統可以更智能地處理查詢，提供更準確的搜索結果。架構圖如下：

在這里插入圖片描述

比較詞匯表示和語義表示

詞匯表示（詞向量）：

高維度（數十億）
稀疏
基于詞向量的模型
單詞是未經解釋的標記
計算成本較低
易于擴展倒排索引
沒有明確的語言模型（注意：可能在檢索前后使用）

語義表示（嵌入）

低維度（數百）
密集
基于分布語義的表示
單詞具有含義
計算成本較高
難以擴展神經網絡索引
更新語言模型非常昂貴

詞匯表示通常在高維度空間中操作，每個單詞都被表示為一個稀疏向量，它們僅包含關于詞匯的信息，而不涉及語義含義。這種方法計算成本較低，易于構建倒排索引，但不考慮單詞之間的語義關系。
相比之下，語義表示在低維度空間中操作，每個單詞都表示為一個密集的向量，捕捉了單詞之間的語義關系。這種方法更接近單詞的真實含義，但計算成本較高，難以在大規模數據上擴展，并且更新語言模型的代價也很高。

商業可用的向量數據庫目前在可擴展性方面尚不如倒排索引，盡管它們之間的差距正在迅速縮小。這意味著倒排索引在處理大規模數據時仍然具有優勢。
倒排索引具有更高的局部性，因此索引不需要完全駐留在內存中。這有助于減少內存使用，提高性能。
倒排索引非常適合進行"精準查詢"，即需要重視召回率的查詢，例如查找非常獨特和不常見的零件編號等情況。

基于此，創建混合檢索系統，其中所有文檔存儲在倒排索引中，而語義上最有價值的子集存儲在向量數據庫中。在查詢時，系統可以同時從這兩個子系統中檢索結果，然后將它們合并在一起，以提供更全面的搜索結果。這種混合方法充分利用了兩種檢索方法的優勢，從而提高了搜索的效果。

在這里插入圖片描述

下面截圖的論文中，評估了這樣一個混合系統
在這里插入圖片描述

論文地址：https://arxiv.org/abs/2010.01195

這篇論文主要探討了如何通過結合深度神經網絡模型和詞匯模型來提高文檔檢索系統在檢索階段的性能。論文提出了一種混合方法，該方法同時利用語義（基于深度神經網絡）和詞匯（基于關鍵詞匹配）的檢索模型。通過使用公開可用的TREC集合進行的實證研究，論文證明了這種方法的有效性，并深入探討了語義方法、詞匯方法以及它們的組合各自的特點。

在混合系統中，他們結合了詞匯檢索和語義檢索的兩個部分。對于詞匯部分，他們使用了Lucene作為索引器，BM25作為排名模型。而對于語義部分，他們使用了ScaNN作為向量數據庫，并采用了基于BERT的排名模型。最后，他們使用RM3方法來融合這兩個子系統的結果。

通過在TREC新聞數據集上進行基準測試，他們發現混合系統的召回率明顯高于任何一個子系統，并且精度也得到了提高。這意味著混合系統在搜索任務中表現更好，能夠更全面地找到相關文檔，并提高了搜索結果的準確性。這項研究為混合檢索方法提供了有力的支持。

用于問答的語言模型

NLP 研究人員注意到，這些大型模型不僅能夠學習語言的詞匯、形態和語法，還能記住訓練數據中的基礎事實信息（即"factoids"）

“Factoids” 是一個英文術語，通常用來指一小段簡短、有趣但可能不完全準確或稍微歪曲的事實或信息。在不同的上下文中，這個詞可能有不同的含義
在自然語言處理和機器學習的上下文中，“factoids” 通常指的是模型從訓練數據中學到的基礎事實或信息。這些事實通常是模型在回答問題或進行其他任務時所依賴的知識。

Google的團隊特別研究了T5模型，這是一個繼BERT之后、PALM之前的預訓練模型。他們將不同大小的T5模型（針對問答任務進行了微調）與九個現代問答系統進行了比較。這些問答系統分為兩類：一類是閉卷生成式系統（即T5模型），另一類是開卷抽取式系統（即基于數據庫或其他外部信息源的系統）。

測試問題來自三個不同的問答數據集：Natural Questions、WebQuestions和TriviaQA。評估是通過算法檢查和人工評估的組合進行的。

結果顯示，最大的T5模型雖然沒有達到最先進的抽取式問答系統的性能，但與許多系統相比表現相當出色。

由于觀察到語言模型能夠捕捉到常見的世界知識，研究人員提出了使用這些模型以生成方式回答問題。這種新方法可能會在多種信息檢索任務中比傳統方法更受歡迎，因為它減少了搜索者在尋找信息時所需的時間和精力，也就是所謂的"德爾菲成本"（Delphic cost）。這個成本包括搜索過程中的時間消耗、認知負擔和與系統的互動成本。

"德爾菲成本"在這里指的是搜索者在信息檢索過程中所需付出的時間、認知負荷和互動成本

“重新思考搜索” 提出關鍵需求：

可靠性：搜索引擎或信息檢索系統應該提供準確和可靠的信息。這意味著它應該從權威和可信的來源獲取信息，并確保生成的內容與原始材料保持一致。
透明性：系統應該明確地標明信息來源，最好是引用主要或原始的資料。這有助于增加用戶對信息的信任。
無偏見性：避免偏見是一個復雜和棘手的問題，因為偏見在社會和文化中無處不在。搜索引擎需要設計機制來最小化這種偏見。
多樣性：對于有爭議或敏感的話題，系統應該提供多角度的信息，以便用戶能夠獲得全面的了解，而不是僅僅看到一個觀點。
可訪問性：信息應該以易于理解和接受的方式呈現，這可能需要系統了解用戶的背景和需求。

在"Situating Search"(定位搜索) 中針對上面的愿景感知到的技術缺陷：

不能處理結構化信息：這意味著語言模型在處理具有明確結構（如數據庫、表格等）的信息時可能不夠有效。它們更適合處理自然語言文本。
容易產生幻覺：這是指語言模型有時會生成不準確或誤導性的信息。這可能是因為模型在訓練數據中沒有足夠的上下文來準確地生成信息。
理解形式但不理解含義：這意味著雖然語言模型可能很擅長生成語法正確的句子，但這些句子可能在語義上是不準確或不可靠的。

Chirag Shaw和Emily Bender在2022年的CHIIR會議上發表了一篇批評“重新思考搜索”觀點的文章。他們主張，++用戶實際上并不是那么熱衷于生成式問答系統。相反，人們更加關心如何提出有效的查詢，如何判斷哪些搜索結果是可靠和相關的，以及如何根據需要微調他們的搜索查詢++。

這兩位作者從技術和社會兩個方面對生成式問答系統提出了質疑。技術上，他們不確定這樣的系統是否能有效地處理結構化信息，或者是否能生成基于事實的可靠答案。雖然這些問題對于生成模型本身是個挑戰，但對于那些依賴外部資源如檢索系統、知識庫和推理引擎來驗證答案的更大型問答系統來說，這并不是不可逾越的難題。

設計方案選擇：封閉式與開放式問答系統對比

方案A：封閉式生成問答

語言模型是生成過程中唯一利用的知識源
純粹的方法可能允許所有系統組件的聯合優化
多個棘手問題：
- 知識基礎（產生幻覺的風險）
- 透明度（歸因于來源）
- 可擴展性（捕獲所有開放知識）
- 可演化性（知識的增長和變化）
可微搜索索引（DSI）是封閉式問答的一種嘗試
- 支持歸因（在語言模型中捕獲文檔ID），在可演化性和可擴展性方面有所進展
- 迄今為止的工作沒有考慮實際生成（因此沒有擔心知識基礎）

在封閉式問答系統中，所有需要的知識都由語言模型本身提供，不依賴于外部數據源。這種方法有優點，例如可以端到端地優化整個系統。但也有一些問題，比如如何確保信息的準確性，確保生成的答案是可靠的、如何追溯信息來源、如何擴展到更多的開放知識，以及如何適應知識的不斷變化。

可微搜索索引（DSI）

“可微搜索索引（DSI）”是這種封閉式問答的一種實現嘗試，它尤其在信息歸因、可擴展性和可演化性方面有所改進。

DSI（Differentiable Search Index）是一個特殊類型的語言模型，專門用于文檔檢索。它工作分為兩個階段：
第一階段是“索引”，模型學習如何從文檔內容預測文檔的標識符；
第二階段是“檢索”，模型根據給定的查詢預測相關文檔的標識符。
這個模型在可擴展性和可演化性方面有一些進展，但還沒有解決生成答案的依據問題。

DSI（Differentiable Search Index）是一種可微搜索索引，它是一種特殊類型的搜索索引，設計用于與神經網絡或其他可微分模型直接交互。在傳統的搜索引擎中，搜索索引通常是一個獨立的組件，用于快速查找與查詢相關的文檔或數據。然而，在DSI中，搜索索引被設計為一個可微分的函數，這意味著它可以直接嵌入到神經網絡模型中，并通過反向傳播算法進行訓練。

DSI的主要優點是它允許模型在訓練過程中自動地調整搜索索引，以更好地滿足特定任務的需求。這種方法在信息檢索、推薦系統和其他需要高效搜索能力的應用中具有潛在的價值。

例如，在一個問答系統中，DSI可以用于捕獲文檔ID或其他元數據，這有助于提高系統在可擴展性和可演化性方面的性能。同時，由于DSI是可微分的，它也可以與其他神經網絡組件共同優化，從而提高整體系統性能。

挑戰：在 DSI 中添加新文檔

? 方法：通過持續學習將新文檔納入DSI模型
? 挑戰：簡單地學習新文檔會導致對舊文檔的災難性遺忘
? 分析揭示了在基礎語料庫的記憶過程中的隱性遺忘和在持續學習過程中的顯性遺忘

DSI（可微搜索引擎）很擅長于找出答案來自哪里，這在自動生成答案的系統里是個大問題，但DSI處理得相當不錯。

然后，我們面臨的問題是如何讓DSI適應不斷更新的信息。想象一下，互聯網上的信息是如何飛速變化的。如果每次都從零開始訓練一個全新的模型，那簡直是個無底洞。所以，++聰明的做法是讓 DSI 持續學習，隨時吸收新信息++。

但這里有個大坑：當DSI忙著學新知識時，它竟然會“忘掉”舊知識。這種遺忘有兩種形式。一種是“隱性遺忘”，即在DSI還在學習基礎信息時，就已經開始悄悄忘記舊的東西了。另一種是“顯性遺忘”，這是當DSI在添加新信息時，會忘記它之前學過的東西。

避免在更新DSI（可微搜索引擎）時出現災難性遺忘

隱性遺忘與顯性遺忘：DSI（可微搜索引擎）面臨兩種類型的遺忘問題。隱性遺忘是在記憶基礎語料庫的同時遺忘先前的訓練樣本；顯性遺忘是在整合新的文檔更新時遺忘舊的訓練樣本。
銳度感知最小化（SAM）：這是一種優化技術，用于緩解隱性遺忘。它通過優化更平坦的損失盆地來實現這一目標。
經驗回放（Experience Replay）：這是一種舊的強化學習概念，用于減輕顯性遺忘。具體來說，它通過生成偽查詢來重新呈現先前學習過的文檔，并將這些文檔與新文檔一起用作訓練樣本。

評估與結果：這些方法在Natural Questions和MSMARCO兩個數據集上進行了評估。結果顯示，SAM在減緩隱性遺忘方面表現中等，而使用生成性記憶在防止顯性遺忘方面表現出色。

持續學習的挑戰：由于底層語料庫的不斷變化，簡單地使用持續學習會導致對舊文檔的災難性遺忘，這是傳統信息檢索系統中不存在的問題。

挑戰：將DSI擴展到大型文檔集合

這篇論文: “How Does Generative Retrieval Scale to Millions of Passages?”，主要研究了生成式檢索（Generative Retrieval）在大規模文本語料庫（如 MS MARCO）中的可擴展性。
論文地址：https://arxiv.org/abs/2305.11841

背景與目的: 生成式檢索是一種新興的檢索范式，它使用單一的序列到序列（Sequence-to-Sequence）Transformer模型來完成檢索任務。盡管在較小的語料庫（如 Natural Questions 和 TriviaQA）上表現出色，但其在大規模語料庫上的性能尚未得到充分評估。
實驗設計: 論文首次對 MS MARCO 語料庫（包含 8.8M 篇文章）進行了全面的生成式檢索實驗。實驗主要集中在評估由 Tay et al. (2022), Zhuang et al. (2022b), 和 Wang et al. (2022) 提出的各種技術。
實驗結果: 在較小規模的 Natural Questions 和 TriviaQA 上，論文展示了生成式和非生成式檢索的最新結果，而無需使用許多先前提出的方法。
未來方向: 論文提出了幾個開放性問題，包括如何合理地利用大型語言模型和模型參數的擴展性，以及如何設計能夠在計算權衡方面進行插值的架構。

閉環生成式問答系統架構

在這里插入圖片描述

上圖展示了一種閉環生成式問答系統（Closed-Book Generative Question-Answering Systems）的架構。在這種系統中，語言模型是唯一的知識存儲庫。這個模型由一個離線組件進行更新和訓練，然后由一個在線組件用于實際的問題生成和回答

到目前為止，實際上還沒有用DSI進行生成，所以就DSI而言，這仍然是“未來工作”

方案B：開放式生成問答

REALM（Retrieval-Enhanced Language Model）

非生成式前驅：REALM（檢索增強語言模型）
給定一個問題，使用外部存儲器（“知識檢索器”，BERT & ScaNN）來檢索一組可能相關的文檔，并從問題和文檔中提取答案（“知識增強編碼器”，使用 BERT 進行范圍預測）
系統（KR 和 KAE）進行端到端優化
在多個開放領域問題回答基準測試上進行評估

與閉環問題回答（closed-book question answering）相對的是開放式問題回答（open-book question answering），在這種模式下，生成模型可以在生成之前、期間和之后利用外部存儲器。2020年，Google 的相關人員描述了一種名為 REALM 的此類系統的前身。REALM 執行的是抽取式而非生成式的問題回答。它有兩個組件：一個檢索器（retriever）和一個提取器（extractor）。

給定一個問題，REALM 使用 BERT 將該問題映射到一個嵌入（embedding）。然后，它使用 ScaNN 檢索一組與查詢相似的文檔。接下來，它使用一個基于 BERT 的范圍預測模型（span prediction model）來識別每個檢索到的文檔中最相關的段落，并返回整體上最相關的段落。

需要強調的是，檢索器和提取器/排名器（extractor/ranker）都是可微分的，因此可以共同進行優化。REALM在多個開放領域的QA基準測試上表現良好。

這篇論文： “REALM: Retrieval-Augmented Language Model Pre-Training”，主要探討了一種名為 REALM（Retrieval-Augmented Language Model）的預訓練語言模型。
論文地址：https://dl.acm.org/doi/pdf/10.5555/3524938.3525306

論文主要觀點：

序列到序列模型與注意力機制: 論文提到，在帶有注意力機制的序列到序列模型中，文本是通過選擇相關標記（tokens）來生成的。這產生了一組目標和源標記之間的無監督對齊。

檢索與編輯: 為了更好地解釋輸入文本中的變化并實現可控制的生成，論文提出了一種檢索與編輯（Retrieve-and-Edit）的框架。REALM 模型自主學習哪些文本對于降低困惑度（perplexity）最有用。

可擴展的基礎神經記憶: 論文提到，文檔索引可以被視為一種記憶，其中鍵是文檔嵌入。這與諸如產品鍵記憶（Product Key Memory）這樣的工作有共同的動機。

無監督語料對齊: 論文提出，REALM 也通過選擇相關的文檔來生成文本。這作為一種副產品，提供了預訓練語料和知識語料之間文本的無監督對齊。

預訓練和微調: REALM 在預訓練和微調階段采用了一種檢索-然后-預測的生成過程。預訓練任務是掩碼語言建模（Masked Language Modeling），而微調任務是開放式問答（Open-QA）。

論文對未來工作持樂觀態度，特別是在以下幾個方面：

結構化知識的泛化。
多語言設置，例如，使用高資源語言來更好地表示低資源語言。
多模態設置，例如，檢索可以提供文本中很少觀察到的知識的圖像或視頻。

FAIR（Facebook AI Research）

檢索增強生成（RAG）
兩個組件：檢索器（類似于REALM）和生成器（類似于REALM的提取器）。與REALM一樣，這兩個組件是共同學習的。
檢索器：使用BERT和FAISS（DPR系統）進行段落（而非文檔）檢索。
生成器：BART（Facebook的編碼器-解碼器語言模型）
對每一對問題-段落進行單獨的生成，產生一組答案（“假設”）；返回最可能的答案。

受到REALM的啟發，FAIR（Facebook AI Research）的一個團隊構建并測試了一個生成式的等價物，他們稱之為檢索增強生成（Retrieval Augmented Generation），簡稱RAG。RAG和REALM一樣都有一個神經檢索器（neural retriever），但與REALM檢索整個文檔然后作為一個單獨步驟進行段落提取不同，RAG在索引時進行段落分割，并在查詢時進行段落檢索。

每個候選段落（連同查詢）都被送到生成器中，生成的答案根據其預測的相關性進行排序，然后返回最可能的答案。同樣值得強調的是，RAG的所有部分都可以共同優化。

參考論文：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
地址：https://proceedings.neurips.cc/paper/2020/file/6b493230205f780e1bc26945df7481e5-Paper.pdf

RETRO

RETRO 的全稱是 “Retrieval-Enhanced Transformer for Document Retrieval”，即“用于文檔檢索的檢索增強變換器”。這是一種專注于文檔檢索任務的檢索增強生成模型。

RETRO：檢索增強生成模型
外部存儲器的容量比REALM和RAG大1000倍
生成器單獨處理問題和檢索到的文檔/段落（交叉注意力）。在生成過程中可能會多次進行檢索

“Retrieval-augmented generation”（檢索增強生成）使用外部記憶來引導生成過程，換句話說，它利用了參數化和非參數化知識。在REALM和RAG中，參數化和非參數化知識沒有耦合 - 生成模型在訓練時不利用檢索機制。DeepMind 的人員探索了將檢索引入訓練過程中的可能性。在RETRO（Retrieval-Enhanced Transformer）中，訓練數據中的文檔被分割成句子片段，并存儲在一個查找表中，其鍵是它們的BERT嵌入。在訓練過程中，一個句子片段通過嵌入空間中的相鄰句子片段進行增強。在檢索過程中，RETRO使用一個外部存儲器，其數據量大約比訓練中使用的數據量多一個數量級。它以分塊方式生成響應，從提示開始。對于每個塊，它從外部存儲器中檢索相鄰的句子片段以增強輸入，生成一個響應塊，然后迭代。

參考論文：Improving language models by retrieving from trillions of tokens
地址：https://browse.arxiv.org/pdf/2112.04426.pdf

檢索增強型GQA系統的架構

REALM和RAG都使用了語義索引作為它們的檢索組件。這樣做的優點是可以共同優化檢索、答案提取或生成，但目前尚不能擴展到千億級文檔的語境。我們可以通過增加一個詞匯檢索組件來增強語義檢索，從而獲得混合檢索器，同時我們仍然可以與生成模型共同優化語義檢索模型和結果融合模型。以下是這種系統的高級示意圖：

在這里插入圖片描述

超越記憶的知識

語言模型擅長記憶，但不擅長算術
思路：教會語言模型調用計算器 - 提取操作數（例如，從檢索到的文檔中提取）并選擇運算符
在DROP數據集上進行評估（與CoQa聯合訓練）：相對于先前最先進的方法，有50%的相對改進。

語言模型擅長記憶信息，但不能進行我們所謂的算法推理，例如學習長除法算法并在推斷時執行它。
因此，它們在進行算術推理方面表現不佳，比如從法國的人口中減去巴黎的人口以回答問題“有多少法國居民不住在巴黎？”。
谷歌的人員提出了一個想法，即教導語言模型如何使用外部工具，比如計算器。基本思路是教導模型從提示中提取數值量 - 即操作數，并訓練模型調用正確的運算符。這一方法在“Discrete Reasoning Over Passages”（DROP）任務中表現出色，相對于先前的最先進方法，取得了50%的改進，而DROP任務是一個需要進行算術推理的閱讀理解任務。

參考論文：Giving BERT a Calculator: Finding Operations and Arguments with Reading Comprehension
地址：https://aclanthology.org/D19-1609.pdf

泛化：工具增強的生成

計算器是“工具”的一個實例，它是語言模型可以利用的不可微分子系統（另一個示例是詞匯檢索系統）
學會將問題 x 翻譯成工具調用 t，將工具結果 r 翻譯成答案 y
迭代自我對弈：在少量（x,t,r,y）元組用于引導啟動和大量（x,y）對的情況下，學習兩個文本到文本的映射關系
可用于與推理引擎（例如 Wolfram Alpha）進行接口交互

谷歌的另一組人員概括了之前工作的核心思想：教導語言模型如何使用黑匣子工具

在這個背景下，工具是指一個非可微分的子系統，它接受輸入并產生輸出。示例包括符號推理系統，如Macsyma或Mathematica，或黑匣子檢索系統，如SABRE航班預訂系統。

一個核心假設是工具具有有限且可管理的一組操作，可以通過蠻力方法進行探索。學習任務是將問題映射到工具輸入，將工具輸出映射到答案。這是通過在一小部分（問題，工具輸入，工具輸出，答案）示例數據集上引導系統啟動，然后在一個更大的（問題，答案）對數據集上繼續訓練來完成的，系統將通過迭代自我對弈發現適當的輸入和輸出映射，這是強化學習的一種方法。

參考論文：TALM: Tool Augmented Language Models
論文地址：https://browse.arxiv.org/pdf/2205.12255.pdf

關于增強語言模型的進一步閱讀

最近由Meta的研究人員發表的非常全面的調查。從這篇文章中得出的主要結論是，語言模型是新的“中間件”——它們允許知識系統中的各個組件進行互操作，它們是將一切粘在一起的膠水。

參考論文：Augmented Language Models: a Survey
論文地址：https://arxiv.org/abs/2302.07842

關鍵挑戰

答案的忠實性

在理想情況下，生成式問答系統應該提供真實的答案。但“真實”是一個難以準確定義的概念，因此我們可以將目標設定為系統要“忠實”，也就是說，它的答案應該建立在從語料庫中檢索到的可信證據之上，最好這些證據來自可信的信息源。

在這篇名為《Increasing Faithfulness in Knowledge-Grounded Dialogue with Controllable Features》的論文中，提出了知識驅動對話的概念，并明確了三個期望：

生成的答案應該以客觀的方式呈現，不涉及個人趣事或情感。
生成的答案應該與潛在的證據具有高度的詞匯相似性，以確保與支持信息一致。
生成的答案應該在語義上與證據相符，以保證答案與支持文本的意義一致。

為了實現這些期望，研究人員對兩個預先訓練的序列到序列模型（GPT-2和T5）進行了微調，并為每個期望引入了控制標記，以指導模型的行為。在生成答案時，他們將所需的行為控制標記添加到提示中，以確保生成的答案符合期望。

通過對“Wizard of Wikipedia”數據集進行人工評估，研究人員發現，該系統在忠實性方面表現明顯優于基線預訓練模型。這表示他們的方法在知識驅動對話中提高了答案的可信度。

答案的歸因

當生成的答案與證據不符時，谷歌的研究人員在這篇 https://arxiv.org/abs/2210.08726 論文中介紹了一種名為“Retrofit Attribution using Research and Revision”（RARR）的機制，旨在主動修正不基于證據的生成文本。這一機制分為三個關鍵階段：

第一階段 - 研究階段：
在這一階段，使用一個名為“全面問題生成”（Comprehensive Question Generation，簡稱CQGen）的子系統，生成一組查詢，這些查詢涵蓋了給定生成文本的所有方面。這些查詢旨在幫助系統了解生成文本的各個方面。

第二階段 - 修訂階段：
在研究階段之后，通過使用標準的檢索系統（在這里是Google），獲取響應性文檔。然后，從每個文檔中提取最相關的段落。這些段落被用來與生成的文本進行比較，檢查是否存在不一致之處。如果發現生成文本的某些方面與提取的段落不符，RARR將對生成文本進行編輯，直到不存在不一致之處。

第三階段 - 歸因階段：
最后一個階段是歸因階段，其中RARR會標注生成文本的部分，以表明它們與哪些提取的段落相關。

總的來說，RARR的目標是通過生成問題、檢索文檔、比較和編輯生成文本，使生成的答案與支持證據相一致。這一機制通過三個階段的交互來實現，以糾正生成文本中的不一致性，確保答案更具可信度。這些階段中的協議模型和編輯模型都利用了一個生成模型，被稱為“PaLM”。通過這一方法，論文中介紹了一種提高生成式問答系統忠實性的方法。

正如我們在“重新思考搜索”一文中所提出的，++生成式問答應該是透明的——答案應該包含對支持答案的來源的引用++。

在這篇 https://browse.arxiv.org/pdf/2212.08037.pdf 論文中，谷歌的研究人員提出了歸因問題——即，在給定一個問題的情況下，系統會返回答案和歸因，即答案的來源引用。

在這篇論文中，作者首先提出了一個重要觀點，++即生成式問答應該具備透明性++，也就是說，生成的答案應該包含對支持答案的來源的引用。這個觀點是基于他們在之前的文獻中提出的，即搜索結果和答案的透明性對于用戶的信任和理解至關重要。

接著，研究人員在論文中明確定義了歸因問題，也就是在給定一個問題的情況下，系統應該返回兩個重要元素：答案和答案的來源引用，以便用戶能夠追溯答案的來源。

為了解決這一歸因問題，他們提出了一個評估框架，旨在評估生成式問答系統的性能。這個框架包括兩個關鍵方面：

人工評估：他們將人工評估視為黃金標準，即通過人工評價來確定系統的性能。這涉及到人類評價員評估生成的答案是否與其來源相一致，并對透明性進行評估。
自動評估：為了擴展規模并更全面地評估不同系統的性能，他們還使用了自動評估方法，其中包括了在之前的研究中提出的方法（如RARR論文中的方法）。這些方法用于自動比較生成的答案與其來源之間的一致性。

為了驗證他們的框架，研究人員對三類生成式問答系統進行了評估：

“先檢索再閱讀”：這類系統包括RAG和RETRO，它們首先執行信息檢索，然后生成答案。
“事后檢索”：這類系統受到RARR的啟發，嘗試在生成后修正不一致性。
“LLM作為檢索器”：這類系統使用大規模語言模型（如DSI和NCI）作為信息檢索器。

他們使用了自然問題數據集的部分內容和維基百科作為語料庫，并采用了Exact Match、AIS（可歸因于已識別來源）和AutoAIS等評估指標。

最終，研究人員得出結論，"先檢索再閱讀"的系統表現最佳，即檢索增強生成仍然是生成式問答的最佳方法。這個發現對于指導生成式問答系統的發展和改進具有重要意義。

OpenAI

主要要點：

基于網絡的長篇問題回答系統
采用Bing搜索API進行檢索增強生成
使用GPT-3作為預訓練語言模型
使用強化學習與人類反饋（RLHF）進行微調：人工編寫的答案（“演示”）和人工兩兩比較評估（“比較”）
答案帶有參考來源（歸因）
預示了ChatGPT（但受到的關注較少）

在2021年12月，OpenAI發布了一篇關于WebGPT的論文。

論文地址：https://browse.arxiv.org/pdf/2112.09332.pdf

WebGPT是一個用于長篇問題回答的系統，使用GPT-3作為生成模型，并使用Bing網絡搜索API作為信息檢索器。

這個系統的核心組件是GPT-3，它是一個預訓練的語言模型，以及Bing網絡搜索API，用于檢索相關信息。WebGPT的設計目標是能夠在網絡瀏覽環境中提供長篇問題的答案，并且可以充當用戶在網絡上搜索信息時的伴侶。

WebGPT的訓練過程包括兩個關鍵方面：演示和對比。

在演示方面，付費工作者會接收一個問題，并被要求使用網絡搜索來找到潛在的答案，然后編寫答案。這些搜索和答案被稱為"演示"，并且它們用于訓練WebGPT，使其能夠模仿這一過程。

在對比方面，WebGPT會被要求生成兩個不同的備選答案，然后另一組付費工作者會被要求比較這兩個答案并選擇更好的一個。這種對比過程提供了不同類型的訓練數據。由于人類更容易進行比較，因此可以生成更多的對比示例，這是訓練中的一個重要方面。

總的來說，這種方法被稱為"強化學習與人類反饋"，它在訓練生成式問題回答系統方面發揮了關鍵作用。值得注意的是，WebGPT在時間上早于ChatGPT，但在機器學習社區之外并沒有受到太多關注。這一方法的推出為解決長篇問題回答提供了有力的工具和思路。

Google Research

用于對話應用的大型（多達1370億參數）語言模型；僅解碼器架構
經過微調以提高合理性、特定性、趣味性、安全性、事實性、工具增強以及多跳問答能力
預告了 Bard

谷歌（其中有大量人員）發表了一篇關于LaMDA的論文。

論文地址：https://browse.arxiv.org/pdf/2201.08239.pdf

LaMDA 這是一個專為對話應用而設計的大型語言模型。LaMDA是一個由不同規模的模型組成的系列。它經過訓練，旨在執行生成式和判別式任務。
給定一個問題，它生成潛在的回應，然后對這些回應進行安全性過濾，基于外部知識源進行支持，并重新排名以找到最高質量的回應。
該團隊為對話系統引入了一系列關鍵目標，包括合理性、特定性和趣味性等質量指標；安全性指標；基于事實的度量指標；信息度量指標；以及引用準確性指標。
LaMDA 經過微調，以預測這些指標，從而使在生成式環境中能夠引導所需的行為。

生成模型和網絡生態系統

生成式人工智能對網絡和搜索生態系統的影響

一些網站可能不再雇傭人來寫內容，而是使用計算機生成內容。這種生成的內容有可能被用來訓練未來的計算機程序，形成一種循環效應。
搜索引擎中的直接答案可能會減少人們通過搜索引擎訪問其他網站的次數，尤其是當人們尋找信息時。這可能對那些靠搜索引擎引薦流量維持業務的網站產生影響，他們可能需要尋找其他賺錢的方式。
直接答案可能會改變人們與搜索引擎的互動方式，因為現在人們可以直接從搜索結果中獲得答案，而不必再點擊其他鏈接。這可能會導致人們更專注于從獲取信息到實際購買的過程。

我們難以準確預測生成模型對網絡生態系統的完整影響，但其中一些變化已經開始顯現。

首先，生成語言模型將改變作者的性質。作者們將使用生成模型來協助他們撰寫流暢的文章。這本身并不是壞事，因為寫出流暢的文章有助于讀者。問題出現在生成內容大規模生產時，沒有人類編輯參與的情況下。

目前，有一整個行業稱為“內容農場”，雇傭低薪工人大量生產可盈利的內容。預測這個行業將成為首批采用無人參與的內容創作方式的企業之一，從而在互聯網上涌現大量合成內容，這些內容可能屬實性存疑。如果我們用這些內容來訓練下一代語言模型，可能會出現問題，甚至可能導致“模型崩潰” 。

其次，直接答案有可能減少搜索引擎的流量引薦 - 即來自搜索結果鏈接的流量。內容創作者需要謀生，而且通常通過將對用戶有用的內容與對內容提供商有用的內容捆綁在一起來實現謀生。換句話說，他們依賴于流向他們網站的流量。如果內容創作仍然是一個有盈利的業務，對所有人都有好處，這可能意味著商業模式需要發展和改進。

最后，直接答案將影響用戶與搜索引擎的互動方式。用戶在尋求信息時更不太可能離開搜索引擎；另一方面，由于降低了信息獲取的成本，用戶可能會進行更長更深入的搜索。預計將會出現更多關注更長更深入的搜索，包括從信息獲取到采取行動的過程。

對生成的內容進行訓練會導致模型崩潰

最近的研究表明，對大量生成的內容進行訓練會導致“模型崩潰”。
“模型崩潰”可分為兩種情況：早期模型崩潰和晚期模型崩潰。
“模型崩潰”的兩個根本原因是統計逼近誤差和功能逼近誤差。
這揭示了遞歸訓練生成模型存在固有的限制。

在最近發表的 https://browse.arxiv.org/pdf/2305.17493.pdf 這篇論文中，研究人員進行了一項關于使用生成內容來訓練后繼模型的研究。
他們發現，++許多不同類型的生成模型在遞歸訓練其自身輸出時會出現“模型崩潰”的問題++。
這種模型崩潰有兩種表現形式，即早期模型崩潰和晚期模型崩潰，分別涉及信息丟失和分布收斂問題。研究人員提出了兩個根本原因，分別是統計逼近誤差和功能逼近誤差，這些誤差源于訓練數據和模型表現力的限制。
研究的結論是，人工編寫的訓練數據對于訓練生成式語言模型至關重要，因此需要一種方法來篩選出高質量的訓練數據以改善模型的質量。既人工編寫的訓練數據對于訓練生成式語言模型至關重要，我們需要一種機制來“分清是非”。

人類很難分辨語言模型（LM）生成的內容

許多原因需要識別機器生成的內容，例如避免將其用作未來語言模型的訓練示例。
人類不擅長檢測機器生成的內容 - 我們能否希望判別模型在這項任務上表現出“超人類”的性能？

在我們深入討論基于機器學習的檢測機器生成內容之前，你可能會好奇人類是否能夠可靠地識別它。
事實證明，有一些證據表明這并不容易。康奈爾大學和斯坦福大學的研究人員曾研究過人們是否能夠區分人類寫的內容和機器人寫的內容。
他們進行了一項研究，讓4,600名參與者看一些自我介紹的文本（比如在LinkedIn或約會應用上的自我介紹），然后讓他們判斷哪一個是人類寫的，哪一個是機器人寫的。
結果顯示，測試對象的準確率與隨機猜測的準確率接近，也就是說他們無法很好地分辨。
然而，有趣的是，多個測試對象在如何判斷自我介紹的性質上達成了一致，這表明人們可能采用了一些共同但不太準確的方法來識別機器生成的內容。
這本身并不是問題；畢竟，有很多任務在其中，機器表現出了超越人類的性能。
所以，問題是我們是否能夠找到某種機器生成內容的“特征”或“痕跡”。

檢測生成的內容

每一代生成式語言模型都會引發一系列檢測器，用來檢測此類內容——經典的“軍備競賽”情景
DetectGPT：一種用于檢測生成內容的“白盒子”檢測器，假設模型生成最可能的文本
需要文本在模型下的對數似然值（例如，通過得分API獲得）。它會擾動文本（使用例如T5），然后比較對數概率
在有少量由合作方訓練的模型的情況下有效；如果有大量沒有得分API的“流氓”模型存在，則不現實

在檢測機器生成內容的問題上，已經進行了多次嘗試。事實上，商業工具如ZeroGPT和Originality.ai已經用于檢測GPT生成的內容。但如何將檢測推廣到多個生成器家族呢？斯坦福的研究人員開發了一種技術，該技術基于這樣一個假設：一個生成器（我們稱之為G）生成的文本最可能符合G的模型。對生成文本的輕微擾動在G的模型下可能性較低，而對來自不同來源（例如人類）的文本的輕微擾動在G的模型下可能性較高或較低。因此，如果我們有一種方法來確定文本T在G的模型下的對數似然值（例如，通過調用G提供的得分API），我們就有了一個測試協議：給定一個文本T，將T的對數似然值與許多T的擾動的對數似然值進行比較。這種方法適用于所有大型模型提供者都負責并合作的世界。如果存在大量沒有得分API的“流氓”模型，這種方法就會失效；而且它不具備對抗措施（例如，對手擾動生成的文本）的魯棒性。

參考論文地址：https://proceedings.mlr.press/v202/mitchell23a/mitchell23a.pdf
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
主要觀點：

論文關注了大型語言模型（LLM）生成的文本在某些情境下（如學生作文和新聞報道）可能替代人工勞動的問題。
指出人們在分類機器生成與人類編寫的文本方面的表現僅略好于隨機選擇。
因此，研究者開始考慮使用自動檢測方法，這些方法可能識別出人們難以識別的信號。

實驗與結果

論文進行了一個實驗，模擬了對已經被大量修訂的模型樣本的檢測問題。
結果顯示，即使在模型樣本中近四分之一的文本已被替換，DetectGPT仍然能保持超過0.8的檢測AUROC（Area Under the Receiver Operating Characteristic Curve）。

結論

DetectGPT在所有修訂級別上都表現出最強的檢測性能。
熵基線在這種設置下表現出令人驚訝的強大性能，甚至在高達24%的替換率下稍微提高了檢測性能。

內容質量可以用來檢測生成的內容嗎?

巴赫里（Bahri）等人在 2021 年的研究中搜索了包含5億個頁面的 CommonCrawl 語料庫，使用了針對 GPT-2 進行微調的檢測器來尋找生成的內容。
發現這些檢測器也適用于檢測低質量頁面。
尚不清楚這些結果是否適用于更新的生成模型，如GPT-4或PaLM 2。如果適用，語言質量是否可以用作檢測“流氓”生成模型的信號？

在一項 2021 年的研究中，Google 的研究人員研究了生成內容與低質量內容之間是否存在關聯。他們訓練了兩個檢測器，用于識別 GPT-2 生成的內容，并將這些檢測器應用于 CommonCrawl 語料庫中的一個包含5億個網頁的子集。他們的發現是，用于檢測機器生成內容的這些檢測器也能預測網頁的質量，具體來說是文章的正確性和流暢度。然而，隨著生成語言模型的不斷發展，例如 GPT-4 或 PaLM 2，目前尚不清楚這些發現是否同樣適用。如果適用，我們是否可以將語言質量作為一種預測特征，用來識別并標記由“流氓”模型生成的內容，尤其是那些我們無法深入了解其內部機制的模型。

論文地址：https://dl.acm.org/doi/pdf/10.1145/3437963.3441809
“Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study”
主要觀點：

論文提出，用于區分人類和機器生成文本的檢測器可以有效地預測網頁的語言質量，其性能超過了基線的監督式垃圾郵件分類器。
通過對五億個網頁進行低語言質量檢測，論文觀察到了低質量內容的有趣的主題和時間模式。
論文發現，許多低質量內容要么是（1）機器翻譯的文本，（2）論文工廠，（3）搜索引擎優化嘗試，或者（4）不適合工作場所（NSFW）的內容。

論文希望研究人員能從其大規模的網絡分析中找到有用的信息，并希望他們能利用一個合理的語言質量分類器可以僅通過人類文本語料庫來構建的見解。

直接答案會如何影響引薦流量？

內容創作者或提供者通常將有價值的內容與盈利手段相結合，如廣告、推廣鏈接、產品推廣、捐贈請求、免費模式、許可、忠誠度獎勵等。
許多免費網絡內容的創作者依賴搜索引擎的引薦流量來支持他們的努力。
悲觀觀點：直接答案減少了內容提供者的引薦流量，影響了他們的盈利能力。
樂觀觀點：直接答案中的歸因會導致更高質量的引薦，總體上更有價值。
現實觀點：預計會有各種多樣的商業模式和收入來源。

許多內容創作者采用一種叫做“內容捆綁”的策略：他們通過提供對用戶有用的內容來吸引用戶訪問他們的網站，同時也在此過程中為自己提供有益的內容，比如廣告、產品推廣、電子商務合作鏈接、募捐請求、免費與高級內容混合等多種方式。

正如前面提到的，如果搜索引擎直接回答更多問題，這將減少用戶通過搜索引擎訪問內容創作者網站的機會。如果被切斷的流量主要是質量較低的，也就是不太可能對網站上的捆綁內容產生興趣的用戶，那問題就不太大。實際上，如果搜索引擎能夠提供更相關的引薦，那么整體流量的價值可能會增加。

總的來說，我認為內容創作者將越來越多地依賴多種收入來源，而不僅僅是廣告收入。關于這個主題的學術研究有限，我認為這是一個被忽視的機會，因為在這個領域有許多有趣的技術問題等待解決。

更好的支持決策過程

更好地支持購買流程的示例：產品比較
了解產品類別中的有趣特性
為每個產品提取特性值
對于給定的一對產品，對比最相關的特性

為了提升搜索引擎對用戶和整個網絡環境的價值，建議不僅僅關注解決單一問題，而應該全面考慮用戶在尋找信息時的整個過程。以產品比較為例，用戶通常會在多個方面對不同選項進行對比，這些選項可能是各種產品、服務，甚至是政治選項等。

為了更好地滿足這一需求，開發了一個名為“STRUM”的原型系統。這個系統能自動找出某一產品類別中用戶關心的各個方面，并從各種信息源中提取這些方面的具體信息。最終，系統會突出顯示那些在兩個不同選項之間有顯著差異的方面，以幫助用戶做出更加全面和明智的決策。

這只是一個例子，但它展示了如何可以通過深入地支持用戶在一個可能會持續一段時間并最終可能導致實際交易的信息尋求過程中，來增加搜索引擎的價值。

總結

直接回答降低了信息檢索的Delphic成本：通過使用生成模型和信息融合，系統能夠更直接、更準確地回答用戶的問題，從而降低了用戶在尋找信息時的成本和復雜性。
回答定位和來源歸因：系統不僅能生成答案，還能準確地指出答案來自哪里，這對于用戶信任和驗證信息非常重要。
系統將變得更加有狀態：未來的信息檢索系統將能記住用戶的過去互動，并可能使用這些信息來提供更個性化的服務。
傳統信息檢索的重要性：盡管有了新的技術和方法，傳統的信息檢索技術（如索引和語義檢索）仍然非常重要，并且在某些方面還有很多未解決的問題和新的研究機會。

首先，信息檢索研究的很大一部分都集中在降低信息尋求過程的Delphic成本上。直接回答能降低Delphic成本，而生成模型極大地提高了我們提供直接回答的能力，因為它們使我們能夠將來自多個源文檔的信息融合成一個單一的答案。
其次，我們在回答定位和來源歸因方面取得了很大進展，相應的基準測試也正在出現，以衡量這些方面的進展。第三，從問題回答系統的未來來看，這些系統將變得更加有狀態。它們將支持多輪互動，支持您在長期的旅程中，并且能夠與其他系統進行互動——無論是第一方還是第三方系統。
最后，也是最重要的一點，傳統信息檢索并沒有死！生成系統將繼續依賴外部存儲，包括傳統和神經檢索系統。語義檢索是一個充滿活力的研究領域，有很多尚未解決的研究問題。許多傳統的信息檢索問題應該重新審視，特別是考慮到檢索增強生成。例如，檢索增強系統更多地從多樣性的結果集中受益，而不僅僅是精度為1的結果。同樣，段落提取現在用于提供最有用的提示，而不是讓用戶快速跳過不相關的結果。