引言
近年來,大型語言模型(LLM)取得了顯著的進展,并在各個領域展現出強大的能力。然而,LLM也存在一些局限性,尤其是在知識庫方面。由于訓練數據的局限性,LLM無法獲取最新的知識,也無法涵蓋所有領域的專業知識。為了克服這些局限性,LLM需要依賴外部搜索來增強性能和保證輸出結果的可靠性。
本文將深入探討搜索技術如何增強LLM的能力,并分析不同搜索引擎對LLM輸出結果的影響。
大型語言模型知識庫的局限性
LLM的知識庫主要來自于其訓練數據,而訓練數據通常是靜態的,無法實時更新。這導致LLM的知識庫存在以下需要搜索來彌補的局限性:
- 知識更新的滯后性: LLM的知識庫更新速度較慢,無法及時反映最新的信息。例如,如果LLM的訓練數據截止到2021年9月,那么它就無法回答關于2023年蘋果WWDC發布會的問題。
- 知識覆蓋范圍的局限性: LLM的訓練數據通常涵蓋通用知識和常識性知識,但對于特定領域的專業知識,LLM可能缺乏足夠的了解。例如,LLM可能無法回答關于數據庫行業專業工具的問題。
- 知識深度的不足: LLM的知識庫雖然包含大量信息,但在某些情況下,其知識深度可能不足以滿足用戶的需求。例如,LLM可能無法回答關于特定歷史人物的家族關系的復雜問題。
為了克服這些局限性,將搜索技術與LLM結合成為了一個重要的解決方案。通過實時搜索補充最新知識、擴展專業領域覆蓋、增加信息可靠性,可以顯著提升LLM的實用價值。
搜索:大型語言模型的重要補充
搜索技術可以有效地彌補LLM知識庫的不足,提升信息準確性,增強任務處理能力。目前流行的檢索增強生成(RAG)技術就是一種依賴LLM使用現有(可擴展的)知識文獻生成答案的技術。具體來說,搜索技術可以通過以下方式增強LLM:
- 提供實時信息: 搜索引擎可以從互聯網上獲取最新的信息,為LLM提供實時更新的知識庫。
- 擴展知識覆蓋范圍: 搜索引擎可以訪問各種信息源,包括網頁、新聞、書籍、論文等,從而擴展LLM的知識覆蓋范圍。
- 增加知識深度: 搜索引擎可以深入挖掘信息,為LLM提供更詳細和全面的知識。
- 提供可靠的信息來源: 搜索引擎可以幫助LLM訪問和利用特定領域或組織的內部知識,無需重新訓練模型。
此外,LLM與搜索技術結合可以創建AI智能體,實現多種工具的混合使用,甚至多智能體協作。
搜索引擎的關鍵要素
我們現在已經明確了搜索引擎的質量對LLM輸出結果的重要性。然而不同的搜索引擎在以下關鍵要素上存在差異,這些差異會影響LLM獲取信息的質量和輸出結果的準確性:
關鍵要素 | 描述 |
---|---|
深度 | 指搜索引擎能夠挖掘信息的深度。深度越深,LLM就能獲取更詳細和全面的知識。 |
廣度 | 指搜索引擎覆蓋的信息范圍。廣度越廣,LLM就能獲取更多領域的信息。 |
時效性 | 指搜索引擎更新信息的頻率。時效性越高,LLM就能獲取更及時的信息。 |
結果驗證 | 指搜索引擎驗證搜索結果準確性的能力。結果驗證越可靠,LLM獲取的信息就越準確。 |
例如,Google Scholar偏向學術領域,在搜索學術論文時,深度和結果驗證方面表現更佳。而Twitter則更注重信息的時效性,可以幫助用戶快速獲取最新的新聞和事件。電商平臺的搜索引擎則更關注商品的相關性和轉化能力。這些差異都會影響LLM的輸出結果。
橫向對比分析:DeepSeek、ChatGPT、Gemini Advanced
為了更好地理解不同搜索引擎對LLM輸出結果的影響,我們選取了三款具有代表性的LLM平臺進行對比分析:DeepSeek、ChatGPT和Gemini Advanced,其中Gemini Advanced包括Gemini 2.0 Flash Thinking + Google搜索和Gemini 1.5 Pro with Deep Research這兩種方式。當然,為了簡化問題,三個平臺默認都是只使用網頁搜索來獲取信息。
平臺 | 模型上下文長度 | 使用的搜索引擎 | 每次任務返回的搜索條目數 | 搜索結果的范圍 | 時效性 | 結果驗證 |
---|---|---|---|---|---|---|
DeepSeek的DeepSeek-R1聯網搜索 | 128K | 某中文搜索引擎,平臺未披露 | 根據任務復雜度,復雜任務可搜索50條左右 | 國內網站 | 一般 | 不支持 |
ChatGPT的O3-mini聯網搜索 | 200K | Bing搜索 | 未提供搜索條目信息,從引用結果估計為20條左右 | 全球網站 | 一般 | 不支持 |
Gemini Advanced的2.0 Flash Thinking + Google搜索 | 1M | Google搜索 | 未提供搜索條目信息,從引用結果估計為10條左右 | 全球網站 | 較好 | 支持 |
Gemini Advanced的1.5 Pro with Deep Research | 2M | Google搜索 | 根據任務復雜度,復雜任務可搜索100條以上 | 全球網站 | 較好 | 不支持 |
在上述橫向對比分析的表格中,各個維度對模型輸出的影響如下:
-
模型上下文長度: 上下文長度越大,模型能夠處理的搜索返回信息量也就越多,從而有助于生成更具連貫性和深度的輸出。這對于復雜任務尤為重要,比如Gemini 1.5 Pro with Deep Research用的2M上下文長度,可以一次處理大量搜索的返回結果。
-
使用的搜索引擎: 不同的搜索引擎會影響信息的獲取質量。高質量的搜索引擎能夠提供更加準確、全面的信息來源,從而提升模型輸出的準確性和可靠性。
-
每次任務返回的搜索條目數: 搜索條目數決定了模型能獲取到的信息量。較多的搜索條目可以增加信息的多樣性,不過也可能導致信息過載,影響模型的輸出效率,對模型的處理能力也是一個挑戰。
-
搜索結果的范圍: 范圍越廣,模型能夠訪問的信息源就越多樣化,有助于生成更全面的回答。
-
時效性: 時效性高的搜索引擎能夠提供最新的信息,幫助模型生成及時更新的內容,而不是用過時的信息來回答。比如當用戶搜索某投資標的最近的價格信息時,時效性高的搜索引擎會提供更優的回復。
-
結果驗證: 具有結果驗證能力的搜索引擎可以提供經過驗證的準確信息,從而提高模型輸出的可靠性和可信度。比如Gemini Advanced的2.0 Flash Thinking支持基于Google搜索的結果再次驗證模型輸出的信息,從而增加模型輸出的可信度。
結論與展望
寫到這里,大家應該明白為什么對于同一問題不同平臺的輸出結果可能不一樣的根本原因了,除了模型能力的差異,還有搜索引擎使用上的差異。搜索引擎作為AI智能體的一個重要工具,可以有效地彌補LLM知識庫的不足,提升信息準確性,增強任務處理能力。
最近流行的各家Deep Research智能體的本質其實就是各種推理大模型和各種搜索技術的組合。從原理上,如果想讓AI研究員真正發揮出最佳實力,最理想的就是用最強大的推理模型加上最強大的搜索引擎,使用最長的上下文,處理大量最新的有深度也有廣度的資料,而且模型還要能自動驗證輸出的合理性。而想做到這一點,可能任何一家公司都沒法面面俱到,而且還要面對成本的挑戰,這也是為什么只有200美金每月的ChatGPT Pro訂閱才能無限量使用o3-mini Deep Research功能的原因。
當然,本文只是分析了搜索引擎對大模型輸出的影響,如果要做AI研究員,自然還有研究計劃制定,研究分步驟完成等細節任務的劃分和執行,一般的聊天機器人是沒有這個多輪任務自動化的智能體能力的。本問題提到的三個平臺,只有Gemini Advanced的1.5 Pro with Deep Research可以根據用戶的需求自動生成研究計劃,然后分步撰寫研究報告,算是一種AI研究員智能體,所以接下來我也會繼續深入研究各家的Deep Research產品,甚至是基于開源項目設計一個適合自己需求的AI研究員智能體。