最近谷歌發布了 Gemini 2.0 Flash,說實話,它可能是目前市面上性價比最高的 AI 模型了。
許多人寫過關于 RAG 可能不再需要的文章,也可以看到人們在討論它。有些人理解,有些人不理解,還有些人非常擔心。
所以讓我們解釋一下:
RAG 到底是什么?
為什么它可能不再像我們過去認為的那樣必要?
如果你正在構建 AI 相關的東西 —— 或者只是好奇 —— 為什么你應該關心它?
RAG 到底是什么?
如果你是 AI 領域的新手,那么請記住,RAG 代表檢索增強生成(Retrieval-Augmented Generation)。它一直是一種常用技術,用于幫助 ChatGPT 等 AI 模型訪問其原始訓練數據中沒有的外部信息。
你可能在不知不覺中見過它的實際應用。
用過 Perplexity 或必應的 AI 搜索嗎?當它們在回答你的問題時進行搜索,這就是 RAG 在起作用。甚至當你將文件上傳到 ChatGPT 并詢問相關問題時 —— 這也是 RAG。
RAG 如此重要的原因是,AI 模型過去的記憶窗口非常小。回到 2023 年初,當時模型只能處理約4000 個 token(相當于 6 頁文本)。這意味著如果你有大量信息,而 AI 無法 “記住” 所有內容 —— 你必須將其分解,以特殊方式存儲(嵌入、向量數據庫、分塊等),然后在需要時檢索正確的部分。
但現在?忘了吧。
這是傳統 RAG 的處理流程:
Gemini 2.0 Flash(RAG殺手?)
是的,你沒聽錯!如今所有AI模型都能一次性處理海量信息。
但Gemini 2.0呢? 它能處理高達100萬token。有些模型甚至達到了200萬。
這意味著你不再需要將數據切成小塊并研究如何檢索——現在可以直接將完整數據導入模型,讓它一次性對所有內容進行推理。
最關鍵的是——這些新模型不僅記憶容量更大,還精準得多。谷歌的最新模型擁有我們見過的最低幻覺率(即“編造內容”的概率)。 僅憑這一點就帶來了巨大改變。
Gemini 2.0直接文檔處理
為什么這會顛覆一切?
舉個真實場景的例子:
假設你有一份財報電話會議記錄——長達5萬token(非常龐大)。 如果使用傳統RAG,你必須將其拆分成512-token的小塊并存儲。 當有人提問時,你需要抓取最相關的片段并輸入AI。
問題在于:你無法對整個文檔進行全局推理。
試想這樣一個問題:
“這家公司的營收與去年相比如何?”
如果只抓取小片段,你可能無法獲得完整信息。但如果將整個文檔記錄輸入Gemini 2.0呢?它能通覽所有內容——從CEO的開場白到中間的財務數據,再到他們回答分析師問題的內容——并給出更優質、更周全的答案。
所以當我們說“RAG已死”時,意思是:
傳統RAG處理方式(將單個文檔拆分成塊)已經過時了。
你不再需要它。只需將所有內容喂給大模型,讓它施展魔法即可。
不過,RAG 并未完全消亡
現在,有人會問:
“如果我有10萬份文檔呢?”
這個問題很合理!
如果你在處理海量數據集(比如蘋果過去十年的所有財報),仍然需要一種篩選方法。但即便如此,處理方式也不同了:
-
先搜索相關文檔(例如只提取2020-2024年的蘋果財報會議記錄)。
-
將完整文檔并行分別輸入AI模型。
-
合并響應并生成最終答案。
這種方法比傳統分塊法精準得多——它讓AI能夠真正基于完整文檔進行思考,而不是被迫處理碎片化片段。
下圖展示了處理大型文檔集的現代方法流程圖:
核心結論
如果你在構建AI產品或進行實驗,記住要保持簡單,很多人會在沒必要時把事情復雜化。只需將完整文檔上傳到Gemini 2.0(或任何大上下文AI模型),讓它處理推理即可。
一年后情況會變嗎?很可能。AI模型正變得更便宜、更智能、更快。但就目前而言,傳統RAG方法已成為過去式。把數據扔進谷歌的新模型,用更少的麻煩獲得更好的結果。如果你有文檔需要分析,不妨試試——可能會驚訝于一切變得如此簡單。