僅靠prompt，Agent難以自救

Alexander的觀點很明確：未來 AI 智能體的發展方向還得是模型本身，而不是工作流（Work Flow）。還拿目前很火的 Manus 作為案例：他認為像 Manus 這樣基于「預先編排好的提示詞與工具路徑」構成的工作流智能體，短期或許表現不錯，但長期必然遇到瓶頸。這種「提示驅動」的方式無法擴展，也無法真正處理那些需要長期規劃、多步驟推理的復雜任務。

而下一代真正的 LLM 智能體，則是通過「強化學習（RL）與推理（Reasoning）的結合」來實現。文章舉例了 OpenAI 的 DeepResearch 和 Anthropic 的 Claude Sonnet 3.7，說明未來智能體會自主掌控任務執行的全過程，包括動態規劃搜索策略、主動調整工具使用等，而不再依靠外部提示或工作流驅動。這種轉變意味著智能體設計的核心復雜性將轉移到模型訓練階段，從根本上提升模型的自主推理能力，最終徹底顛覆目前的應用層生態。

01?模型即產品（The Model is the Product）

過去幾年里，人們不斷猜測下一輪 AI 的發展方向：會是智能體（Agents）？推理模型（Reasoners）？還是真正的多模態（Multimodality）？

但現在，是時候下結論了：

AI 模型本身，就是未來的產品。

目前，無論是研究還是市場的發展趨勢，都在推動這個方向。

為什么這么說？

通用型模型的擴展，遇到了瓶頸。GPT-4.5 發布時傳遞的最大信息就是：模型的能力提升只能呈線性增長，但所需算力卻在指數式地飆升。盡管過去兩年 OpenAI 在訓練和基礎設施方面進行了大量優化，但仍然無法以可接受的成本推出這種超級巨型模型。
定向訓練（Opinionated training）的效果，遠超預期。強化學習與推理能力的結合，正在讓模型迅速掌握具體任務。這種能力，既不同于傳統的機器學習，也不是基礎大模型，而是某種神奇的第三形態。比如一些極小規模的模型突然在數學能力上變得驚人強大；編程模型不再只是簡單地產生代碼，甚至能夠自主管理整個代碼庫；又比如 Claude 在幾乎沒有專門訓練、僅靠非常貧乏的信息環境下，竟然也能玩寶可夢。
推理（Inference）的成本，正在極速下降。DeepSeek 最新的優化成果顯示，目前全球所有可用的 GPU 資源，甚至足以支撐地球上每個人每天調用一萬個頂尖模型的 token。而實際上，目前市場根本不存在這么大的需求。簡單賣 token 賺錢的模式已經不再成立，模型提供商必須向價值鏈更高層發展。

但這個趨勢也帶來了一些尷尬，因為所有投資人都將寶壓在了「應用層」上。然而，在下一階段的 AI 革命中，最先被自動化、被顛覆的，極有可能就是應用層。

02?下一代 AI 模型的形態

過去幾周，我們看到了兩個典型的「模型即產品」的案例：OpenAI 推出的 DeepResearch 和 Anthropic 推出的 Claude Sonnet 3.7。

關于 DeepResearch，很多人存在誤解，這種誤解隨著大量仿制版本（開源和閉源）的出現，變得更嚴重了。實際上，OpenAI 并非簡單地在 O3 模型外面套了層殼，而是從零開始訓練了一個全新的模型*。

*OpenAI 的官方文檔：https://cdn.openai.com/deep-research-system-card.pdf

這個模型能直接在內部完成搜索任務，根本不需要外部調用、提示詞或人工流程干預：

「該模型通過強化學習，自主掌握了核心的網頁瀏覽能力（比如搜索、點擊、滾動、理解文件）……它還能自主推理，通過大量網站的信息合成，直接找到特定的內容或生成詳細的報告。」

DeepResearch 不是標準的大語言模型（LLM），更不是普通的聊天機器人。它是一種全新的研究型語言模型（Research Language Model），專為端到端完成搜索類任務而設計。任何認真用過這個模型的人都會發現，它生成的報告篇幅更長，結構嚴謹，內容背后的信息分析過程也極為清晰。

相比之下，正如 Hanchung Lee 所指出*的，其他的 DeepSearch 產品，包括 Perplexity 和 Google 版，其實不過就是普通模型加了一點額外的小技巧：

*https://leehanchung.github.io/blogs/2025/02/26/deep-research/

「雖然谷歌的 Gemini 和 Perplexity 的聊天助手也宣稱提供了『深度搜索』的功能，但他們既沒有公開詳細的優化過程，也沒有給出真正有分量的量化評估……因此我們只能推測，它們的微調工作并不顯著。」

Anthropic 的愿景也越來越明確。去年 12 月，他們給出了一個頗有爭議，但我認為相當準確的「智能體」定義*。與 DeepSearch 類似，一個真正的智能體必須在內部獨立完成任務：「智能體能夠動態地決定自己的執行流程和工具使用方式，自主掌控任務的完成過程。」

*Anthropic 的定義：https://www.anthropic.com/research/building-effective-agents

但市面上大多數所謂的智能體公司，目前做的根本不是智能體，而是「工作流」（workflows）：

也就是用預先定義好的代碼路徑，串聯 LLM 與其他工具。這種工作流仍然有一定價值，尤其是在特定領域的垂直應用上。但對于真正從事前沿研究的人來說，很明顯：未來真正的突破，必須是直接從模型層面入手，重新設計 AI 系統。

Claude 3.7 的發布，就是一個實實在在的證明：Anthropic 專門以復雜的編程任務為核心訓練目標，讓大量原本使用工作流模型（比如 Devin）的產品，在軟件開發（SWE）相關的評測中表現大幅提升。

再舉一個我們公司?Pleias?更小規模的例子：

我們目前正在探索如何徹底自動化 RAG（基于檢索的生成系統）。

現階段的 RAG 系統由許多復雜但脆弱的流程串聯而成：請求路由、文檔切分、重排序、請求解釋、請求擴展、來源上下文理解、搜索工程等等。但隨著模型訓練技術的進步，我們發現完全有可能把這些復雜流程整合到兩個相互關聯的模型中：

一個專門負責數據準備，另一個專門負責搜索、檢索、生成報告。這種方案需要設計一套非常復雜的合成數據管道，以及完全全新的強化學習獎勵函數。

這是真正的模型訓練，真正的研究。

03?這一切對我們意味著什么？

意味著復雜性的轉移。

通過訓練階段預先應對大量可能的行動和各種極端情況，部署時將變得異常簡單。但在這個過程中，絕大部分價值都將被模型訓練方創造，并且最終被模型訓練方所捕獲。

簡單來說，Anthropic 想要顛覆并替代目前的那些所謂「智能體」工作流，比如像 llama index 的這種典型系統：

Llama Index Basic Agent

轉變為這種完全模型化的方案：

Claude Agent

04?模型供應商與應用開發商的蜜月期結束了

目前 AI 的大趨勢已經明朗：

未來 2-3 年內，所有閉源 AI 大模型提供商都會停止向外界提供 API 服務，而將轉為直接提供模型本身作為產品。

這種趨勢并非猜測，而是現實中的多重信號都指向了這一點。Databricks?公司生成式 AI 副總裁 Naveen Rao 也做了清晰的預測：

在未來兩到三年內，所有閉源的 AI 模型提供商都會停止銷售 API 服務。

簡單來說，API 經濟即將走向終結。模型提供商與應用層（Wrapper）之間原本的蜜月期，已徹底結束了。

市場方向可能的變化：

Claude Code 和 DeepSearch都是這種趨勢的早期技術與產品探索。你可能注意到，DeepSearch 并未提供 API 接口，僅作為 OpenAI 高級訂閱的增值功能出現；Claude Code 則只是一個極為簡單的終端整合。這清晰表明，模型廠商已開始跳過第三方應用層，直接創造用戶價值。
應用層企業開始秘密地布局模型訓練能力。當前成功的應用型公司，也都意識到了這種威脅，悄悄嘗試轉型。例如?Cursor?擁有一款自主開發的小型代碼補全模型；WindSurf 內部開發了 Codium 這樣一款低成本的代碼模型；Perplexity 此前一直依靠內部分類器進行請求路由，最近更是轉型訓練了自己的 DeepSeek 變體模型用于搜索用途。
當前成功的「應用套殼商」（Wrappers）實際上處于困境之中：他們要么自主訓練模型，要么就等著被上游大模型徹底取代。他們現在所做的事情，本質上都是為上游大模型廠商進行免費的市場調研、數據設計和數據生成。

接下來發生什么還不好說。成功的應用套殼商現在陷入兩難處境：「自己訓練模型」或者「被別人拿來訓練模型」。據我所知，目前投資者對「訓練模型」極為排斥，甚至使得一些公司不得不隱藏他們最具價值的訓練能力，像 Cursor 的小模型和 Codium 的文檔化至今都極為有限。

05?市場完全沒有計入強化學習（RL）的潛力

目前 AI 投資領域存在一個普遍的問題：所有投資幾乎都是高度相關的。

現階段幾乎所有的 AI 投資機構，都抱持以下一致的想法：

封閉 AI 廠商將長期提供 API；
應用層是 AI 變現的最佳途徑；
訓練任何形式的模型（不論預訓練還是強化學習）都是在浪費資源；
所有行業（包括監管嚴格的領域）都會繼續長期依賴外部 AI 提供商。

但我不得不說，這些判斷日益看起來過于冒險，甚至是明顯的市場失靈。

尤其是在最近強化學習（RL）技術取得突破的情況下，市場未能正確對強化學習的巨大潛力進行定價。

眼下，「強化學習」的威力根本沒有被資本市場準確評估和體現。

從經濟學角度看，在全球經濟逐漸邁入衰退背景下，能夠進行模型訓練的公司具有巨大的顛覆潛力。然而很奇怪的是，模型訓練公司卻根本無法順利獲得投資。以西方的新興 AI 訓練公司 Prime Intellect 為例，它擁有明確的技術實力，有潛力發展為頂級 AI 實驗室，但即便如此，其融資仍面臨巨大困難。

縱觀歐美，真正具備訓練能力的新興 AI 公司屈指可數：

Prime Intellect、EleutherAI、Jina、Nous、HuggingFace 訓練團隊（規模很小）、Allen AI 等少數學術機構，加上一些開源基礎設施的貢獻者，基本涵蓋了整個西方訓練基礎設施的建設和支持工作。

而在歐洲，據我所知，至少有 7-8 個 LLM 項目正在使用 Common Corpus 進行模型訓練。

然而，資本卻對這些真正能夠訓練模型的團隊冷眼旁觀。

「訓練」成為被忽略的價值洼地

最近，甚至連 OpenAI 內部也對目前硅谷創業生態缺乏「垂直強化學習」（Vertical RL）表達了明顯的不滿。

我相信，這種信息來自于 Sam Altman 本人，接下來可能會在 YC 新一批孵化項目中有所體現。

這背后的信號非常明確：大廠將傾向于直接與掌握垂直強化學習能力的創業公司合作，而不僅僅依賴應用層套殼。

這種趨勢也暗示了另一個更大的變化：

未來很多最賺錢的 AI 應用場景（如大量仍被規則系統主導的傳統產業）尚未得到充分開發。誰能訓練出真正針對這些領域的專用模型，誰就能獲得顯著優勢。而跨領域、高度專注的小型團隊，也許才更適合率先攻克這些難題，并最終成為大型實驗室潛在收購的目標。

但令人擔憂的是，目前大部分西方 AI 企業還停留在「純應用層」的競爭模式上。甚至大部分人都沒有意識到：

僅靠應用層打下一場戰爭的時代已經結束了。

相比之下，中國的 DeepSeek 已經走得更遠：它不再僅僅把模型視作產品，而是視為一種通用的基礎設施。正如 DeepSeek 創始人梁文鋒在公開采訪中明確指出：

「就像 OpenAI 和 Anthropic 一樣，我們將計劃直接公開說明：DeepSeek 的使命并不是僅僅打造單個產品，而是提供一種基礎設施層面的能力……我們會首先投入研究和訓練，將其作為我們的核心競爭力。」

可惜的是，在歐美，絕大部分 AI 初創公司仍只專注于構建單純的應用層產品，這就如同「用過去戰爭的將領去打下一場新戰爭」，甚至根本沒意識到上一場戰爭其實已經結束了。

06?關于簡單 LLM 智能體的「苦澀教訓」

最近被熱炒的 Manus AI 屬于典型的「工作流」。我整個周末的測試*都在不斷驗證著這種系統的根本性局限，而這些局限早在 AutoGPT 時代就已經顯現出來。尤其是在搜索任務中，這種局限表現得極為明顯：

*https://techcrunch.com/2025/03/09/manus-probably-isnt-chinas-second-deepseek-moment/

它們缺乏真正的規劃能力，經常在任務進行到一半時就「卡住」了，無法推進；
它們無法有效地記憶長期的上下文，通常任務持續超過 5 到 10 分鐘便難以維持；
它們在長期任務中表現很差，多個步驟的任務會因為每一步的細微誤差被放大，導致最終失敗。

今天我們嘗試從這個全新的、更嚴格的角度出發，重新定義 LLM 智能體的概念。以下內容，是在整合了來自大公司有限的信息、開放研究領域近期成果，以及我個人的一些推測之后，做的一次盡可能清晰的總結。

智能體這個概念，本質上幾乎與基礎的大語言模型完全沖突。

在傳統的智能體研究中，智能體（Agent）總是處于一個有約束的環境里：比如想象一下你被困在一個迷宮里，你可以向左走，也可以向右走，但你不能隨便飛起來，也不能突然鉆進地下，更不能憑空消失——你會受到物理規則甚至游戲規則的嚴格限制。真正的智能體，即便處于這種約束環境中，也會擁有一些自由度，因為你有多種方式來完成游戲。但無論怎么行動，每一次決策背后，都需要你有明確的目標：贏得最終的獎勵。有效的智能體會逐漸記憶過去走過的路，形成一些有效的模式或經驗。

這種探索的過程，被稱為「搜索（search）」。而這個詞其實非常貼切：一個智能體在迷宮中的探索行為，和人類用戶在網絡搜索時不停點擊鏈接，探索自己想要的信息，幾乎是完美的類比。關于「搜索」的研究，學界已經有幾十年的歷史。舉一個最新的例子：Q-star 算法（曾被傳言是 OpenAI 新一代模型背后的算法，當然至今還沒完全確認）其實來源于 1968 年的 A-Star 搜索算法。而最近由 PufferLib 完成的寶可夢訓練實驗，就生動地展現了這種智能體「搜索」的全過程：我們看到智能體不斷嘗試路徑，失敗后再重試，不斷地往返摸索最優路徑。

Pokemon RL experiment by PufferLib

基礎語言模型和智能體的運行方式幾乎截然相反：

智能體會記住它們的環境，但基礎語言模型不會。語言模型只根據當前窗口內的信息來回應。
智能體有明確的理性約束，受限于實際條件，而基礎語言模型只是生成概率較高的文本。雖然有時它們也能表現出前后一致的邏輯，但始終無法保證，甚至隨時可能因為「美學需求」而脫離軌道。
智能體能制定長期策略，它們可以規劃未來的行動或回溯重來。但語言模型只擅長單一推理任務，在面對需要多步復雜推理的問題時，很快就會「飽和」（multi-hop reasoning），難以處理。整體來看，它們被文本規則約束，而不是現實世界的物理或游戲規則。

將語言模型與智能體化結合的最簡單方法，就是通過預定義的提示（prompt）和規則來約束輸出。目前絕大部分的語言模型智能體系統都是這種方式，然而這種做法注定會撞上 Richard Sutton 提出的「苦澀教訓」（Bitter Lesson）。

人們經常誤解「苦澀教訓」，認為它是指導語言模型預訓練的指南。但它本質上講的是關于智能體的設計，講的是我們往往想直接把人類的知識「硬編碼」到智能體當中——例如「如果你碰壁了，就換個方向；如果多次碰壁，就回頭再試試」。這種方法在短期來看效果很好，很快就能看到進步，不需要長時間訓練。但長期來看，這種做法往往走向次優解，甚至會在意料之外的場景里卡住。

Sutton 這樣總結道：

「我們必須學會苦澀的教訓：人為地去預設我們思考的方式，長期來看并不奏效。AI 研究的歷史已經反復驗證：

1）研究者經常試圖將知識提前寫入智能體；

2）這種做法短期內效果明顯，也讓研究者本人很有成就感；

3）但長期來看，性能很快達到上限，甚至阻礙后續發展；

4）最終的突破反而來自完全相反的方法，即通過大量計算資源進行搜索和學習。最終的成功讓人有些苦澀，因為它否定了人們偏愛的、以人為中心的方法。」

我們再把這個道理遷移到現在 LLM 的生產應用中。像 Manus 或常見的 LLM 封裝工具，都在做著「人為設定知識」的工作，用提前設計好的提示語引導模型。這或許短期內最省事——你甚至不需要重新訓練模型——但絕不是最優選擇。最終你創造的是一種混合體，部分靠生成式 AI，部分靠規則系統，而這些規則恰恰就是人類思維中對空間、物體、多智能體或對稱性等概念的簡單化抽象。

更直白地講，如果 Manus AI 至今無法很好地訂機票，或在與老虎搏斗時提出有用建議，并不是因為它設計得差，而是它遭遇了「苦澀教訓」的反噬。提示（Prompt）無法無限擴展，對規則硬編碼無法無限擴展。你真正需要的是從根本上設計能夠搜索、規劃和行動的真正的 LLM 智能體。

07?強化學習（RL）+ 推理：真正的成功之路

這是一個很難的問題。現在公開的信息很少，只有 Anthropic、OpenAI、DeepMind?等少數實驗室了解細節。到目前為止，我們只能根據有限的官方消息、非正式傳言以及少量的公開研究來了解一些基本情況：

與傳統智能體類似，LLM 智能體同樣采用強化學習進行訓練。你可以把語言模型的學習看作一個「迷宮」：迷宮里的道路就是關于某件事可能寫出來的所有文字組合，迷宮的出口就是最終想要的「獎勵」（reward）。而判斷是否抵達獎勵的過程就稱為「驗證器」（verifier）。William Brown 的新開源庫 Verifier 就是專門為此設計的工具。目前的驗證器更傾向于針對數學公式或代碼這樣的明確結果進行驗證。然而，正如 Kalomaze 所證明的，即使針對非嚴格驗證的結果，通過訓練專門的分類器，也完全可以構建有效的驗證器。這得益于語言模型的一個重要特點：它們評估答案的能力遠遠優于創造答案的能力。即使用規模較小的語言模型來做「評委」，也能明顯提高整體性能和獎勵機制的設計效果。
LLM 智能體的訓練是通過「草稿」（draft）來完成的，即整個文本被生成后再被評估。這種方式并不是一開始就確定的，最初研究傾向于對每個單獨的詞匯（token）展開搜索。但后來由于計算資源有限，以及近期推理（Reasoning）模型取得突破性的進展，「草稿式」推理逐漸成為主流訓練方式。典型的推理模型訓練過程，就是讓模型自主生成多個邏輯步驟，最終選擇那些能帶來最佳答案的草稿。這可能會產生一些出人意料的現象，比如 DeepSeek 的 R0 模型偶爾在英文與中文之間突然切換。但強化學習并不在乎看起來是不是奇怪，只在乎效果是否最好。就像在迷宮里迷路的智能體一樣，語言模型也必須通過純粹的推理尋找出路。沒有人為預定義的提示，沒有提前規定好的路線，只有獎勵，以及獲得獎勵的方法。這正是苦澀教訓所給出的苦澀解決方案。
LLM 的草稿通常會被提前劃分為結構化的數據片段，以方便獎勵的驗證，并在一定程度上幫助模型整體的推理過程。這種做法叫做「評分標準工程」（rubric engineering），既可以直接通過獎勵函數來實現，也可以在大實驗室更常見的方式下，通過初步的后訓練階段完成。
LLM 智能體通常需要大量草稿數據以及多階段訓練。例如，當進行搜索任務訓練時，我們不會一下子評價搜索結果，而是評價模型獲取資源的能力、生成中間結果的能力、再獲取新資源、繼續推進、改變計劃或回溯等等。因此，現在訓練 LLM 智能體最受青睞的方法是 DeepSeek 提出的GRPO，特別是與 vllm 文本生成庫配合時效果最佳。前幾周，我還發布了一個非常受歡迎的代碼筆記本（Notebook），基于 William Brown 的研究成果，僅使用 Google Colab 提供的單個 A100 GPU，就成功地實現了 GRPO 算法。這種計算資源需求的大幅下降，毫無疑問將加速強化學習與智能體設計在未來幾年真正走向大眾化。

08?等一下，這東西怎么規模化？

上面說的那些內容都是基礎模塊。從這里出發，想走到 OpenAI 的 DeepResearch，以及現在各種新興的、能處理一連串復雜任務的智能體，中間還隔著一段距離。允許我稍微展開一點聯想。

目前，開源社區的強化學習（RL）和推理研究，主要集中在數學領域，因為我們發現網上有很多數學習題的數據，比如一些被打包進 Common Crawl 里的題庫，再被 HuggingFace 的分類器抽取出來（比如 FineMath）。但是，很多其他領域，特別是「搜索」，我們是沒有現成數據的。因為搜索需要的不是靜態的文本，而是真實的行動序列，比如用戶瀏覽網頁時的點擊、查詢日志、行為模式等等。

我之前做過一段時間的日志分析，當時模型（盡管還是用馬爾科夫鏈這種比較老舊的方法，雖然最近幾年這個領域飛速發展了）居然還經常用上世紀 90 年代末泄露出來的 AOL 搜索數據訓練！近來，這個領域終于多了一個關鍵的開源數據集：維基百科的點擊流數據（Wikipedia clickstream），這個數據集記錄了匿名用戶從一篇維基百科文章跳到另一篇文章的路徑。但我問你一個簡單的問題：這個數據集在 HuggingFace 上有嗎？沒有。事實上，HuggingFace 上幾乎沒有真正具備「行動性」（agentic）的數據，也就是說，這些數據能幫助模型學習規劃行動。目前整個領域依然默認要用人工設計的規則系統去「指揮」大語言模型（LLM）。我甚至懷疑，連 OpenAI 或者 Anthropic 這種大廠，也未必能拿到足夠數量的這種數據。這是傳統科技公司，尤其是谷歌這樣的公司，依然占據巨大優勢的地方——畢竟，你不可能隨便買到谷歌積累的海量用戶搜索數據（除非數據在暗網上泄露了某些片段）。

但其實有一種解決辦法，就是模擬生成數據，也就是「仿真」。傳統的強化學習模型是不需要歷史數據的，它們通過反復不斷的嘗試，探索并學會環境里的各種規律和策略。如果我們把這種方式用到搜索任務上，就會類似于游戲領域的 RL 訓練：讓模型自由探索，找到正確答案時給獎勵。可是，在搜索領域，這種探索可能會非常漫長。比如你想找到某個特別冷門的化學實驗結果，可能隱藏在 1960 年代某篇蘇聯老論文里，模型只能靠暴力搜索和語言上的一些微調，一次又一次地嘗試后終于偶然找到了答案。然后，模型再嘗試理解并總結出那些能提高下次找到相似答案可能性的規律。

我們算一下這種方式的成本：以一種典型的強化學習方法為例，比如 GRPO，你一次可能同時有 16 個并發的探索路徑（我甚至猜測大實驗室的真實訓練并發數遠不止 16 個）。每個探索路徑都可能連續瀏覽至少 100 個網頁，那意味著一次小小的訓練步驟里就要發出大概 2,000 次搜索請求。而更復雜的強化學習訓練，往往需要數十萬甚至上百萬個步驟，尤其是想讓模型擁有通用的搜索能力的話。這意味著一次完整訓練可能需要數億次的網絡請求，說不定會把一些學術網站順便給 DDOS 攻擊了……這樣一來，你真正的瓶頸反倒不再是計算資源，而變成了網絡帶寬。

游戲領域的強化學習也碰到了類似的問題，這也是為什么現在最先進的方法（比如 Pufferlib）會把環境重新封裝成「對模型而言看起來像雅達利游戲的樣子」，其實本質沒變，只不過模型能看到的數據是高度標準化的、經過優化的。當把這個方法應用到搜索上時，我們可以直接利用現成的 Common Crawl 大規模網絡數據，把這些數據「偽裝」成實時的網頁返回給模型，包括 URL、API 調用和各種 HTTP 請求，讓模型誤以為它正在真實地訪問網絡，而實際上所有數據早就提前準備好了，直接從本地的高速數據庫里查詢就可以了。

所以，我估計未來要訓練一個能夠搜索的 LLM 強化學習智能體，可能的方式會是這樣的：

先創建一個大型的模擬搜索環境，這個環境的數據集是固定的，但在訓練時不斷「翻譯」成模型能理解的網頁形式反饋給模型。
在強化學習正式訓練之前，先用一些輕量的有監督微調（SFT）給模型「預熱」一下（類似 DeepSeek 的 SFT-RL-SFT-RL 這種訓練路線），用的可能是一些已經有的搜索模式數據，目的是讓模型提前熟悉搜索思考的邏輯和輸出格式，從而加速后面的 RL 訓練。這類似一種人為設定好的訓練「模板」。
然后，需要準備一些難度不同的復雜查詢問題，以及對應的明確的驗證標準（verifier）。具體操作可能是搭建復雜的合成數據管道，從現有資源反向推導出這些標準，或者干脆直接雇傭一批博士級別的專家來手動打標簽（代價非常高昂）。
接下來就是真正的多步強化學習訓練了。模型收到一個查詢后，會主動發起搜索，得到結果后，可以進一步瀏覽網頁，或者調整搜索關鍵詞，這個過程是分成多個連續步驟的。從模型角度來看，就像是在真實地瀏覽互聯網，而實際上背后的一切數據交換都是提前準備好的搜索模擬器在完成。
當模型足夠擅長搜索之后，可能還會再做一輪新的強化學習（RL）和監督微調（SFT），但這一次的重心轉向「如何寫出高質量的最終總結」。這步很可能也會用到復雜的合成數據管道，讓模型將之前輸出的長篇內容切成小片段，再經過某種推理重新組裝起來，提升它生成結果的質量和邏輯連貫性。

09?真正的智能體，是不靠「提示詞」工作的

終于，我們真正擁有了「智能體」（Agent）模型。那么相比原本的工作流程或模型編排來說，它到底帶來了哪些變化？只是單純提高了質量，還是意味著一種全新的范式？

我們先回顧一下 Anthropic 對智能體的定義：「大語言模型（LLM）智能體能動態地自主指揮自己的行動和工具使用，并始終掌控完成任務的具體方式。」為了更直觀地理解這一點，我再用一個我熟悉的場景舉個例子：搜索。

之前業內曾廣泛猜測，隨著大語言模型擁有了更長的上下文窗口，傳統的「檢索增強生成」（RAG）方法會逐漸消亡。但現實情況并非如此。原因有幾個：超長上下文計算成本太高，除了簡單的信息查詢外，準確性不夠，并且很難追溯輸入的來源。因此，真正的「智能體搜索」并不會完全取代 RAG。更可能發生的是，它會高度自動化，幫我們把復雜的向量數據庫、路由選擇、排序優化等過程自動整合。未來一個典型的搜索過程可能會是這樣的：

用戶提出問題后，智能體會分析并拆解問題，推測用戶的真實意圖。
如果問題模糊，智能體會主動向用戶提問，以便進一步確認（OpenAI 的 DeepResearch 已經能做到這一點）。
然后，模型可能會選擇進行一般性搜索，也可能根據情況直接選擇特定的專業數據源。由于模型記住了常見的 API 調用方式，它可以直接調用對應的接口。為了節約計算資源，智能體會更傾向于利用網絡上已有的 API、站點地圖（sitemaps）以及結構化的數據生態。
搜索過程本身會被模型不斷學習和優化。智能體能夠自主判斷并放棄錯誤的搜索方向，并像經驗豐富的專業人員一樣，轉而嘗試其他更有效的路徑。目前 OpenAI 的 DeepResearch 一些非常驚艷的結果就展示了這種能力：即便某些資源沒有被很好地索引，它也能通過連續的內部推理找到準確的資源。
整個搜索過程中，智能體的每一步決策和推理都會留下清晰的內部記錄，從而實現一定程度的可解釋性。

簡單來說，搜索過程將會被智能體直接「工程化」。智能體不需要額外的數據預處理，而是直接基于現有搜索基礎設施去靈活應變，尋找最佳路徑。同時，用戶也無需專門訓練就能與生成式 AI 高效交互。正如 Tim Berners-Lee 十多年前所強調的：「一個真正的智能體，就是在每個具體場景中，都能自動完成用戶心里想做卻沒明確說出來的事情。」

我們再將這種實際的智能體思路應用到其他領域去看一下實際效果：比如一個網絡工程智能體，也將能直接與現有基礎設施交互，自動生成路由器、交換機、防火墻的配置方案，根據需求分析網絡拓撲結構、給出優化建議，或自動解析錯誤日志，定位網絡問題的根本原因。

再比如金融領域的智能體，未來則能夠自動、精準地實現不同金融數據標準之間的轉換，比如從 ISO 20022 到 MT103 標準的翻譯。以上這些能力，現階段通過簡單的系統提示（system prompts）是根本做不到的。

然而，目前能夠真正開發出這樣智能體的公司只有少數幾個巨頭實驗室。他們手握所有關鍵資源：專有技術、部分關鍵數據（或者制造這些數據的合成技術），以及將模型變成產品的整體戰略眼光。這種技術高度集中未必是一件好事，但某種程度上，也要歸咎于資本市場對模型訓練長期價值的低估，使得這一領域的創新發展受到限制。

我通常不喜歡過度炒作某些新概念，但智能體背后蘊藏的巨大顛覆潛力和商業價值，讓我堅信我們迫切需要民主化地推動實際智能體的訓練和部署：公開驗證模型、GRPO（目標導向的獎勵策略優化）的訓練數據樣本，以及在不久的將來，公開復雜的合成數據管道和仿真器等基礎設施。

2025 年會是智能體崛起的一年嗎？或許還有機會，我們拭目以待