【智能體】rStar2-Agent

rStar2-Agent 是一篇在大模型推理領域極具洞察力和工程實力的工作,它沒有追求參數規模的堆砌,而是通過精巧的算法設計和系統優化,在一個14B的小模型上實現了媲美671B大模型的數學推理能力。

核心思想非常明確:讓模型“想得更聰明”,而不是“想得更長”。

傳統的“長思維鏈”(Long CoT)方法本質上是延長了模型內部的自回歸生成過程,但這并不能解決根本問題——模型在復雜推理中容易陷入局部最優、產生錯誤中間步驟,并且這些錯誤會累積放大。rStar2-Agent 的突破在于,它不再僅僅依賴模型內部的“思考”,而是引入了一個外部可驗證的工具環境(Python解釋器),并將強化學習(RL)與這個環境緊密結合,使模型能夠像人類專家一樣,通過“動手實驗”、“自我驗證”和“迭代修正”來進行真正的推理。

下面我將從核心方法論關鍵技術細節工程實現三個層面進行詳細拆解。


一、 核心方法論:Agentic Reinforcement Learning with Tool Use (代理式強化學習 + 工具使用)

這是整篇論文的靈魂。它顛覆了以往“純文本推理”的范式。

  • 傳統范式 (CoT) 的局限性

    • 黑箱推理:模型在內部生成一個長序列,所有步驟都是“想象”出來的,沒有外部世界來驗證其正確性。
    • 錯誤累積:一旦某一步推導出錯(例如,算錯了 5+7=13),后續所有步驟都會基于這個錯誤進行,最終導致答案完全錯誤。
    • 缺乏反饋:模型只能通過最終答案是否正確(二元獎勵)來獲得反饋,無法知道具體哪里錯了,導致學習效率低下。
  • rStar2-Agent 的范式轉變

    • Agent 與 Environment:我們將LLM視為一個“智能體”(Agent),而Python解釋器及其科學計算庫(NumPy, SciPy, SymPy)構成了一個“環境”(Environment)。這個環境能執行代碼并返回精確、可驗證的結果(成功輸出、錯誤信息、超時)。
    • 交互式推理:推理不再是單次生成,而是一個多輪交互的過程:
      1. 思考 (Think): 模型決定需要計算什么。
      2. 行動 (Act): 模型調用 execute_python_code_with_standard_io 工具,發送一段Python代碼。
      3. 觀察 (Observe): 模型接收工具返回的執行結果(如 Total valid colorings: 24Traceback: GeneratorsNeeded)。
      4. 反思 (Reflect): 模型根據觀察到的結果,判斷是成功了、失敗了、還是需要調整策略,然后進入下一輪思考。
    • 目標:通過這種“思考-行動-觀察-反思”的循環,模型學會如何戰略性地使用工具來驗證假設探索替代方案、并糾正自身錯誤

關鍵洞見工具不是用來替代思考的,而是用來增強思考的確定性和可靠性。 它為模型提供了“外部記憶”和“客觀裁判”。


二、 關鍵技術細節:GRPO-RoC 算法與訓練流程

1. 基礎框架:Group Relative Policy Optimization (GRPO)

論文選擇 GRPO 而非 PPO 作為基礎 RL 算法,是因為它更適合處理群體樣本(group of rollouts)。

  • GRPO 核心公式

    J_GRPO(θ) = E_{q,a} ~ D, {oi}iG=1 ~ π_θold(·|q) [ 1/G Σ_i=1^G [ 1/||oi|| Σ_t=1^||oi|| min[ r_i,t, clip(r_i,t, 1-ε, 1+ε) ] A_i,t - β D_KL(π_θ || π_ref) ] ]
    
    • q: 問題
    • a: 正確答案
    • {oi}: 一組 G 個從舊策略 π_θold 中采樣的完整推理軌跡(rollout)
    • A_i,t: 在軌跡 oi 的第 t 步的優勢估計 (Advantage)
    • r_i,t: 在軌跡 oi 的第 t 步的獎勵 (Reward)
    • clip(...): 防止重要性采樣比率(即新舊策略的概率比)劇烈波動,穩定訓練。
    • D_KL(...): KL 散度懲罰項,用于防止新策略偏離參考策略太遠(論文中移除了此項以促進探索)。
  • GRPO 的優勢

    • 組內相對比較:它不依賴于絕對的獎勵值,而是比較同一問題下不同軌跡之間的優劣。這使得它對獎勵函數的設計不那么敏感。
    • 適用于稀疏獎勵:我們的獎勵只有 0(失敗)或 1(成功),GRPO 能有效利用這種信息。
2. 核心創新:GRPO-RoC —— Resample on Correct

這是論文最精妙的部分,解決了工具環境噪聲(Tool-induced Noise)這一致命瓶頸。

  • 問題本質

    • 在真實環境中,模型生成的代碼幾乎不可避免地會包含語法錯誤、邏輯錯誤或無限循環。
    • 在傳統的 GRPO 中,只要最終答案正確(ri=1),即使軌跡中有10次錯誤的工具調用,它也會被當作“好樣本”來更新策略。
    • 這導致模型學會了“先亂寫一通,碰運氣”的策略,產生了大量冗長、低質量、充滿錯誤的推理軌跡。這不僅浪費計算資源,還污染了訓練數據。
  • GRPO-RoC 解決方案

    • 步驟1:過采樣 (Oversampling):對于每個問題 q,我們生成 2G 條軌跡(而非標準的 G 條)。
    • 步驟2:分組過濾 (Asymmetric Filtering):
      • 負樣本 (Negative Samples, Oneg): 所有 ri=0 的軌跡。我們不做任何過濾,直接隨機抽取一半(?|Oneg|/2?)作為訓練樣本。這樣做的目的是保留多樣化的失敗模式,讓模型學到“哪些路是死胡同”。
      • 正樣本 (Positive Samples, Opos): 所有 ri=1 的軌跡。這才是關鍵!我們不能直接用它們。我們需要從中篩選出高質量的成功軌跡。
        • 定義懲罰分數 ptotal:我們為每條正樣本軌跡計算一個綜合懲罰分數:
          • perr: 工具錯誤率。計算該軌跡中工具調用的總次數和其中報錯的次數,perr = (錯誤次數) / (總次數)。如果一條軌跡完全沒有工具調用,則默認 perr=0.5(鼓勵使用工具)。
          • pformat: 格式違規懲罰。檢查是否在 <answer> 標簽后又出現了多余的 <reason> 塊等格式錯誤。pformat = min(1, (多余<answer>標簽數 - 1) / (總turn數))
          • ptotal = perr + pformat
        • 按概率采樣:我們根據 ptotal倒數來抽樣正樣本。也就是說,ptotal 越小(錯誤越少、格式越干凈),被選中的概率就越高。
    • 步驟3:構建最終批次:最終用于策略更新的批次由 G 條軌跡組成,其中一半來自 O?neg(保留的失敗樣本),另一半來自 O?pos(篩選出的高質量成功樣本)。
  • 為什么 GRPO-RoC 有效?

    • 對抗噪聲:它主動將“垃圾”(含大量錯誤的正樣本)從訓練數據中剔除,迫使模型學習如何寫出可靠、簡潔、無誤的代碼。
    • 鼓勵探索:它保留了多樣化的失敗案例,模型可以從中學習到各種可能的陷阱。
    • 提升效率:通過只保留高質量的正樣本,模型能更快地收斂到正確的推理模式,避免了在低效路徑上的無效探索。
    • 避免獎勵黑客:它沒有修改獎勵函數(仍然是 0/1),而是通過采樣機制來間接引導行為,這比直接在獎勵中加入懲罰項(可能導致模型為了規避懲罰而放棄使用工具)更加魯棒。

類比理解:想象你是一名教練,要訓練一支籃球隊(模型)贏得比賽(最終答案正確)。

  • 傳統方法:只要贏了,無論過程多么混亂,都給滿分。
  • GRPO-RoC:你觀看所有勝場錄像。你會把那些靠對手失誤僥幸贏球、自己運球失誤十幾次的錄像扔掉;你只會挑選那些進攻流暢、配合默契、失誤極少的精彩比賽錄像來反復分析和學習。同時,你也會看一些輸球的比賽,但重點看他們是怎么輸的,避免重蹈覆轍。
3. 訓練流程:非推理冷啟動 + 多階段RL

這是一個極其高效、節省算力的訓練配方。

  • 階段0:非推理冷啟動 (Non-reasoning SFT)

    • 目標:教會模型基本的指令遵循、JSON格式化和工具調用教它如何推理。
    • 數據:使用大量工具調用數據集(ToolACE, APIGen)、指令跟隨數據(Tulu3)、對話數據(LLaMA-Nemotron)。
    • 為什么這么做?
      • 避免SFT過擬合:如果在SFT階段就用大量數學題訓練,模型會記住答案和套路,而不是學會推理。
      • 保持響應短小:SFT后的模型初始響應很短(~1K tokens),這為后續RL提供了一個“干凈的畫布”。如果SFT后模型已經習慣了寫長篇大論,RL很難再讓它“瘦身”。
      • 分離職責:SFT負責“語言和工具接口”,RL負責“認知和決策”。
  • 階段1-3:多階段RL訓練

    • 核心原則逐步增加難度和長度,而非一開始就鋪開。
    • Stage 1 (8K):使用全部42K道題,最大響應長度設為8K。由于模型初始響應短,實際生成長度很快穩定在4K左右。此階段的目標是讓模型快速掌握使用工具進行推理的基本模式。關鍵成果:AIME24準確率從SFT后的3.3%飆升至72.1%。
    • Stage 2 (12K):當模型在8K長度下性能達到瓶頸(獎勵和分數停滯),我們放寬長度限制到12K。這允許模型進行更復雜的、多步的推理(例如,多次嘗試不同的代碼方案),進一步提升性能。
    • Stage 3 (12K, Harder Problems):當模型能完美解決大部分題目時,我們切換數據集。我們用當前最好的策略(Stage 2末期)對原始42K題集生成8次推理,移除所有8次都答對的問題,留下約17K個真正“難啃”的硬骨頭。在這個更困難的數據集上繼續訓練,推動模型逼近極限。

為何如此高效? 傳統方法(如DeepSeek-R1)動輒使用16K-48K的超長上下文和成千上萬的RL步驟。rStar2-Agent 只用了 510個RL步驟 就達到了同等水平。這是因為:

  1. GRPO-RoC 提供了極高的數據效率,每一條訓練樣本的價值都最大化。
  2. 多階段 設計讓模型循序漸進,避免了在早期階段就被海量、低質的長軌跡淹沒。
  3. 非推理SFT 為RL打下了堅實的基礎,RL只需專注于“優化推理策略”這一單一任務。

三、 工程實現:大規模Agentic RL基礎設施

再好的算法,沒有強大的系統支撐,也無法落地。微軟團隊為此構建了一套高度優化的基礎設施。

1. 高吞吐、隔離的代碼環境服務
  • 挑戰:一次RL訓練批次(batch)可能觸發數萬次并發的Python代碼執行請求。本地運行會導致CPU過載、GPU閑置,且LLM生成的代碼可能包含惡意或無限循環,直接執行會危及主訓練進程。
  • 解決方案
    • 分布式架構:將代碼執行服務部署在獨立的CPU集群上,與GPU訓練集群物理隔離。
    • 異步批處理:Master節點收集任務,Send Workers 將多個(最多64個)工具調用打包成一個批次,異步提交給Worker Nodes。
    • 高并發執行:Worker Nodes 上有上千個輕量級的執行工作線程,確保高并發下的低延遲(平均0.3秒/次)。
    • 安全沙盒:執行環境是獨立的,任何崩潰或異常都不會影響主訓練進程。
2. 動態負載均衡調度器 (Load-Balanced Rollout Scheduler)
  • 挑戰:在標準的靜態分配中,所有GPU被平均分配相同數量的rollout請求。但由于每個推理軌跡的長度(token數)和工具調用次數差異巨大,有些GPU很快完成任務,而有的還在處理長軌跡,導致大量GPU長時間空閑(Idle),嚴重拖慢整體訓練速度。
  • 解決方案
    • 動態分配:調度器不按固定數量分配,而是根據每個GPU當前可用的KV Cache容量來動態分配新的rollout請求。
    • 異步執行:當模型在一個turn中生成一個工具調用時,立即將其異步發送給環境服務,無需等待其他GPU的同步。
    • 實時回收:當一個GPU完成其分配的rollout并釋放了KV Cache空間,調度器立即為其分配新的請求。
    • 效果:極大提升了GPU利用率,顯著縮短了整個訓練周期。

四、 深度分析:rStar2-Agent 的“智能”體現在哪里?

論文最后通過分析高熵(High Entropy)Token揭示了模型的高級認知行為。

  • 高熵Token:指模型在生成過程中,對下一個詞的預測不確定性很高的地方。這通常發生在模型面臨抉擇、需要深思熟慮時。
  • 兩種關鍵模式
    1. Forking Tokens (傳統):如 “But before”, “Double-check”, “Alternatively”。這些是長CoT模型也具備的,代表了內部的自我反思
    2. Reflection Tokens on Tool Responses (革命性):這是rStar2-Agent獨有的!當模型收到工具返回的錯誤信息(如 GeneratorsNeeded)時,它會生成一連串密集的高熵Token,如 “The error occurred because…”, “Instead of wrapping…, I can simply check…”, “I’ll try a more straightforward print…”。這表明模型不僅僅是在執行代碼,而是在‘閱讀’錯誤信息、診斷問題、形成假設、設計新的實驗(新的代碼)并再次測試。這是一種人機協同的閉環推理,是傳統CoT所無法企及的。
  • GPQA-Diamond基準測試:在科學推理任務上,rStar2-Agent-14B達到了**60.9%**的準確率,比DeepSeek-V3的59.1%高出1.8%

  • 關鍵發現:該模型沒有接受過任何科學數據的專門訓練,僅通過數學領域的強化學習訓練,就能將數學推理能力有效遷移到科學推理任務中

  • 意義:這表明數學推理能力與科學推理能力之間存在高度相關性,數學訓練獲得的推理模式可以有效泛化到其他科學領域

  • BFCL v3基準測試(Berkeley Function Calling Leaderboard):rStar2-Agent-14B在工具使用任務上達到了**60.8%**的準確率,優于DeepSeek-V3的57.6%

  • 表現特點:該模型能夠有效調用和使用外部工具,這與其在數學問題中使用的Python編碼工具經驗直接相關

  • 技術背景:rStar2-Agent的訓練過程中,模型學習了如何與Python解釋器交互、驗證中間步驟并根據反饋調整策略,這些能力直接遷移到了工具調用任務中

  • IFEval strict prompt基準:rStar2-Agent-14B達到了**83.4%**的準確率,與非推理SFT基線的83.7%相當

  • Arena-Hard基準:rStar2-Agent-14B達到了**86.6%**的準確率,與非推理SFT基線的86.8%相當

  • 關鍵觀察:在非推理任務上,模型"沒有改進但保持了與非推理SFT基線相當的性能",這表明其數學訓練并未損害通用能力

為什么能實現如此好的泛化?

  1. 推理模式的通用性:報告指出,rStar2-Agent通過數學訓練獲得了"自適應、環境驅動的推理能力",這種能力在多種任務中都具有價值

  2. 高熵token分析:通過分析模型生成的高熵token,研究者發現rStar2-Agent不僅保留了傳統的自我反思行為,還發展出了獨特的"對工具響應的反思"能力,這種能力在多種任務中都至關重要

  3. 工具使用經驗的遷移:模型在數學問題中學習到的"思考-行動-觀察-反思"循環,可以直接應用于需要調用外部工具的任務

  4. 最小化訓練開銷:值得注意的是,這些泛化能力是通過僅在數學數據上訓練獲得的,這表明數學推理訓練具有極高的效率和泛化價值

與傳統方法的對比

  • 傳統方法通常需要在特定領域進行專門訓練
  • rStar2-Agent通過數學訓練獲得了跨領域推理能力,避免了為每個領域單獨訓練的成本
  • 與DeepSeek-V3等通用模型相比,rStar2-Agent在科學推理和工具使用方面表現更優

五、 總結:rStar2-Agent 給我們的啟示

  1. 規模不是唯一出路:在特定任務(尤其是有清晰驗證標準的任務)上,算法創新系統優化帶來的收益,完全可以超越單純的模型規模擴張。
  2. 工具是認知的延伸:未來的AI Agent必須能主動、智能地調用外部工具,而不是被動地依賴預訓練知識。
  3. 環境噪聲是機遇:工具環境產生的“噪聲”(錯誤)不是障礙,而是寶貴的監督信號。GRPO-RoC 展示了如何將噪聲轉化為學習動力。
  4. 訓練流程設計至關重要:非推理SFT + 多階段RL 是一套極其高效的訓練哲學,值得廣泛借鑒。
  5. 工程是基石:沒有這套高吞吐、低延遲、強隔離的基礎設施,再好的算法也只能停留在紙面上。

rStar2-Agent 不僅僅是一個模型,它是一個關于“如何讓機器真正學會思考”的宣言。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/923545.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/923545.shtml
英文地址,請注明出處:http://en.pswp.cn/news/923545.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Coze源碼分析-資源庫-創建知識庫-后端源碼-核心技術與總結

11. 核心技術特點 11.1 知識庫創建的分層架構設計 清晰的職責分離&#xff1a; API層&#xff08;knowledge_service.go&#xff09;&#xff1a;負責知識庫創建請求處理、參數驗證、響應格式化應用層&#xff08;knowledge.go&#xff09;&#xff1a;負責知識庫創建業務邏輯編…

Nano Banana制作3D立體打印效果圖

Nano Banana介紹Nano Banana 是 Google 于 2024 年推出的革命性 AI 驅動圖像生成與編輯模型&#xff0c;正式名稱為 Gemini 2.5 Flash Image。以下是對它的詳細介紹&#xff1a;技術背景&#xff1a;Nano Banana 基于 Google DeepMind 最新的 Gemini 2.5 Flash Image 架構&…

繼續吐槽Rstudio

前言 繼上次《怪談級別疑難問題收錄》后&#xff0c;怪談級別的疑難問題又更新了&#xff0c;這次更新了三個讓人吐血的奇葩問題&#xff0c;其中就包括大家又愛又恨的Rstudio&#xff0c;一起圍觀下。 本教程基于Linux環境演示&#xff0c;計算資源不足的同學可參考&#xf…

C++:string模擬實現中的賦值拷貝函數現代寫法詭異地崩掉了......

事情是這樣的&#xff1a;博主今天回看以前實現過的string&#xff0c;當時就遇到了一個bug:可見博主當時的破防。因為最近在集中復盤C初階部分&#xff0c;就有點好奇年輕的時候自己寫的模擬string是什么樣。沒想到給我自己留了個bug。現在來細看這個場景&#xff1a;為了測試…

機器學習-Bagging

Bagging-Bootstrap AGGrgratING Bagging并行訓練n個基本學習器&#xff08;base learner&#xff09;通過平均所有學習器的輸出&#xff08;回歸&#xff09;或主投票&#xff08;分類&#xff09;做決策每個模型是用在訓練集上通過bootstrap采樣得到的新的數據集進行訓練得到的…

Unity3D Shader 入門知識

Unity3D Shader 入門知識詳解。 Unity3D Shader 入門知識 Shader&#xff08;著色器&#xff09;對很多 Unity 初學者來說像是“黑魔法”。 實際上&#xff0c;Shader 并沒有那么神秘&#xff0c;它本質上就是一段運行在 GPU 上的小程序&#xff0c;用來控制 屏幕上每個像素的顏…

【面試之Redis篇】主從復制原理

從面試的角度來解釋 Redis 主從復制原理&#xff0c;按照“總-分-總”的結構&#xff0c;清晰地闡述其核心概念、工作流程和關鍵要點&#xff0c;這能體現出你不僅知道是什么&#xff0c;還理解為什么以及如何應對相關問題。總覽&#xff1a;一句話定義 面試官您好&#xff0c;…

數據庫開啟ssl

數據庫&#xff1a;阿里云rds 系統&#xff1a;centos 需要修改的&#xff1a;nacos連接項目連接本地navicat連接 重點&#xff1a;為了兼容本地和服務器&#xff0c;ssl證書路徑由原來的絕對路徑換成環境變量參數&#xff0c;所以有步驟4 文章目錄步驟1 阿里云步驟2 navicat…

Redis 事件驅動與多路復用源碼剖析

Redis 事件驅動與多路復用源碼剖析1. 前言 Redis 是 單線程 I/O 多路復用 的典型代表。 它并不是多線程處理請求&#xff0c;而是依賴 事件驅動&#xff08;event-driven&#xff09;模型&#xff0c;在一個線程內高效管理海量連接。 核心組件&#xff1a; ae.c&#xff1a;事…

VR煤礦實訓系統相較于傳統煤礦培訓方式的獨特優勢?-廣州華銳互動

高度逼真&#xff0c;沉浸體驗?VR煤礦實訓系統運用先進的3D建模、動態仿真技術&#xff0c;對煤礦井下的復雜環境進行1:1還原。從幽深的巷道、運轉的采煤設備&#xff0c;到潮濕的空氣、昏暗的燈光&#xff0c;甚至細微的煤塵顆粒&#xff0c;都能逼真呈現。使用者戴上VR設備后…

javaweb XML DOM4J

XMLXML作用就是配置文件&#xff0c;properties使用不了較復雜的需求&#xff0c;xml應運而生配置文件對比 xml更方便tips1:新建resources目錄&#xff0c;并將src中的jdbc.properties移到resourcs中&#xff0c;并且右鍵標記為源代碼根目錄&#xff0c;這樣運行src時就會和pro…

多模態視頻理解領域 Benchmark 與 Leaderboard 整理

多模態視頻理解是當前人工智能領域的研究熱點&#xff0c;其核心目標是讓模型像人類一樣&#xff0c;綜合視頻中的視覺、聽覺&#xff08;部分場景&#xff09;及文本信息&#xff0c;實現對視頻內容的深度感知、理解與推理。為客觀評估模型性能&#xff0c;行業內涌現了眾多權…

18j621-3通風天窗圖集pdf(免費高清版)

18j621-3通風天窗已經替代05j621-3通風天窗圖集成為目前比較通用的建筑屋頂通風選型重要參考標準&#xff0c;18j621-3圖集是對前圖集的優化和革新&#xff0c;在18j621-3圖集中新增了TC8圓拱型電動采光天窗&#xff0c;豐富了屋面通風排煙設備的選型。在18j621-3天窗圖集中&am…

LawGPT:基于中文法律知識的大模型

本文轉載自&#xff1a;https://www.hello123.com/lawgpt ** 一、?? LawGPT&#xff1a;中文法律界的 “AI 法助”&#xff0c;啃透了 15 萬份判決書&#xff01; LawGPT 是一系列專攻中文法律知識的開源大模型&#xff0c;在通用中文基座&#xff08;如 ChatGLM&#xff0…

用 go-commons 快速寫一個監控 CPU/內存的 Exporter

歡迎加入開源項目&#xff0c;提你的 mr Go Commons&#xff1a;Golang 開發者的常用工具集&#xff0c;一站式解決常見需求 在 Go 語言的開發過程中&#xff0c;你是不是經常遇到這樣的情況&#xff1a; 想要做點小功能&#xff0c;卻得從零寫起&#xff0c;或者到處找三方…

KingbaseES客戶端工具Ksql使用全指南:從安裝到高級操作

引言 在國產數據庫蓬勃發展的今天&#xff0c;KingbaseES憑借其自主可控、高性能、高可用的特性&#xff0c;已成為政務、金融、能源等關鍵領域的首選數據庫。而作為其配套的命令行工具&#xff0c;Ksql更是DBA和開發人員的“瑞士軍刀”——它不僅能高效執行SQL查詢&#xff0c…

【LeetCode - 每日1題】可以輸入的最大單詞數

?? 個人主頁:(時光煮雨) ?? 高質量專欄:vulnhub靶機滲透測試 ?? 希望得到您的訂閱和支持~ ?? 創作高質量博文(平均質量分95+),分享更多關于網絡安全、Python領域的優質內容!(希望得到您的關注~) ??目錄?? 難度 ?? 題目回顧 ?解題思路 ??概述 ??核心…

3227. 字符串元音游戲

3227. 字符串元音游戲 題目鏈接&#xff1a;3227. 字符串元音游戲 代碼如下&#xff1a; class Solution { public:bool doesAliceWin(string s) {return ranges::any_of(s, [](char c) {return c a || c e || c i || c o || c u;});} };

微信小程序坐標位置使用整理(四)map組件

一、地圖上標點&#xff0c;marker 1.wxml <map id"map" scale"9" class"map"markers"{{markers}}" longitude"{{longitude}}" latitude"{{latitude}}" show-location"{{true}}"><cover-vie…

Parlant框架深度技術解析:革命性AI代理行為建模引擎

引言 在人工智能快速發展的今天&#xff0c;AI代理&#xff08;Agent&#xff09;技術已經成為連接人工智能與實際應用場景的重要橋梁。然而&#xff0c;傳統的AI代理開發面臨著諸多挑戰&#xff1a;提示詞工程的復雜性、行為不可預測性、工具調用的不確定性等問題嚴重制約了AI…