4 月 18 日 - 19 日,由 CSDN & Boolan 聯合舉辦的 2025 全球機器學習技術大會(ML-Summit)于上海順利舉行。大會聚焦人工智能與機器學習前沿技術,匯聚了來自科技與人工智能領域的數位頂尖專家以及數千名開發者和研究者,吸引了來自電商、金融、汽車、智能制造、通信、工業互聯網、醫療、教育等眾多行業的精英參會聽眾,共同探討人工智能領域的前沿發展和行業最佳實踐。
阿里巴巴高級技術專家張玉明作為特邀講師,以“通義靈碼 AI 程序員解密:AI Agent 在軟件研發領域的落地實踐”為主題的演講,成為本次大會的一大亮點。
阿里巴巴高級技術專家張玉明圍繞主題闡述了隨著大語言模型技術的快速發展,AI 輔助編程工具正在重塑軟件開發范式。深入剖析了通義靈碼 AI 程序員的技術架構與實踐經驗,探討如何通過 AI Agent 技術突破傳統智能編碼助手的能力邊界。演講重點分享了基于大模型的代碼全工程理解與代碼生成、Agent 框架設計、模型訓練等關鍵技術,以及在需求理解、多文件代碼變更、單測生成等場景的創新應用。
AI 編碼工具的發展情況
阿里巴巴高級技術專家張玉明從 2020 年到 2022 年期間是如何通過智能化手段面向代碼編寫、代碼評審以及代碼檢測這三個核心研發場景進行能力建設引出 AI 2.0 時代的到來。近年 AI 編碼工具產品飛速演進,AI Coding 儼然已成為大模型落地的最佳應用場景。
以通義靈碼為例,從工具的使用角度出發講述 AI 與人的協同編碼模式,主要會經歷三個階段:輔助編碼階段,這一階段靈碼的代碼生成占比平均能超過 30%;當前所處在的是面向任務的協同編程階段,這一階段程序員的主要工作是任務的澄清、過程的干預和結果的審查,靈碼的代碼生成占比差不多是 50%;并表示未來會進入 AI 自主編程的高級階段,AI 的代碼生成占比將會超過人類,具體形式是通過多 Agent 協同來完成端到端的需求級任務開發,人在里面負責的工作是創意、需求的澄清和結果的驗收。靈碼的規劃目標是盡快越過當前協同編程階段,率先進入自主編程的高級階段。
大語言模型下的軟件研發新范式
阿里巴巴高級技術專家張玉明提到從場景上講輔助編碼和協同編程的區別在于,開發者從專注于 IDE 的 Edit 區在編碼時基于大語言模型生成的代碼提示按下 Tab 鍵進行確認,逐步過渡到將更多的關注和操作放到了 IDE 會話區基于 Agent 模式的對話式編程,這時的 IDE 的智能輔助已超越傳統補全,演變為自主決策規劃型協作者,環境感知 + 自主決策將成為后續智能編碼工具的標配。而對話式編程簡單講就是人類通過自然語言描述,與工具以對話的方式進行交互,從而完成代碼的編寫。張玉明表示:“編程發展到這一步既是突破也是順理成章,就像從一開始的機器語言到匯編再到現在的高級編程語言。高級編程語言幫我們屏蔽掉了匯編語言的使用復雜度,類推自然語言也遲早會屏蔽掉高級編程語言,這一天的到來相信并不遙遠。”
編碼智能體從產品層面可以如何更好支持對話式編程
基于 AI Agent,AI 編碼能力將從行級、片段級生成跨越到面向工程的多文件生成;可以進一步實現上下文自動感知、編程工具自動使用、自動功能驗證、自我反思迭代等自動化能力。進而支持開發者只需要輸入準確的需求和上下文,AI 可自主完成從需求理解、任務規劃、代碼生成、DIFF 應用全過程。開發者無需從零開始編碼,而是基于 AI 生成結果完成任務。隨著模型能力、Agent 能力的成熟,開發者可以更加信任 AI,并傾向于將盡可能多的編碼任務交給 AI 完成。此時稱之為的信任拐點已經到來,AI 更加擬人,從一個輔助生成功能,變成了可以交流溝通的編程伙伴。
通義靈碼 AI 程序員核心技術能力構建
從工程實現角度來講張玉明認為有三個關鍵能力至關重要,即:
通義靈碼 AI 程序員系統流程設計
結合對話式交互,在開發者輸入具體需求描述后,AI 程序員結合用戶手動引入的上下文、Codebase 檢索結果、長短期記憶等進行提示詞組裝,然后經過服務端大模型的意圖識別及推理規劃,觸發客戶端本地 Agent 工具調用,基于工具執行結果進行推理或反思迭代,進而生成編碼方案并將代碼 diff 自動 Apply 到本地工程文件實現文件改寫,最后由用戶針對改動進行審查。
通義靈碼 AI 程序員 Agent 框架
其設計上整體分為三層:
Core 層主要由 Graph、Memory、Tool 等核心模塊組成。其中 Graph 模塊主要包含 State、Node、Edge 等組件,負責 workflow 和 agent 的編排。Memory 模塊負責處理長短期記憶。Tool 模塊負責模型工具的定義和調用。
中間是 Extension 層,主要在 LangChain 和 LangGraph 的 Chain 和 Node 的基礎上再抽象一層來支持 Agent 的實現,目的是能夠更便捷的實現 Agent 和 Multi Agent;另外是可以友好的支持工具、大語言模型和 RAG 的擴展。
最上面是 Manager 層,主要負責 Agent 注冊、維護,會話管理,多 Agent 編排及 Agent 框架和外部交互的接口。
在理想情況下,基于工程感知能力基礎上的一次需求實現的流程時序如圖所示:首先由用戶在 IDE 插件端輸入需求描述,Lingma Agent 將可用的檢索工具信息及必要的工程上下文給到大模型,大模型綜合上下文理解需求和工程結構,生成規劃,通過調用向量檢索工具召回與需求語義相似的代碼片段,通過關鍵字檢索工具返回相關代碼,通過引用關系檢索工具查看依賴調用關系并進一步返回相關代碼,合并、去重、排序后返回最相關的上下文,進而讓大模型生成代碼編輯方案,再由 Lingma Agent 完成源文件的變更,最終實現用戶需求。
AI 程序員典型使用場景
- **新功能開發:**基于自定義的應用框架,結合任務描述,快速完成工程文件初始化;基于已有工程進行功能迭代,進行批量代碼修改,幫助開發者快速完成研發任務。
- **跨語言編程:**讓開發者跨越編程語言的邊界,擁有全棧能力,如 Java 開發者也可以與 AI 程序員協同,進行前端開發,或使用 Python、JavaScript 等多種語言,快速編寫小工具、小游戲。
- **單元測試編寫:**結合被測函數和文件,幫助開發者批量生成單元測試,并完成編譯和運行,比如針對每天完成的新增代碼,進行單元測試覆蓋,大幅提效。
- **錯誤排查及修復:**當開發者遇到編譯、調試錯誤,可以在 IDE 中選擇錯誤信息,或者直接提交報錯信息截圖,靈碼可自動進行分析,給出解決方案和代碼修改建議,幫助開發者快速進行問題排查修復。
下一步展望:持續構建智能編程的未來
阿里巴巴高級技術張玉明表示下一階段,在 IDE 側會秉承簡單、智能、主動學習三個核心原則去打造通用研發智能體。
簡單指的是產品交互簡潔,用戶理解、使用門檻低;智能指的是完全由模型驅動,不做工作流式的解決方案,完全基于模型的自主規劃、反思及工具使用能力打造 ReAct 模式智能體;主動學習指的是能夠根據用戶行為偏好總結用戶畫像、將成功經驗自動沉淀以應用于未來相似的任務,進而形成智能體長期記憶,使通用研發智能體越來越聰明、越來越懂開發者。除了以上三個核心原則,在產品功能建設層面,加入更多IDE 原生工具能力,如 Lint 工具、Debug 工具等,使其與 Agent 無縫結合,進一步提升編碼效率和質量;同時通過 MCP 工具市場接入豐富的三方工具,不斷擴展 Agent 能力邊界;另外通過自定義規則及工具配置支持用戶定制符合個性化研發場景的自定義智能體。
阿里巴巴高級技術專家張玉明的演講引發了參會者的廣泛關注和熱烈討論。通義靈碼 AI 程序員不僅提高了開發效率和質量,降低了開發成本,還為開發者提供了更加便捷和高效的開發體驗。相信在未來,隨著技術的不斷進步和應用場景的不斷拓展,通義靈碼 AI 程序員可以為開發者帶來更多的可能性。
最后阿里巴巴高級技術專家張玉明表示:“人工智能技術正在重塑千行百業,希望通過我們的不斷努力和探索,能夠將軟件研發這項工作變得更簡單、更有趣且更有價值。”