MLE-STAR:谷歌AI推出的機器學習工程新范式,一種搜索驅動、精準優化的智能代理

? 最近看到 Google AI 發布了一個叫?MLE-STAR(Machine Learning Engineering via Search and Targeted Refinement)的新系統,說實話,第一眼看完論文和相關介紹后,我是有點震撼的。這不只是一次簡單的“LLM + 自動化”拼湊,而是真正把機器學習工程(ML Engineering)這個復雜流程,用智能代理(agent)的方式往前推了一大步。

? 咱們平時做項目的時候都知道,一個完整的 ML pipeline 涉及數據預處理、特征工程、模型選擇、調參、集成學習,還有各種 bug 調試和數據泄露檢查。這些活兒不僅瑣碎,還特別考驗經驗。以前我們也用過一些自動化工具,比如 AutoML,或者基于 LLM 的代碼生成 agent,但總覺得“差點意思”——要么太依賴模型自己“記住”的東西,要么改代碼像“一把梭”,整個腳本重寫一遍,效率低,效果也不穩定。

Image

? 而這次 Google Cloud 團隊推出的 MLE-STAR,我覺得是真正抓住了痛點。

它到底解決了什么問題?

? 文章里提到幾個關鍵瓶頸,我深有體會:

  1. 1.?LLM 記憶的局限性:很多 agent 寫代碼時,總是習慣性地用 scikit-learn 套個 Random Forest 或 XGBoost 就完事了。不是不好,但在某些任務上,比如圖像、音頻,明明有更先進的模型(比如 ViT、EfficientNet),但它“想不起來”或者“不敢用”。這就導致方案不夠前沿。

  2. 2.?粗粒度的迭代方式:以前的 agent 往往是“全盤重寫”——跑一次結果不好,就整個代碼重新生成一遍。這種“all-at-once”的修改,缺乏針對性,很難深入優化某個模塊,比如特征編碼方式或者歸一化策略。

  3. 3.?容易出錯,還難發現:生成的代碼經常有運行錯誤、數據泄露(比如在訓練時不小心用了 test set 的統計信息),或者干脆漏掉了某個數據文件。這些問題在真實項目中是致命的,但很多 agent 根本不檢查。

? MLE-STAR 正是在這幾個方面做了系統性的突破。

它的核心創新,我覺得可以用“搜、改、合、查”四個字來概括

1.?搜:Web Search–Guided Model Selection

? 這是讓我眼前一亮的設計。MLE-STAR 不再只靠 LLM 自己“腦補”模型,而是會主動調用?web-scale search,去檢索當前任務最相關的模型和代碼片段。比如你給它一個圖像分類任務,它會去搜最新的 model cards、Kaggle kernels、GitHub 項目,然后把 EfficientNet、ViT 這些真正 state-of-the-art 的架構納入候選。

? 這就相當于,它不是靠“背書”做題,而是開卷考試,還能查資料——你說這優勢多大?

2.?改:Nested, Targeted Code Refinement(嵌套式、針對性代碼優化)

? 這個機制特別聰明。它用了雙層循環優化

  • ??外層循環(Ablation-driven):它會做“消融實驗”(ablation study),自動分析當前 pipeline 中哪個模塊對性能影響最大——是數據預處理?特征工程?還是模型結構?

  • ??內層循環(Focused Exploration):一旦鎖定關鍵模塊,它就只針對那一塊做精細化迭代。比如發現 categorical feature 的編碼方式是瓶頸,它就會嘗試 One-Hot、Target Encoding、Embedding 等多種方式,逐一測試。

? 這種“先定位,再攻堅”的策略,比盲目重寫整個腳本高效太多了,也更接近人類專家的思維方式。

3.?合:Self-Improving Ensembling Strategy(自進化的集成策略)

? 集成學習(Ensemble)一直是 Kaggle 拿獎的利器,但大多數 agent 只會簡單地“投票”或“平均”。MLE-STAR 不一樣,它能主動設計復雜的集成方案,比如 stacking,甚至自己構建 meta-learner(元學習器),或者搜索最優權重組合。

? 更關鍵的是,它是在多個候選方案的基礎上動態組合,而不是只挑一個“最好”的。這就大大提升了魯棒性和上限。

4.?查:Robustness through Specialized Agents(專項檢查機制)

? 這一點在工程上太重要了。MLE-STAR 內置了三個“質檢員”:

  • ??Debugging Agent:遇到 Python 報錯,它會自動修復,直到代碼能跑通,最多試幾次;

  • ??Data Leakage Checker:專門檢查有沒有數據泄露,比如標準化時用了 test set 的均值;

  • ??Data Usage Checker:確保所有提供的數據文件都被充分利用,避免遺漏重要信息。

? 這些檢查機制,看似“輔助”,實則是保證結果可信的關鍵。沒有它們,再好的模型也可能因為一個小 bug 而前功盡棄。

效果怎么樣?數據說話

? 他們在?MLE-Bench-Lite?這個 benchmark 上做了測試,包含 22 個來自 Kaggle 的真實競賽任務,涵蓋表格、圖像、音頻、文本等多種模態。結果非常亮眼:

指標

MLE-STAR (Gemini-2.5-Pro)

最佳基線 AIDE

獲獎率(Any Medal)

63.6%

25.8%

金牌率(Gold Medal)

36.4%

12.1%

超過中位數

83.3%

39.4%

有效提交率

100%

78.8%

? 你看,獲獎率直接翻了兩倍多,金牌率更是三倍以上。尤其是在圖像任務上,MLE-STAR 主動選擇了 ViT、EfficientNet 這些現代架構,而不是守著 ResNet 不放,說明它真的“跟上了時代”。

? 而且,它的有效提交率是 100%,意味著生成的代碼都能跑通,沒有語法錯誤或文件缺失——這對自動化系統來說,是個巨大的工程勝利。

Image

Image

我的一些思考

? 說實話,看到這個系統,我第一反應是:“這已經不只是工具,而是一個會學習、會反思、會協作的 ML 工程伙伴了。”

? 它不像傳統的 AutoML 那樣“黑箱”,也不像純 LLM 生成那樣“隨性”,而是建立了一套有邏輯、有反饋、有安全邊界的工作流。特別是那個“ablation-driven”的外層循環,讓我覺得它有點像人類研究員在做實驗設計——先分析瓶頸,再集中突破。

? 另外,它還支持?human-in-the-loop,比如專家可以手動注入最新的模型描述,幫助系統更快采納前沿技術。這種“人機協同”的設計,既保留了自動化效率,又不失靈活性,非常務實。

? 更讓人高興的是,Google 把這套系統基于?Agent Development Kit (ADK)?構建,并且開源了代碼和教程。這意味著我們普通研究者和工程師也能上手試用、二次開發,甚至把它集成到自己的 pipeline 中。這種開放態度,對整個社區都是好事。


總結一下

? MLE-STAR 真的代表了當前 ML 自動化的一個新高度。?它通過“搜索打底、聚焦優化、智能集成、嚴格檢查”這一整套機制,不僅提升了性能,更重要的是提升了可靠性可解釋性

? 如果你在做 AutoML、智能 agent、或者 MLOps 相關的工作,這個項目非常值得深入研究。我已經在 GitHub 上 star 了他們的 repo,也打算用他們的 notebook 先跑一個 demo 試試。

? 未來,也許我們不再需要從頭寫每一個 pipeline,而是和像 MLE-STAR 這樣的 agent 一起協作——它負責執行和迭代,我們負責定義問題和把控方向。這或許就是下一代機器學習工程的樣子。

詳見

  1. 1. 論文:https://www.arxiv.org/abs/2506.15692

  2. 2. 代碼:https://github.com/google/adk-samples/tree/main/python/agents/machine-learning-engineering

  3. 3. 相關文檔:https://research.google/blog/mle-star-a-state-of-the-art-machine-learning-engineering-agents/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94730.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94730.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94730.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

3-防火墻

防火墻 一 防火墻概述防火墻概述防火墻是一個位于內部網絡與外部網絡之間的安全系統(網絡中不同區域之間),是按照一定的安全策略建立起來的硬件或軟件系統,用于流量控制的系統(隔離),保護內部網…

python opencv 調用 海康威視工業相機(又全又細又簡潔)

1.準備工作 準備一個海康相機 下載MVS 和SDK 海康機器人-機器視覺-下載中心 2.python MVS示例 (說明:MVS里有很多python示例,可以直接運行,但沒有用opencv) 下載完MVS后,我們打開路徑安裝路徑 我的&#…

計算機基礎·linux系統

Finalshell 用于遠程操控vmware中的linux系統 獲取虛擬機的IP地址 ifconfig命令,重啟系統后IP地址可能會變化!問題:vmware子系統沒有網絡連接 winRservices.msc啟動這些服務問題:配置正確但是finalshell連接失敗 更新子系統中的ss…

8.結構健康監測選自動化:實時數據 + 智能分析,遠超人工

第一次接觸結構健康自動化監測系統,感覺成本很高,比人工好在哪里? 人工檢測是依靠目測檢查或借助于便攜式儀器測量得到的信息,但是隨著整個行業的發展,傳統的人工檢測方法已經不能滿足檢測需求,從人工檢測到…

【慕伏白】Android Studio 配置國內鏡像源

文章目錄配置HTTP代理修改 gradle 鏡像地址修改 maven 鏡像源重新同步配置HTTP代理 進入File --> Settings --> Appearance & Behavior --> System Settings --> HTTP Proxy 勾選 Auto-detect proxy settings --> Automatic proxy configuration URL &…

Spring Cloud系列—LoadBalance負載均衡

上篇文章: Spring Cloud系列—Eureka服務注冊/發現https://blog.csdn.net/sniper_fandc/article/details/149937589?fromshareblogdetail&sharetypeblogdetail&sharerId149937589&sharereferPC&sharesourcesniper_fandc&sharefromfrom_link …

如何使用 pnpm創建Vue 3 項目

? 一、什么是 pnpm? pnpm 是一種更快、更高效的 Node 包管理工具,替代 npm 或 yarn,具有: 更快的安裝速度更節省磁盤空間(包復用)嚴格的依賴管理二、使用 pnpm 創建 Vue 項目的完整流程 ? 第一步&#xf…

Vite vs. vue-cli 創建 Vue 3 項目的區別與使用場景

Vite vs. vue-cli 創建 Vue 3 項目的區別與使用場景 Vite 和 vue-cli 都是 Vue 官方推薦的腳手架工具,但它們的架構、構建方式和適用場景有所不同。以下是它們的對比:1. 核心區別對比項Vite (推薦🔥)vue-cli (傳統)構建工具基于 ESM Rollup基…

VC6800智能相機:賦能智能制造,開啟AI視覺新紀元

在工業自動化與智能化浪潮奔涌的今天,精準、高效、智能的視覺檢測已成為提升生產力和品質的關鍵核心。VC6800智能相機應運而生,它不僅僅是一部相機,更是一個集強大視覺硬件與前沿AI算法于一身的 “工業智眼”,正深刻改變著各個領域…

(Python)Python爬蟲入門教程:從零開始學習網頁抓取(爬蟲教學)(Python教學)

一、爬蟲基礎概念 什么是爬蟲? 網絡爬蟲(Web Crawler)是一種自動獲取網頁內容的程序,它像蜘蛛一樣在互聯網上"爬行",收集和提取數據。 爬蟲應用場景: 搜索引擎(Google、百度&#…

dify前端源碼部署詳細教程

這兩天突發奇想,能不能dify源碼部署我只部署個前端,后端、數據庫什么的還是原來docker部署dify的本地部署和遇到的問題。按邏輯來說應該是行得通的,我就親自操作了下試下。 我這邊就以我以前使用docker部署好的1.3.1版本為例。docker安裝參考…

Web地圖服務規范,WMS服務是什么

Web地圖服務規范,WMS服務是什么? WMS,全稱 Web Map Service (網絡地圖服務),是有OGC(開放地理空間信息聯盟)制定的一項標準化協議。他的核心功能是允許客戶端(比如網頁瀏覽器或者GIS桌面軟件)通過互聯網或者…

北京手機基站數據分享:9.3萬點位+雙格式,解鎖城市通信「基礎設施地圖」

今天分享的是——??2023年7月北京市手機基站數據(shpcsv雙格式)??。92,785個基站點位(覆蓋全市16區),WGS84坐標系直接能用,shp格式適配GIS軟件,csv格式方便Excel/Pandas分析!文末…

Druid學習筆記 01、快速了解Druid中SqlParser實現

文章目錄前言介紹Druid代碼目錄介紹模塊一:Parser模塊二:Druid_SQL_AST在Druid SQL Parser中有哪些AST節點類型?熟悉常用的AST節點組成常用的SQLExpr有哪些?常用的SQLStatemment?SQLTableSourceSQLSelect & SQLSelectQuerySQ…

Rust中生命周期的理解與應用

在學習Rust編程語言時,理解生命周期(Lifetime)是非常關鍵的,因為它直接影響到代碼的安全性和性能。今天我們來深入探討Rust中的一個常見問題——生命周期的誤解和正確應用,結合實際代碼實例來說明。 生命周期的基本概念 Rust中的生命周期是用來確保引用(Reference)在其…

智慧感知新體驗:英飛凌雷達在智能家居的創新應用

隨著智慧家居快速發展,感知技術成為實現高效、便捷生活的關鍵。雷達作為非接觸、高精度的感測方案,正在家居應用中展現出巨大潛力。 本次研討會將由英飛凌大中華區雷達應用產品經理 Tommy Wan主講,分享他在智能門鈴、門鎖與安防攝像頭等應用…

AI:新書預告—從機器學習避坑指南(分類/回歸/聚類/可解釋性)到大語言模型落地手記(RAG/Agent/MCP),一場耗時5+3年的技術沉淀—“代碼可跑,經驗可抄”—【一個處女座的程序猿】攜兩本AI

AI:新書預告—從機器學習避坑指南(分類/回歸/聚類/可解釋性)到大語言模型落地手記(RAG/Agent/MCP),一場耗時53年的技術沉淀—“代碼可跑,經驗可抄”—【一個處女座的程序猿】攜兩本AI實戰書終于正式來了! 導讀:大家好&…

數據結構:棧、隊列

一、棧和隊列與鏈表的區別1.鏈表可以在任意位置插入和刪除元素2.棧和隊列只允許在指定位置插入和刪除元素3.棧只允許在棧頂位置入棧和出棧元素3.相同點:表、棧、隊列都是一種線性結構(一對一)4.棧和隊列是一種特殊的表狀結構二、棧&#xff0…

cuda編程筆記(13)--使用CUB庫實現基本功能

CUB 是 NVIDIA 提供的 高性能 CUDA 基礎庫&#xff0c;包含常用的并行原語&#xff08;Reduction、Scan、Histogram 等&#xff09;&#xff0c;可以極大簡化代碼&#xff0c;并且比手寫版本更優化。CUB無需鏈接&#xff0c;只用包含<cub/cub.cuh>頭文件即可需要先臨時獲…

LabVIEW濾波器測控系統

?基于LabVIEW 平臺的高頻濾波器測控系統&#xff0c;通過整合控制與測試功能&#xff0c;替代傳統分離式測控模式。系統以 LabVIEW 為核心&#xff0c;借助標準化接口實現對濾波器的自動化參數調節與性能測試&#xff0c;顯著提升測試效率與數據處理能力&#xff0c;適用于高頻…