Agent Laboratory: Using LLM Agents as Research Assistants 論文簡介

加速機器學習研究的智能實驗室——Agent Laboratory

1. 引言

隨著人工智能技術的飛速發展，機器學習領域正以前所未有的速度推進科學發現和技術創新。然而，傳統的科學研究模式往往受到時間、資源和專業知識限制，阻礙了研究者們探索新想法的能力。為了解決這一挑戰，引入了一個名為“Agent Laboratory”的開源框架，它利用大型語言模型（LLMs）構建了一組自動化代理，能夠完成從研究構思到最終報告的全流程工作。本文將詳細介紹這個智能實驗室的工作原理、評估它的性能，并探討它在推動科研自動化的潛力。

2. 研究問題

Agent Laboratory的目標是幫助個人更高效地進行機器學習領域的研究。它通過整合多個專業化的LLM驅動的代理，實現了端到端的科研流程自動化。這些代理涵蓋了文獻綜述、實驗設計、數據處理、模型訓練、結果分析和報告撰寫等多個環節。這種集成式的方法旨在減少重復勞動，讓研究人員可以將更多精力投入到創造性的研究和實驗設計中。

3. 方法

文獻綜述階段

在這個階段，PhD學生代理使用arXiv API檢索相關論文摘要，并將它們納入一個精心策劃的文獻回顧中。該代理可以執行三個主要操作：summary（獲取前20篇最相關的論文摘要）、full text（提取特定論文的全文）和 add paper（將選定的摘要或全文添加到文獻回顧集中）。這個過程是迭代而非一次性完成的，因為代理人會不斷查詢、評估每篇文章的相關性，并根據需要調整選擇，直到達到指定的相關文本數量為止。

計劃制定階段

在計劃制定過程中，PhD和Postdoc代理合作對話，共同制定實現研究目標的詳細行動計劃。他們討論如何實施研究計劃，包括選擇合適的機器 learning模型、尋找合適的數據集以及確定具體的實驗步驟。一旦達成共識，Postdoc就會提交計劃使用 plan命令。

數據準備階段

在這一步，ML工程師代理負責編寫用于數據準備的代碼。該代理可以使用Hugging Face Datasets搜索和加載外部數據集，并通過Python命令行接口與PhD學生交互，逐步完善數據預處理的腳本。當雙方都同意最終版本后，軟件開發工程師代理會提交代碼使用 submit code命令。在此之前，代碼會被編譯以確保沒有語法錯誤。

運行實驗階段

在此階段，ML工程師專注于實現和執行實驗計劃中定義的實驗。這由一個稱為 mle-solver的特殊模塊自動完成，它生成、測試和優化機器學習代碼。mle-solver開始時基于研究計劃和先前的文獻綜述生成初始代碼。然后，它會反復修改代碼，每次嘗試都會替換一小段現有代碼，并在每次嘗試后檢查代碼是否成功編譯且得分更高。如果代碼不編譯，它會嘗試修復最多三次，否則繼續下一個修改嘗試。最后，它會維護一組最高分程序列，并定期更新其中表現不佳的程序。

結果解讀階段

在結果解讀階段，PhD和Postdoc討論實驗結果的意義，并形成對這些結果的一致理解。之后，Postdoc會將他們的見解提交給系統使用 interpretation命令，為后續的報告寫作奠定基礎。

報告撰寫階段

在報告撰寫階段，PhD和教授代理協作創建一份全面的學術研究報告。這項任務主要由 paper-solver工具支持，它依次生成和改進報告的各個章節，遵循標準的學術論文結構，如摘要、引言、背景、相關工作、方法、實驗設置、結果和討論。paper-solver還允許訪問arXiv數據庫，以便在撰寫相關部分時查找額外的參考資料。生成的LaTeX文件可以直接編譯成PDF格式，以便即時查看和進一步編輯。

報告精煉階段

在報告精煉階段，PhD決定是否需要對報告進行修訂，或者是否已經滿足足夠高的標準。如果是后者，他們會指示 paper-solver停止工作；否則，他們會提供反饋指導代理進行必要的改進。

4. 實驗與結果

質量評估

為了評估Agent Laboratory的質量，我們招募了十名博士研究生作為志愿者，讓他們評審三篇隨機分配的論文。參與者被要求評價實驗質量、報告質量和有用性，所有指標均采用五分制評分。我們的目標是了解不同LLM后端（gpt-4o、o1-mini和o1-preview）的表現差異。以下是一些關鍵發現：

實驗質量

o1-mini通常展現出最高的實驗質量分數，平均得分為3.2/5，而gpt-4o和o1-preview的平均得分分別為2.6/5和2.9/5。

報告質量

o1-preview獲得了最高的報告質量評分，平均為3.4/5，其次是o1-mini的3.2/5和gpt-4o的3.0/5。

有用性

o1-preview再次領先，獲得最高的實用性評分，平均為4.4/5，緊隨其后的是o1-mini的4.0/5和gpt-4o的4.0/5。

總體而言，o1-preview被認為是最有用的，而o1-mini則在實驗質量方面表現出色。gpt-4o則相對較弱，尤其是在實驗質量和報告質量方面。此外，我們還注意到不同的研究主題可能影響評分，例如“詞序敏感度”主題下的論文普遍獲得了較高的評價。

人類評審員的評分

除了上述整體評分外，我們還邀請人類評審員按照NeurIPS會議的標準對論文進行了評分。評審員評估了六個維度：質量、意義、清晰度、穩健性、呈現度和貢獻。以下是各維度的平均得分：

質量

o1-preview獲得了最高的質量評分，平均為2.2/4，gpt-4o和o1-mini分別得到1.8/4和2.3/4。

意義

對于意義，所有LLM后端獲得的評分相似，范圍在2.2至2.5/4之間。

清晰度

gpt-4o得到了最低的清晰度評分，為2.6/4，o1-mini的評分為2.1/4，o1-preview則為3.6/4。

穩健性

o1-preview在穩健性方面獲得了最高的評分，為2.2/4，gpt-4o和o1-mini分別得到1.7/4和1.8/4。

呈現度

o1-preview再次取得最佳成績，平均得分為3.3/4，gpt-4o和o1-mini分別為3.0/4和2.1/4。

貢獻

在貢獻方面，o1-preview同樣表現最好，平均得分為3.0/4，gpt-4o和o1-mini分別為2.1/4和2.3/4。

總的來說，o1-preview在大多數類別中獲得了更高的評分，表明其輸出更能符合人類評審員的期望。相比之下，gpt-4o在一些類別中的表現略顯遜色。值得注意的是，這些評分相對于NeurIPS接受論文的平均水平（約5.9分）仍有一定差距，提示Agent Laboratory在某些方面還有提升空間。

與自動評審員的對比

為了更好地理解Agent Laboratory產出的論文質量，我們還使用了基于LLM的自動評審系統對其進行評分。有趣的是，自動評審系統的評分顯著高于人類的評分，特別是在貢獻和清晰度方面。這可能意味著自動評審系統過于樂觀地估計了論文的價值，而人類的判斷更加保守。因此，結合兩者的評分可能會提供更為準確的質量評估。

5. 成本和時間效率分析

我們對Agent Laboratory在不同LLM后端上的運行時間和成本進行了分析，如下表所示：

階段	gpt-4o	o1-mini	o1-preview
文獻綜述	92.9秒	56.8秒	23.3秒
計劃制定	23.3秒	33.1秒	33.1秒
數據準備	10分鐘	1小時	1小時
運行實驗	417.8秒	2082.5秒	4036.2秒
結果解讀	1分鐘	1分鐘	1分鐘
報告撰寫	572.5秒	827.7秒	1854.2秒
報告精煉	1分鐘	1分鐘	1分鐘
總時長	1165.4秒	3616.8秒	6201.3秒
總成本（USD）	$2.33	$7.51	$13.10

從中我們可以看到，gpt-4o在大多數階段的運行速度最快，從而節省了大量的計算資源。例如，在文獻綜述階段，gpt-4o比o1-preview快了近5倍。而在成本方面，gpt-4o也是最具經濟高效的，整個工作流的費用僅為$2.33。相比之下，o1-preview雖然在一些階段的速度稍慢，但其在報告撰寫階段的成本較高，導致總成本上升。

6. 在MLE-Bench上的評估

為了單獨評估 mle-solver 的能力，我們將它應用于MLE-Bench的一個子集，這是一個包含75個真實世界Kaggle競賽任務的基準平臺。我們比較了四種解決方案的效果：mle-solver、MLAB、OpenHands 和 AIDE。結果顯示，mle-solver 在穩定性和高分率方面表現突出，總共贏得了四枚獎牌（兩金一銀一銅），超過了其他三種方法的綜合表現。具體來說，mle-solver 在六個任務中有五個達到了人類專家的水平，展示了其在通用機器學習問題求解方面的強大競爭力。

7. 結論

Agent Laboratory是一個強大的開源框架，它利用先進的LLM技術簡化了機器學習研究的過程。通過對不同LLM后端的評估，o1-preview在整體有用性方面表現最佳，而o1-mini則在實驗質量上尤為突出。盡管如此，所有的LLM后端都有進一步提升的空間，尤其是針對那些涉及復雜推理和創造性思維的任務。

Agent Laboratory不僅減少了研究過程中的繁重工作，而且降低了成本，使得更多的研究者能夠參與到前沿研究中來。展望未來，期待著看到Agent Laboratory在促進跨學科交流和加快知識傳播方面發揮越來越重要的作用。

文獻鏈接：https://arxiv.org/pdf/2501.04227