論文標題:Eight years of AutoML: categorisation, review and trends
論文鏈接:https://link.springer.com/article/10.1007/s10115-023-01935-1
本文主要圍繞自動機器學習(AutoML)展開了系統性的文獻綜述,總結了該領域的主要觀點和發現。以下是對每個章節的主要觀點的歸納總結:
摘要
AutoML的目的:解決機器學習方法在實際應用中所需的技術知識和背景,以及耗時和重復的步驟,使其更加實用。
AutoML的發展歷程:自2014年出現以來,AutoML領域的發表數量顯著增長。
主要技術趨勢:神經架構搜索(NAS)的增長明顯,算法選擇問題逐漸被工作流程組合所取代。
2.?理論背景
AutoML的目的:自動化機器學習過程中的各個階段和任務,以及應用的技術。
AutoML的主要任務:超參數優化、神經架構搜索、算法選擇和工作流程組合。
3.?綜述方法
研究問題:對AutoML領域的研究進行了四個主要問題的調查,包括術語的提取、定量發展趨勢、自動化階段和技術的覆蓋范圍,以及未來的趨勢和開放性問題。
4.?AutoML分類法
AutoML分類方法是根據文獻綜述中提出的三維分類法,對AutoML方法進行分類的一種方法。這個分類方法包括三個維度:自動化的知識發現過程階段、執行的任務以及應用的技術。讓我們對這三個維度進行更詳細的介紹:
自動化的知識發現過程階段:這個維度涉及到AutoML方法所涉及的知識發現過程的不同階段,例如數據預處理、數據挖掘和后處理等。文獻綜述發現,AutoML主要集中在數據挖掘階段,而對于預處理和后處理階段的自動化研究相對較少。這個維度的分類可以幫助研究人員了解不同AutoML方法在知識發現過程的不同階段上的應用情況。
執行的任務:這個維度涉及到AutoML方法所執行的具體任務,例如超參數優化、神經架構搜索、算法選擇和工作流程組合等。文獻綜述發現,AutoML方法主要集中在超參數優化和神經架構搜索等任務上。這個維度的分類可以幫助研究人員了解不同AutoML方法在執行不同任務時所采用的方法和技術。
應用的技術:這個維度涉及到AutoML方法所應用的具體技術和方法,例如進化算法、貝葉斯優化、梯度下降等。文獻綜述發現,不同的AutoML方法采用了不同的技術和方法來解決自動化問題。這個維度的分類可以幫助研究人員了解不同AutoML方法所采用的技術和方法的差異和特點。
這個三維分類法為AutoML方法的分類提供了一個全面的框架,幫助研究人員更好地理解和比較不同的AutoML方法。
5.?定量結果
發現AutoML領域的研究數量自2014年以來呈現顯著增長,2021年的發表數量幾乎是2014年的五倍。
發現AutoML主要集中在數據挖掘階段,而其他階段的自動化研究相對較少。
AutoML歷年相關論文數量
6. 質性結果
發現AutoML領域的主要研究集中在數據挖掘階段,而對于預處理和后處理階段的自動化研究相對較少。
發現AutoML方法傾向于將自動化過程視為黑匣子問題,限制了生成模型的可解釋性或關于達到生成解決方案的過程的解釋。
7. 階段、任務和技術的交叉分析
對AutoML方法在不同維度之間的關系進行了分析。這個分析旨在揭示不同階段、任務和技術之間的關聯,以便更好地理解當前的AutoML研究趨勢和存在的挑戰。
階段和任務的關系:通過分析不同任務在自動化知識發現過程的不同階段中的應用情況,研究人員發現了一些趨勢和模式。例如,他們可能發現某些任務在特定階段中的應用頻率較高,而在其他階段中較低。這有助于了解不同任務在知識發現過程中的角色和重要性。
任務和技術的關系:通過分析不同任務所應用的技術和方法,研究人員可以揭示不同任務所采用的技術趨勢。例如,他們可能發現某些任務更傾向于采用特定的技術或方法,而其他任務則更傾向于采用不同的技術。這有助于了解不同任務所涉及的技術和方法的差異和特點。
這種交叉分析有助于揭示AutoML研究中不同維度之間的關系,為研究人員提供了更深入的理解和見解。這種分析有助于發現當前的研究趨勢、存在的挑戰以及未來的研究方向。
8. 開放性問題、挑戰和趨勢
在挑戰部分,研究人員指出了AutoML領域面臨的一些挑戰和問題,并對未來的發展趨勢進行了推測和討論。
未覆蓋的階段:研究發現,AutoML主要集中在數據挖掘階段,而對于預處理和后處理階段的自動化研究相對較少。這意味著AutoML方法尚未涵蓋整個知識發現過程,而是集中在部分階段的自動化上。這表明未來的研究需要更多地關注知識發現過程中其他階段的自動化,以實現更全面的自動化支持。
缺乏互操作性:目前的AutoML方法通常只自動化知識發現過程的單個階段,而缺乏不同方法之間的互操作性。這意味著不同的AutoML方法往往是孤立的,難以相互配合和復用。未來的研究需要考慮如何實現不同AutoML方法之間的互操作性,以便更好地支持整個知識發現過程的自動化。
人類角色的作用:AutoML方法通常作為黑匣子方法,缺乏對生成模型的解釋和人類參與的支持。未來的研究需要考慮如何將人類納入AutoML系統的自動化過程中,以實現更好的交互和指導。此外,未來的研究還需要關注如何生成可解釋的模型,以便更好地支持人類的理解和解釋。
實證驗證和可復制性:研究發現,許多AutoML方法在實驗驗證方面存在一些不足。例如,一些方法只是與簡單的機器學習基準進行比較,而缺乏與其他研究的比較。此外,一些方法也缺乏適當的統計框架支持。未來的研究需要更加重視實證驗證和可復制性,以確保AutoML方法的有效性和可靠性。
這些挑戰和問題為AutoML領域的未來發展提出了一些重要的方向和目標。未來的研究需要關注如何解決這些挑戰,以實現更全面、有效和可靠的AutoML方法。
結論
AutoML仍然是一個新興的領域,面臨著許多有前途的挑戰,尤其是在神經架構搜索方面的顯著發展趨勢。
提出了一個AutoML分類法,將有助于未來研究的分類,并為對AutoML感興趣的研究人員和從業者提供參考。
這些總結突出了AutoML領域的主要發現和趨勢,為該領域的研究和實踐提供了有價值的見解。