下列引用來自知乎作者Algernon 知乎link
FCP作為ZSC領域兩階段訓練方法的開創者
論文《Collaborating with Humans without Human Data》來自 NeurIPS 2021。這篇論文提出 Fictitious Co-Play (FCP) 來解決 ZSC 問題。論文認為,ZSC 的第一個重要問題是對稱性,第二個重要問題則是能夠與不同水平的智能體合作。這篇論文提出的 FCP 則是一種簡單的兩階段方法。在第一階段,使用 SP 訓練 個不同的同伴來打破對稱性。為了得到不同水平的智能體,需要在訓練過程中對每個智能體設置多個檢查點,越往后的檢查點表示技能越熟練的智能體。在第二階段,需要訓練 FCP 智能體來作為之前得到的個智能體的最佳響應。如下圖所示。
我對上文提到的兩個問題“ZSC 的第一個重要問題是對稱性,第二個重要問題則是能夠與不同水平的智能體合作。”很不解,同時不知道為什么要這樣設計算法。解答如下:
- 對稱性問題:
- 對稱性問題指的是在多智能體環境中,不同智能體的行為或策略可能處于對稱狀態,即所有智能體在訓練初期或環境設計上是等同的,彼此之間沒有明顯的區別。例如,在某些博弈或協作任務中,如果智能體的訓練初期都擁有相同的策略和能力,它們可能在合作時難以分辨彼此的角色,導致合作效率低下。
- 解決方法:為了打破這種對稱性,論文中提到的 Fictitious Co-Play(FCP)方法在第一階段通過訓練多個不同的智能體(同伴),每個智能體都有不同的技能水平。這樣,智能體在訓練過程中不會保持對稱,能促進它們發展出不同的策略和能力,以避免在合作中“雷同”的策略。
- 能夠與不同水平的智能體合作:
- 與不同水平的智能體合作是指智能體不僅要能夠與其他智能體合作,還要能夠與不同技能水平的智能體協同工作。在實際應用中,智能體可能面臨與能力較強或較弱的伙伴合作的情況,因此必須具備適應不同合作伙伴能力的能力。
- 技能水平的不同:論文中提到,在訓練過程中對每個智能體設置多個檢查點,其中越往后的檢查點對應的智能體技能越熟練。這意味著,智能體會經歷多個階段,從初學者到專家。為了適應與不同水平的智能體合作,FCP 方法通過在第二階段訓練智能體使其成為與這些不同能力的伙伴合作時的最佳響應者,即智能體不僅能適應能力較強的合作伙伴,還能與能力較弱的合作伙伴有效協作。
例如
第一階段自博弈:
AA A0A0(初始狀態) A1A1(中間狀態) A2A2(收斂狀態)
BB B0B0(初始狀態) B1B1(中間狀態) B2B2(收斂狀態)
第二階段FCP智能體為G
GA(A0,A1,A2)——即G要與不同狀態、技能程度的A進行訓練
GB(同理)
總結:
對稱性問題:指的是在多智能體環境中,智能體的角色或策略相似,缺乏差異化,導致合作時的效率較低。解決對稱性問題的方法是訓練多個不同技能水平的智能體,以打破這種“對稱”。
與不同水平的智能體合作:強調智能體不僅能與技能相當的伙伴協作,還能夠適應和配合技能高低不一的伙伴。為此,FCP 通過設置多個檢查點訓練出技能層次不同的智能體,并在訓練過程中確保智能體能夠與這些不同水平的伙伴協作。