PARETO PROMPT OPTIMIZATION

題目

帕累托提示優化
在這里插入圖片描述

論文地址：https://openreview.net/forum?id=HGCk5aaSvE

摘要

????自然語言迅速優化或及時工程已成為一種強大的技術，可以解鎖大型語言模型（LLMS）的各種任務的潛力。盡管現有方法主要集中于最大化LLM輸出的單一特定任務性能指標，但現實世界中的應用程序通常需要考慮多個目標之間的權衡。在這項工作中，我們通過提出一種針對LLM的多目標提示優化的有效技術來解決此限制。具體而言，我們提出了甲狀腺酸占據，這是一種增強學習方法（RL）方法，該方法利用提示之間的優勢關系來推導策略模型，以使用基于首選項的損失功能來提示優化。通過利用多目標優勢關系，ParetoPrompt可以有效探索整個Pareto前沿，而無需對多個目標的預定標量化。我們的實驗結果表明，核孔始終優于使用特定目標值的現有算法。當訓練和測試之間的客觀指標有所不同時，甲狀腺洞穴也會產生強大的性能。

引言

????大語模型（LLM）的進步由于其在各種自然語言處理（NLP）任務中的出色功能而引起了極大的興趣。提示，一種利用自然語言前綴或上下文來指導LLM完成所需任務的方法，使我們能夠在不重新訓練LLM的情況下利用LLMS的功能（Wei等，2022; Wen等，2024; Reynolds; Reynolds＆McDonell，2021）。但是，制作有效提示通常需要大量的手動努力，這需要在LLM和特定任務領域的專業知識（Wang等，2024）。

????提示優化作為一個強大的解決方案出現，利用算法自動搜索最佳提示。這些算法包括各種技術，例如基于梯度的優化（Wen等，2024），增強學習（RL）（Deng等，2022; Zhang等，2022），進化算法，進化算法（Zhou等，2022），Beam Search（Beam Search（Pryzant等，20223）和20222222022222。這些方法通常會制定迅速優化，旨在優化單個選擇的性能指標，例如準確性或流利度。但是，在現實世界中，迅速的有效性通常涉及多個目標之間的權衡。例如，為文本樣式轉換設計的提示可能需要平衡樣式的一致性與內容準確性，而列舉事實主題的提示可能需要考慮信息性和簡潔性。

????與單瞄準式公式（Wen等，2024）不同，我們可以在多個相互沖突的目標中獲得明確的“最佳”提示，在多目標提示優化問題中，沒有一個提示同時在所有目標中脫穎而出。取而代之的是，我們的目標是從所謂的帕累托陣線中提示一組提示，這代表了這些目標之間最好的權衡。要搜索并最大程度地覆蓋Pareto前端，優化算法 - 包括RL或進化算法通常使用指標函數或獎勵功能來評估提示的質量。這些解決方案策略將多目標性能轉化為單個值，該值反映了一組提示的好處主導區域的超量（Baumann＆Kramer，2024）和多個目標的產物（Jafari等，2024）。以臨時方式引入這些指標/獎勵功能有助于指導促使帕累托陣線。但這也對目標之間的權衡提出了嚴格的假設，這過度簡化了文本生成所涉及的細微偏好。例如，目標的加權總和假定目標與權重之間的線性權衡是預定的。盡管S-Metric在目標空間的所有區域都假定均勻的偏好。文本生成的某些目標可以通過各種指標來衡量，例如流利性或語法性，每種都可能具有非線性關系。前面提到的加權總和和S-Metric無法捕獲這些復雜性，因為它們忽略了通過不同指標評估相同目標而產生的不同偏好的可能性。

????在這項研究中，我們建議通過比較基于多目標問題的基本原理的提示對來指導及時搜索，而不是使用標量指標來描述提示的多目標性能。具體而言，如果一個提示在另一個提示中占主導地位，則將主導提示視為更可取。相反，如果一對提示不互相占主導地位，那么我們就不會優先考慮一個提示。這種方法忽略了提示的特定目標值。雖然丟棄特定值似乎會降低算法的有效性，但兩個關鍵因素激發了我們的方法。首先，在語言生成任務中，對絕對客觀值的準確和可靠的評估通常不可用或不可靠。另一方面，相對偏好在處理評估目標中固有的模糊性方面更容易獲得和強大。其次，使用優勢關系避免對目標的基礎結構施加假設。這也消除了需要假設目標，跨區域均勻偏好或參考點引入的偏見的添加貢獻。

????基于這些動機，我們提出了Paretoprompt，這是一種由基于偏好的RL驅動的新型多目標及時優化方法。在我們的表述中，提示是由策略模型生成的。在每次迭代期間，算法對相同的輸入實例的提示對進行了示例并比較其優勢關系，然后相應地更新策略模型。該算法可以與各種基于RL的及時生成方法相結合，例如從語言模型（Deng等，2022; Wu等，2022）或使用RL訓練的編輯劑（Zhang等人，2022年）。我們已經進行了比較核刺激與競爭基線進行比較的實驗。我們的結果清楚地表明，盡管僅基于優勢關系，但比起依靠特定目標值的算法，核孔的表現更好或可比性。此外，即使訓練指標與測試過程中使用的評估指標有所不同，我們的方法也證明了穩健的性能。我們實施的代碼可在https://github.com/guangzhao27/paretoprompt上找到。

Pareto提示優化

????我們現在呈現甲狀腺膠合膜（圖1），以便及時優化，旨在覆蓋具有預訓練的LLM的多目標NLP任務的相應帕累托正面。

多目標提示優化

????我們考慮生成帕累托最優提示的問題，以改善特定于任務的LLM的期望響應，表示為t。給定輸入實例x，其可以是評論、查詢或代碼，我們的目標是設計提示，以指導特定于任務的LLM生成高質量響應y。實現高質量響應y可能涉及多個目標，有時是相互沖突的目標。將這些目標表示為O(x，y) = [o1(x，y)，…，on(x，y)]，其中每個元素oi(x，y)代表特定的質量指標，如相關性、流暢性和/或創造性。這些度量可以使用各種技術自動估計，例如基于BLEU分數、語法錯誤率和語義距離，或者由另一個LLM評估(Zhang等人，2023)。

????我們的目標是訓練一個策略模型ωθ，使用RL來生成接近帕累托前沿的提示。策略模型接受輸入x并以概率πθ(z|x)生成相應的提示z。這里，提示z指的是提供給特定于任務的LLM的文本，以生成響應y = T(z)。這包括指令或查詢以及在模型生成輸出之前提供的任何上下文。最簡單的提示形式包括在輸入x前添加前綴文本標記(Deng et al，2022)。如果不存在可以在不降低至少一個其他目標的情況下改善O(x，y)中的一個目標的其他提示，則提示z被認為是“帕累托最優的”。

????數學上，對于兩個提示z1和z2，如果O(x，T(z1)) ? O(x，T(z2))和O(x，T(z1)) ?= O(x，T(z2))，那么z1被z2“帕累托支配”。因此，如果一個提示不受任何其他提示支配，它就是“帕累托最優”的。找到這樣的提示允許我們獲得考慮多個沖突目標的最佳折衷提示。

????帕累托前沿表示所有帕累托最優提示的集合，即“帕累托支配”所有其他提示但相互不可比的提示的集合。在通過策略模型的RL訓練來引導對Pareto前沿的搜索時，一種常見的方法是使用標量化函數，該函數將多目標問題轉換成標準的單目標問題。雖然便于訓練，但這些函數會對目標結構強加過于簡化的假設，并限制對整個Pareto前沿的探索。最常見的函數是加權和函數，它對最大化預定義的目標線性組合的解決方案進行優先排序，忽略Pareto前沿的潛在有價值部分。同樣，超體積指標(Zitzler等人，2001年)雖然同時獎勵所有目標的改進，但它可能會優先考慮對總體超體積增加貢獻最大的點，可能會忽略超體積貢獻較小的區域。此外，超體積的偏好可能會根據參考點的選擇而變化，從而在搜索過程中引入偏差(Ishibuchi等人，2017年)。因此，雖然使用標準化函數提供了接近RL中Pareto前沿的指導，但它也可能在搜索中引入偏差，從而限制了算法覆蓋整個Pareto前沿的能力。

????在下面的小節中，我們介紹一種用于多目標提示優化的創新獎勵函數。這種方法利用提示之間的支配關系來引導政策模型向帕累托前沿發展。通過這樣做，我們不再需要由傳統的標量化函數強加的預定義偏好，允許對解決方案空間進行更加靈活和全面的探索。

基于優勢偏好的損失函數

????給定一個輸入實例x，我們基于兩個提示zw和zl對應的輸出yw和yl考慮它們之間的優勢偏好。具體地說，如果O(x，yw) ? O(x，yl)，我們定義zw是優于zl的優勢提示，為了簡單起見，我們用zw ? zl表示。我們將數據對(x，zw，zl)定義為優勢偏好數據，其中zw在結果輸出方面支配zl。該數據用作直接學習生成帕累托最優提示的策略模型的基礎。

????Rafailov等人(2024)引入了直接偏好優化(DPO)，這是一種基于偏好數據更新政策模型的方法，無需訓練單獨的獎勵模型。由于政策模型πθ是由獎勵函數引導的，他們表明獎勵函數隱含地連接到政策模型。這種關系可以表示為rθ(x，z) ∝ log πθ(z|x) πref(z|x)，其中πref表示參考模型。該參考模型用作學習偏好的基線或起點，并且它通常被選擇作為初始化模型或預訓練模型。

????DPO利用從布拉德利-特里模型導出的損失函數進行偏好建模: 在這里插入圖片描述其中，β是縮放超參數，σ是邏輯sigmoid函數，h是zw和zl之間的獎勵差，定義如下:該損失函數lDPO增加占優勢的提示zw的獎勵，并減少占優勢的提示zl的獎勵，從而促進zw的產生。

????從DPO擴展而來的身份偏好優化(IPO) (Azar等人，2024)用身份函數代替了與Bradley-Terry模型相關的非減函數，從而產生了更簡單的損失函數: 在這里插入圖片描述其中τ是正則化超參數，控制h(zw，ZL；x)zw和zl的獎勵差。DPO的目標是將差異最大化至無窮大，導致過度適應偏好數據集。相比之下，IPO旨在使差異接近τ1 2，從而降低過度擬合的風險。lDPO和lIPO作為h(zw，ZL；x)如圖2所示。

????DPO和IPO損失都利用優勢偏好數據來更新政策模型，使即時生成與產出之間的優勢關系保持一致。請注意，優勢偏好數據獨立于特定的目標值，因此它對目標的縮放或單調變換保持穩健。

圖2:損失函數比較，其中lDPO和lIPO增加h(zw，ZL；x)，主導和被主導提示對之間的獎勵差距；而lnd將非優勢配對之間的獎勵差距縮小到接近于零。
在這里插入圖片描述

基于偏好更新的非支配損失函數

????利用支配偏好數據，我們能夠生成帕累托最優提示。然而，沒有機制保證覆蓋整個帕累托陣線。因此，我們提出了一個基于非支配數據的非支配損失函數，以鼓勵政策模型生成不同的提示來探索整個帕累托前沿的不同權衡。給定一個數據對(x，z1，z2)，對應的輸出y1和y2有可能是互不支配的(不可比的)，我們表示為z1∞z2，稱之為(x，Z1，z2)非支配數據。

????在這些情況下，我們預計不會強烈傾向于任何一種提示。我們希望策略模型在生成它們時分配相似的可能性。然而，對于非支配提示之間的小可能性差異，仍然應該有一些容限；否則，損失函數將迫使模型為所有提示分配相同的可能性。因此，我們定義了一個損失函數，它懲罰z1和z2的回報的大差異，但是容忍非支配提示對的小差異: 在這里插入圖片描述其中，λ是縮放超參數，?是獎勵函數值之間差異的容差。注意 as |h(z1，z2；x)| =???logπθ(Z1 | x)πθ(z2 | x)-logπref(Z1 | x)πref(z2 | x)??? ，報酬函數的差異實際上反映了策略模型πθ和參考模型πref在生成非支配提示時的偏差。因此，該損失函數僅在策略更新導致差異超過閾值?.之后才生效這確保了該策略在關注多樣化非主導提示之前首先優先考慮學習主導提示。圖2顯示了lnd的曲線。通過與lIPO的比較，我們可以得出結論，當使用lIPO和lnd作為損失函數項時，重要的是為超參數選擇設置?<τ1 2，以使lnd生效。

PARETOPROMPT算法

????我們現在詳細描述PARETOPROMPT，我們提出的訓練算法，用于生成Pareto最優提示的策略模型。策略模型利用預訓練的生成式LLM，其潛在嵌入層保持凍結。為了微調用于提示生成的模型，作為多層感知器(MLP)實現的殘差適配器模塊被插入到潛在層和模型頭之間。參考模型被設置為與策略模型的初始狀態相同。簡而言之，我們將DPO或IPO損失函數表示為ld，那么ParetoPrompt的總損失函數為: 在這里插入圖片描述訓練過程如下(圖1):

隨機抽取一個訓練實例x。
使用參考模型為x生成一對提示z1和z2。
估計相應輸出y1和y2的目標并確定它們的優勢關系，然后基于優勢選擇ld或lnd作為損失函數。
使用基于梯度的優化算法(例如Adam)基于計算的損失更新策略模型參數θ。
定期更新參考模型以匹配策略模型的當前狀態。這確保了隨著策略模型的發展，參考模型可以利用改進的培訓提示。
對指定數量的訓練迭代重復上述步驟。

????我們的算法的優點是通過結合支配偏好損失函數和非支配損失函數，我們鼓勵策略模型生成帕累托最優提示，同時使生成多樣化以探索整個帕累托前沿。雖然ParetoPrompt通過不使用標量化函數來避免對多目標結構做出假設，但是ParetoPrompt當前處理非支配對的方式不能為生成更好的提示提供指導，因為不需要從它們那里學習偏好。然而，在多目標問題中，優勢對變得越來越少，非優勢對變得越來越頻繁，特別是隨著目標數量的增加，就像在“多目標”問題中一樣。因此，在這些情況下，ParetoPrompt可能是低效的。

實驗

????為了驗證我們提出的PraretoPrompt的性能，我們將它應用于分類和文本生成任務，具有多個目標。我們還提供了ParetoPrompt算法的分析。基線。我們將我們提出的ParetoPrompt與以下基線進行比較:

求和(Deng et al，2022):這種基于RL的算法使用標量化定義的獎勵函數，簡單地作為不同目標的求和:r(x，y) = 滑oi(x，y)。
乘積:這個基于RL的算法將獎勵定義為不同目標的乘積::r(x，y)=πoi(x，y)。
HVI:該算法使用超體積增量(HVI)作為RL框架內的獎勵函數。它在訓練過程中跟蹤帕累托前沿，并將每次提示帶來的超體積增量作為獎勵。
獎勵導向的IPO (R-IPO):這種基于偏好的RL算法計算目標的總和，并基于該總和確定提示對的偏好，然后使用等式3中的IPO損失來更新策略模型。
InstOptima(楊和李，2023):這種進化算法利用II框架進行多目標優化。提示的變異和交叉操作符使用LLM和相應的操作提示來執行。在我們的實驗中，我們使用LLaMa 2 (7B)進行快速操作。
ParetoPrompt DPO/IPO (PP-DPO/IPO):我們提出的ParetoPrompt算法。

少數鏡頭

????文本分類(雙目標任務)我們利用BERT模型(Brown，2020)使用標記填充在各種數據集上進行單句分類實驗。分類基于對應于作為類別標簽的一組描述符的標記的概率。我們遵循鄧等人(2022)中的提示模板[輸入][提示][類別]，并在[類別]位置選擇預測概率最高的動詞化標記。對于少鏡頭分類，我們只取少量的訓練樣本，搜索更好的提示。我們在多種流行的少鏡頭分類任務上進行了實驗，包括MR (Pang & Lee，2005)，SST-5 (Socher等人，2013)，Yelp-5和Yahoo (Zhang等人，2015)。

????目標和錯位度量我們定義了一個雙目標提示優化問題:除了優化分類任務的準確性，我們還旨在優化提示的流暢性。可以使用各種度量來評估流暢性。在這組實驗中，我們使用RoBERTa-based-CoLA的語法可接受性分數，這是一個針對語言可接受性語料庫(CoLA)任務(Morris等人，2020)進行微調的RoBERTa模型。我們把這個分數稱為可樂分數。這個模型被訓練來分類一個句子是否語法正確，我們的目標是最大化可樂分數來生成流暢的提示。

????由于流利度也可以通過由語言模型計算的文本的困惑度來量化，為了證明ParetoPrompt對潛在錯位度量的魯棒性，我們采用了兩個不同的訓練信號:CoLA分數，以及在一系列單獨的實驗中，使用GPT-2計算的困惑度，同時始終將CoLA分數作為測試階段的真實目標。我們分析了實驗中使用的提示的可樂分數和困惑分數，結果顯示了可樂分數和困惑分數之間的非線性關系。當使用特定的困惑分數作為獎勵信號來訓練RL算法，而使用可樂分數來評估RL算法時，這種非線性關系導致較差的性能。相關分析的詳細信息見附錄A.2。

????實驗細節我們使用RoBERTa-large (Liu等人，2021)作為用于分類的LM，而我們的策略模型基于DistilGPT2 (Sanh等人，2019)，在頭層之前添加了兩層適配器。提示搜索空間由5個離散的標記組成。對于所有數據集，我們為訓練集和驗證集每類隨機抽取16個樣本。使用足夠大的測試集來評估最終性能。對于所有基于RL的算法(不包括InstOptima)，每次迭代采樣16個提示來計算獎勵函數。使用優勢關系的算法(R-IPO和PP-DPO/IPO)采用8個即時比較對來計算獎勵函數。因此，在訓練過程中，任務語言模型查詢的總數為:16×class num×16×6000。方程(1)、(3)和(4)中損失函數的超參數設定為β = 0.5，τ = 0.5，λ = 1，? = 0.1。每個RL算法運行6K次迭代用于訓練。對于InstOptima，我們初始化了16個手動設計的提示，并執行了60代NSGA-II，與RL算法的計算時間相匹配。在測試階段，我們為每個數據集生成64個提示，以在多目標性能方面進行綜合比較。我們進行了五次獨立運行，以獲得平均性能指標。

????實驗結果我們使用超體積(HV)來評估分類準確度和提示可樂分數的多目標性能，參考點設置在(0，0)。使用可樂分數作為訓練信號的實驗的HV表示為C-HV，而使用困惑作為訓練信號的實驗的HV表示為P-HV。這兩個指標之間的差異Diff-HV衡量這兩種設置下算法性能的穩健性。

????基于表1所示的實驗結果，ParetoPrompt算法(IPO和DPO)始終在C-HV和P-HV上表現出優異的性能，并且具有較小的Diff-HV。相比之下，使用標量獎勵(求和、乘積和HVI)的算法的Diff-HV明顯大于其他算法。這是因為可樂分數和困惑度之間的非線性關系不僅改變了絕對獎勵值，還改變了提示之間的相對排名，從而導致性能下降。而ParetoPrompt算法所利用的優勢關系不受這種變換的影響。值得注意的是，InstOptima顯示了較小的Diff-HV，部分原因是其使用了基于優勢關系的NSGA-II。

在這里插入圖片描述
表1:在由分類準確度和CoLA評分定義的雙目標空間中，通過不同方法對占優勢的超體積(HV)進行比較。“C-HV”是指使用可樂分數作為訓練信號，“P-HV”表示使用困惑分數作為訓練信號。術語“DiffHV”表示這兩個指標之間的超級卷差異。“C-HV”和“P-HV”的值越高越好，而接近0的“Diff-HV”表示對度量變化的魯棒性。

文本風格轉換(三目標任務)

????根據RLPrompt (Deng等人，2022)，我們在無監督的文本風格轉換任務上評估ParetoPrompt。目標是將輸入的句子改寫成期望的風格，同時仍然保持內容相似。考慮兩個沖突的目標:風格評分和內容相似性。我們還將提示的流暢性作為第三個目標。我們使用Yelp情感數據集(沈等人，2017)來執行任務，以將Yelp負面評論轉換為正面評論，同時保持內容相似性。例如，句子“我永遠不會回來了”可能會轉換為“我會再回來的”。該數據集由Yelp餐廳評論組成，按星級評分，三分或以上為正面，三分以下為負面。我們隨機選擇50個負面評論用于訓練，50個用于評估，另外100個用于測試。

????客觀設置。我們采用兩種基于模型的度量來進行內容相似性和情感積極性評估。我們使用Deng等人提出的壓縮、轉換和創建(CTC)度量將內容相似性目標設置為內容保存獎勵函數(2022)，它測量輸入和輸出之間的嵌入對齊。情感目標被定義為使用在Yelp數據集上微調的基于BERT的分類器計算的情感概率。對于流暢性目標，我們繼續使用由RoBERTabased-CoLA模型計算的CoLA分數。與少數鏡頭分類相比，這種目標設置對即時優化更具挑戰性。在少數鏡頭分類中，在描述器中選擇輸出，而文本生成引入了更大輸出不確定性。結果，目標信號的質量更加嘈雜，使得識別達到良好平均性能的提示更加困難。考慮到生成模型的隨機性，我們為每個提示生成128個輸出，平均客觀值以進行穩健的提示評估。

????實驗細節。我們使用GPT-2 XL作為樣式轉換任務的LM，而提示生成設置與之前的實驗相同。對于除InstOptima之外的所有算法，在訓練階段，每次迭代處理兩個輸入負面評論的小批量，并且對每個負面評論采樣四個提示，然后用于將輸入轉換為正面評論。每個算法運行10K迭代進行訓練，導致語言模型查詢的總數等于128 × 8 × 10，000。對于InstOptima，我們初始化了16個手動設計的提示，并運行了130代NSGA-II，確保了與RL算法相當的運行時間。在測試階段，我們再次為每個實例生成64個提示，以評估多目標性能。為了確保穩健性，我們進行了三次獨立運行，以獲得平均性能指標。

????實驗結果圖3示出了單次運行的多目標空間中生成的提示的性能，提供了直觀的說明。此外，表2提供了三次運行的平均性能，以及所有目標的平均值和標準偏差值設置為最大化。每個算法從策略模型生成64個提示，Pareto集大小表示每個算法生成的非支配提示的數量，反映了其生成有效提示的能力。對于多目標空間中的整體性能，評估另外兩個度量:支配超體積(HV)和逆生成距離(IGD)。HV是目標空間中相對于參考點(0，0，0)的支配區域的體積。IGD最初測量真實Pareto前沿到目標空間中對應于不同算法生成的提示的最近點之間的平均距離。較低的IGD值意味著生成的提示實現了更接近帕累托前沿的性能。這里，由于實際帕累托前沿是未知的，所以所有提示的組合的帕累托最優提示充當參考帕累托前沿。

在這里插入圖片描述
圖3:三目標提示優化結果可視化:目標空間中不同算法生成的提示對比，以情感、內容相似度、可樂評分為目標進行最大化。結果表明，我們的ParetoPrompt算法有效地探索了整個Pareto前沿。

表2:無監督情感轉換的性能比較。帕累托集合大小表示非支配提示的數量，HV度量支配超體積，IGD表示到帕累托前沿的距離
在這里插入圖片描述
????從圖3中，我們觀察到總和、乘積和HVI表現不佳，因為不準確的獎勵不能有效地引導搜索。R-IPO傾向于形成簇，因為它缺乏生成不同提示的機制，而是簡單地利用偏好數據提供的偏好信息。相比之下，我們提出的ParetoPrompt算法(尤其是PP-IPO)由于引入了非支配損失，可以覆蓋整個Pareto前沿。表2顯示，我們提出的ParetoPrompt算法實現了更高的HV和更小的IGD，反映了ParetoPrompt生成的提示有效地覆蓋了整個Pareto前沿。此外，我們觀察到聚丙烯首次公開募股表現優于聚丙烯DPO，可能是因為IPO損失不會受到與DPO相關的潛在過度擬合問題的影響，這使得PPIPO能夠更有效地探索搜索空間。總的來說，我們的ParetoPrompt算法通過用不同的提示有效地覆蓋整個Pareto前沿，展示了優越的性能。

圖4:Pareto prompt-IPO的訓練分析:主導對與非主導提示對百分比的趨勢以及總、主導、非主導

在這里插入圖片描述

PARETOPROMPT訓練分析

????我們在訓練過程中分析PARETOPROMPT算法，特別關注文本風格轉換任務。在ParetoPrompt-IPO算法中，我們在圖4中呈現了主導和非主導提示對的百分比變化。此外，我們還包括等式中定義的非支配損失。(5).該圖顯示，隨著訓練的進行，該算法對更多的非主導提示對進行采樣，這表明它學會了生成折衷提示。非支配損失從0值開始，隨著訓練的繼續而增加。這種不斷增加的非支配損失表明，隨著算法接近帕累托前沿，它更加關注探索非支配提示。我們在附錄A.3中顯示的實驗結果還表明，在沒有非支配損失的情況下，僅支配算法傾向于在集群中生成提示。

結論

????我們開發了ParetoPrompt，一個基于RL的多目標文本生成提示優化算法。該算法的訓練僅依賴于提示對之間的多目標優勢關系，并且不需要預定義的標量化函數，因此允許我們在文本評估中繞過關于人類偏好的假設。ParetoPrompt為主導和非主導提示對定義了單獨的損失函數。這些損失函數的組合效果鼓勵生成帕累托最優提示，但是使提示多樣化以覆蓋整個帕累托前沿。此外，通過僅使用主導關系，該算法即使在訓練和測試度量之間存在不匹配時也能穩健地執行。此外，它可以包含用于訓練的偏好數據。總之，ParetoPrompt提出了一種生成Pareto最優提示的偏好學習方法，為多目標提示優化提供了一個有希望的方向。

局限性和未來工作

????正如4.3節中所強調的，ParetoPrompt在處理具有大量目標的問題時可能會變得低效。為了解決這一限制，未來的工作可以探索納入寬松的帕累托優勢關系(Lopez Jaimes & Coello Coello，2009)，這擴展了優勢的定義，以捕捉非優勢提示之間的微妙偏好信息。例子包括(1k)-優勢關系(Farina & Amato，2002)和控制解的優勢區域的擴展關系(Sato等人，2007)。通過合并這些寬松的關系，我們可以潛在地使用來自非主導對的信息來指導多目標情況下的策略模型的更新。

附錄

本附錄提供了補充材料，包括ParetoPrompt算法的偽代碼、對CoLA和困惑分數的分析，以及文本風格轉換中雙目標提示優化實驗的結果。

a . 1 PARETOPROMPT的偽代碼Pareto prompt的偽代碼在算法1中進行了總結。
在這里插入圖片描述
A.2可樂和困惑分數的分析我們分析了在我們的實驗中使用的提示的可樂和困惑分數。我們隨機生成1000個5個令牌的提示，并計算它們的可樂分數和困惑度。它們的關系如圖S1所示。值得注意的是，可樂分數與對數困惑度呈現近似線性關系。

它們之間的Spearman等級相關系數為-0.473，表明中度負相關。相比之下，線性相關系數為-0.253，反映了弱的負線性關系。然而，當我們對困惑應用對數變換時，線性相關系數增加到-0.471。這表明可樂和困惑分數之間的非線性關系，可以通過對數變換來近似描述。

A.3雙目標的文本風格遷移我們還對文本風格遷移任務進行了雙目標提示優化實驗。設置與Sec相同。4.2，除了我們針對兩個目標優化提示:內容相似性和情感積極性。圖S2提供了目標空間中生成的提示的直觀圖示，圖S3還提供了五次運行的平均性能。

值得注意的是，結果表明，在沒有非優勢損失的情況下，僅優勢算法傾向于形成集群，因為缺乏使提示多樣化的機制，如圖S2所示。相比之下，由于引入了非支配損失，ParetoPrompt可以覆蓋整個Pareto前沿。圖S3表明，我們提出的ParetoPrompt算法實現了更高的D-HV和更小的方差，因為不同的提示導致更高和更魯棒的D-HV。相比之下，競爭算法生成聚集在一起的提示，導致D-HV隨著群集的位置而變化，并導致更大的方差。ParetoPrompt的較小IGD反映了它與參考Pareto前沿的距離較小，反映了ParetoPrompt生成的提示有效地覆蓋了整個Pareto前沿。總的來說，我們的ParetoPrompt算法通過用不同的提示有效地覆蓋整個Pareto前沿，展示了優越的性能。

在這里插入圖片描述

圖S2:雙目標提示優化圖解。在雙目標空間中，針對單個實例比較不同算法生成的提示，將情感和內容相似性作為最大化的兩個目標。結果表明，我們提出的ParetoPrompt算法有效地探索了整個Pareto前沿。

A.4具有四個目標的文本風格轉換在這一部分中，我們呈現了在文本風格轉換中的四目標優化任務上評估我們的方法的擴展實驗的初步結果。雖然先前關于多目標即時優化的研究通常最多考慮三個目標，但我們的方法完全能夠處理更復雜的情況。為了證明這一點，我們在以下四個目標下評估表現:風格得分、內容相似性、輸出流暢性和簡潔性。前三個目標與Sec相同。4.2，而第四個目標，簡明性是由輸出的長度來衡量的。

在這里插入圖片描述
圖S3:無監督情感轉換的性能比較。我們比較了各種算法在無監督情感轉換任務中的性能。D-HV(越高越好)表示占優勢的超體積，IGD(越低越好)表示到Pareto前沿的距離。