Evaluating Very Long-Term Conversational Memory of LLM Agents 論文

Abstract :?長期開放域對話的現有作品著重于評估不超過五個聊天會議的上下文中的模型響應。盡管LongContext大語言模型（LLM）和檢索增強發電（RAG）技術的進步，但在長期對話中的功效仍未得到探索。為了解決這一研究差距，我們引入了一條機器人類管道，通過利用基于LLM的代理體系結構并將其對話在角色和時間事件圖上進行對話，以生成高質量的長期對話。此外，我們為每個代理配備了共享和對圖像反應的能力。人類注釋者對生成的對話進行了驗證和編輯，以使其長期一致性并接地到事件圖。使用此管道，我們收集了Locomo，這是一個非常長期對話的數據集，每個都包含大約。最多32次會議，在AVG。上有600圈和16K令牌。基于Locomo，我們提出了一個全面的評估基準，用于衡量模型中的長期記憶，包括問題答案，事件摘要和多模式對話生成任務。我們的實驗結果表明，LLM在理解冗長的對話以及理解對話中的遠程時間和因果動態方面表現出挑戰。采用諸如長篇小說LLM或抹布之類的策略可以提供改進，但這些模型仍然遠遠落后于人類績效。

圖1：機車中的一個示例。對話是由演講者的角色和相應的事件來指導的，例如，喬安娜的回答與她的寵物過敏是一致的。對于Nate而言，該活動得到了新的狗，之后是與鄰居的狗一起玩日期，展示了長期記憶。通過圖像共享和圖像響應行為啟用了多模式對話框。

1 Introduction 簡介

盡管最近在基于LLM的對話模型方面取得了進步（Bertsch等，2023; Xiao等，2023），以及檢索增強生成（RAG）的整合（RAG）技術（Shuster等，2021; Ram等，2023; Shi等，2023），仍然需要徹底評估它們在處理非常長的對話中的功效。實際上，長期opendomain對話中的研究集中于評估有限環境中的模型響應，例如，在五個聊天過程中約為1k令牌（Xu等，2022; Jang等，2023b; Zhang等，2023）。這項長期評估對于精煉能夠記住過去互動中的關鍵信息而引起的關鍵信息以產生善解人意，一致和有用的響應至關重要。為此，我們介紹了非常長期的開放域多模式對話的首次研究，這是通過人機管道收集的現實世界互動的緊密反映現實世界的互動然后要求人類注釋者解決對話中的任何長期不一致之處。具體而言，了解現實世界對話是集體記憶的復雜融合的理解（Assmann和Czaplicka，1995； Hirst and Manier，2008），個體觀點（Hirst等，2018），外部影響（Hirst and Echterhoff，2012年）），以及演講者的獨特角色（Pruitt and Grudin，2003; Cooper，1999; Zhou等，2020; Shum等，2019），我們基于LLM代理商進行了非常長的對話，具有以下功能：（（ 1）獨特的角色（§3.1）；（2）他們生活中因果關系中互聯事件的時間表（§3.2）；（3）反映和響應機制根據對話歷史記錄（如Park等人（2023））和圖像共享和圖像反應行為的響應，該行為向圖像發送或反應（§3.3）。最后，人類注釋者在對話中固定遠程不一致，刪除無關的圖像，并驗證對話的接地（第3.4節）。使用此管道，我們創建了Locomo，這是一個由10個非常長期對話的數據集，每個對話的數據集由600個轉彎和16K令牌組成，最多可達32個會話（請參見圖1，表1）。

在開放域對話中評估對話劑的常規方法涉及基于過去的對話歷史直接評估代理響應。它經常在地面真理與代理響應或一致性之間（Ghazarian等，2022），矛盾（Nie等，2021; Welleck et al，2021; Welleck et et al，papineni等，2002）和語義重疊（Zhang等，2019）（Zhang等，2019）； Al，2019年）和同理心（Zhang等，2021a，2022）。但是，這些評估指標并不適合直接評估代理人對長期環境的理解。在這項研究中，我們提出了一個整體評估框架，以評估代理在長期背景下管理和響應的熟練程度（見圖2）。首先，代理需要正確地“召回”過去的上下文，以整合相關的信息

圖2：我們的評估框架概述。我們提出三個任務：問題回答，事件摘要和多模式對話框生成，以在長期對話中評估模型的理解。

融入未來的回應。我們通過回答（QA）任務（§4.1）直接檢查他們的記憶。我們將問題分類為五種不同的推理類型，以從多個角度評估記憶：單跳，多跳，時間，常識，常識或世界知識以及對抗性。其次，代理還需要在對話中識別遠程因果關系和時間聯系，以產生善解人意和相關的反應。我們通過事件圖摘要任務（第4.2節）提出了對它們的因果關系和時間理解的測量。在此任務中，鏈接到每個LLM揚聲器的事件圖是正確的答案，并且模型的任務是從對話歷史記錄中提取此信息。第三，對話代理需要利用過去對話中召回的相關上下文，以產生與正在進行的敘述一致的響應。我們通過多模式對話生成任務（第4.3節）評估此功能。

我們使用基于指令的LLM，Long-Contept LLM和抹布技術（第5節）對機車基準提出了廣泛的實驗結果。我們的發現包括：（1）長篇文化LLM和抹布在質量檢查任務中表現出有效性，提高了LLMS的“記憶”功能（改善范圍為12-20％），但仍然顯著落后于人類水平（36％），以下特別是在時間推理中（41％）；（2）LongContext LLM在QA任務中表現出對對抗問題的嚴重困難，顯示出比基本模型低65％的性能。他們特別容易誤配對話或錯誤的演講者。此外，它們在事件圖摘要上表現出較差的性能，表明他們可以掌握整個對話中的事實要素，但不能準確理解上下文。（3）抹布提供了平衡的折衷方案，將縮寫LLMS的準確性與廣泛的廣泛LLM的廣泛理解相結合，當對話轉換為關于每個說話者的生活和人格的聲明（觀察）（觀察）時，尤其很好。

2 Related Work 相關工作

長期對話。最近的方法涉及從一系列以前的對話和推理中檢索歷史上下文，以時間順序檢索到檢索到的段（Lee等，2023b; Lu等，2023; Zhong等，2023; Liang等，2023）和/或或使用/或使用為對話的腳手架的事件（Jang等，2023b; Zhang等，2023）以實現長期對話的一致性。此類框架的某些局限性是：（1）檢索的準確性可能會受到損害，因為檢索模型通常是針對著重于語義相似性而不是專門針對此類對話的任務的訓練。此外，現實世界對話通常具有共同參考和缺少內容（即，Anaphora）（Anantha等，2021），這進一步使檢索過程變得復雜（Mallen等，2023; Gao等，2023b; Liu et al，liu et al，，liu等， 2023b）; （2）推理對檢索的文檔的推理出現了挑戰，尤其是當模型在檢索到的數據之間識別正確的上下文時（Liu等，2023a）；（3）隨著時間間隔的推理提出了挑戰。例如，系統響應過去事件的響應方式可能會根據自上次對話以來過去的時間而有所不同（Zhang等，2023； Jang等，2023b）。因此，必須進行相當長的對話以及一個系統的評估框架，以準確評估長期對話生成方法的有效性。我們根據檢索增強和事件的圖表設計了長期的對話生成管道，并提出了一個評估長期對話代理的框架。

多模式對話。多模式對話主要由兩種類型的任務組成：圖像接地對話和圖像共享對話。

圖像接地的對話任務集中在回答問題（Antol等，2015; Das等，2017; Kottur等，2019）或進行與特定圖像有關的自然對話（Mostafazadeh等，2017; Shuster等，等等2018; Meng等人，2020年；相反，圖像共享的對話任務著重于選擇與提供的對話上下文一致的圖像（Zang等，2021; Feng等，2022; Lee等，2023c）。我們使用來自圖像共享對話任務的方法來創建多模式對話框，然后將其評估為圖像接地的對話任務。

合成評估基準。面對人類生成的數據的短缺，并觀察到LLM正在接近人層注釋的質量（He等，2023; Lee等，2023a），研究的研究激增了這一發展的靈感。因此，許多研究已經開始利用LLM增強或合成大規模對話基準，以評估日常社交互動中的響應（Kim等，2023），檢查多模式環境中的響應（Feng等，2022），并評估與特定角色相符的響應（Jandaghi（Jandaghi），2023）。我們利用LLM來創建數據，但通過人類驗證和編輯確保其高質量。

3 Generative Pipeline for LOCOMO 生成管道

圖3中顯示了我們對機車的生成管道的概述。我們創建了兩種名為L1和L2的虛擬代理，每個虛擬代理都用LLM M初始化（即GPT-3.5-Turbo）。首先，將獨特的角色陳述p分配給每個代理商，以確保將不同的個性整合到他們的對話中（§3.1）。為了反映現實生活中的體驗，我們為每個代理創建一個時間事件圖G，這說明了生活事件的現實順序（第3.2節）。 LLM代理體系結構（Park et al，2023）用于每個代理LI，使它們能夠有效地記住并將對話歷史記錄到正在進行的對話中（§3.3）。此外，每個代理都可以共享連貫的圖像，從而增強多模式對話方面。最后，人類注釋者的任務是手動過濾和完善生成的數據（第3.4節）。

3.1 Persona

我們從MSC數據集（Xu等，2022）中選擇一個初始的角色語句PC，涵蓋4至5個句子，并使用GPT-3.5-Turbo作為M作為M將其擴展到完整的角色語句P（請參閱附錄中的示例和詳細信息A.1）。

生成的陳述通常包括有關以下一個或多個元素（Gao等，2023a）的詳細信息：目標，過去的經驗，日常習慣和人際關系以及個人的名稱，年齡和性別。

3.2 Temporal Event Graph 時間事件圖

為了利用對話中每個代理的現實經驗，我們為每個代理構建了一個標記為G的時間事件圖。該圖G是通過在指定的角色p上應用m（即文本davinci-003）的情況來產生的。每個事件EI都與發生日期有關。 G包括因果關系L =（EI，EJ），該因素說明了事件ei∈G之間的因果關系，并反映了個人生活中事件的自然繼承。

對于每個G，我們創建多達25個事件，分布在6至12個月的時間范圍內，在時間表中的推理時間與時間和因果關系的連貫性之間保持平衡。最初，生成了一小批k = 3事件，然后將其用作輸入提示，以創建隨后的k事件。請參閱附錄A.2中的詳細信息。

3.3 Virtual Agent Architecture 虛擬代理體系結構

每個特工李都合并了來自生成代理體系結構的模塊（Park等，2023）。代理具有兩個功能：（1）反映和響應；（2）圖像共享和圖像反應。要求代理在對話的背景下采用圖像共享和圖像反應的功能，主要使用反射和響應功能。

反思和回應。每個代理反映和響應的基本過程涉及短期和長期記憶的概念。在推論過程中，李的代理在短期和長期記憶中都會對其反應，與人類如何記住最近的對話，同時還回想起長期記憶中的蒸餾重要體驗。在每個會話K之后，要求每個代理產生一個摘要WK，然后將其存儲在短期HS中。該摘要WK是通過在最近的會話對話歷史記錄HK和前面的摘要WK -1∈HL上進行M生成的。對于會話k中的每個轉彎j，對話的單個轉彎將變成一個觀察到OKJ，然后存儲在長期內存HL中。然后，代理Li通過將其基于最新摘要WK的日期t s k+1在k+1中生成一個響應，該響應基于檢索到的相關觀測值o∈HS，即當前會話+1中的持續對話歷史記錄的反射。和角色陳述p。在對話中引起了長期的時間敘事，還通過調節代理在上次和當前會話之間發生的G中發生的事件子集的響應，即

{e∈G| t s k <te i <ts k+1}。請參閱附錄A.2.1中的詳細信息。

圖像共享和圖像反應。圖像共享和圖像反應函數已集成以在長期對話中添加多模式維度。2當代理決定發送圖像時，將調用圖像共享函數。這過程包括：（1）使用M為預期圖像生成標題C；（2）使用m將字幕C轉換為相關的關鍵字W；（3）使用關鍵字k通過Web搜索W EB（K）3查找圖像；（4）共享所選圖像。相反，從另一個代理接收圖像后會觸發圖像反應函數并需要：（1）為接收的Image4生成字幕C；（2）使用M對接收圖像產生反應（請參閱附錄A.2.1）。

3.4 Human Verification & Editing 人類驗證和編輯

在結束階段，人類注釋者的任務是（1）編輯對話以消除長期不一致的情況，（2）刪除或替換與無關的圖像，以及（3）驗證和編輯事件圖和對話內容之間的對齊方式。總體而言，我們觀察到注釋者編輯了將近15％的對話框轉彎并刪除或取代。 LLM生成的數據集中存在19％圖像。請參閱附錄A.3中一些編輯的示例。

圖3：機車生成管道的概述。每個LLM代理都被分配了一個不同的角色和文件中的因果關系事件的時間表。該代理配備了內存和反射模塊，可檢索對話框生成的相關歷史記錄，并且還可以用于圖像共享和圖像反應行為（左）。人類注釋者編輯了生成的對話，以維持遠程一致性（右）。

4 LOCOMO Evaluation Benchmark 機車評估基準

根據第3節中生成的對話，我們介紹了由三個任務組成的評估基準（見圖2），以評估長期記憶的準確性。請參閱附錄中表5中數據集和評估基準的統計信息。

4.1 Question Answering Task 問答任務

預計會話代理人將擁有記憶以記住以前的對話的記憶，反映了它以在未來的對話中創建更多引人入勝的響應。為了對此記憶進行全面評估，我們介紹了提問的問題任務分為五個不同的推理類別：（1）單跳問題需要基于單個會話的答案；（2）多跳的問題需要來自多個不同會話的綜合信息；（3）時間推理問題可以通過時間推理和捕獲對話中的時間相關數據提示來回答；（4）可以通過將演講者提供的信息與常識性或世界事實等外部知識相結合來回答開放域知識問題；（5）對抗性問題旨在欺騙代理商提供錯誤的答案，并期望代理商將正確識別為無法回答。

對于每個類別，我們按照預測和實際地面真實答案的標準化計算精確匹配的F1分數。

但是，用自動指標評估長形的答案通常會帶來挑戰（Xu等，2023）。 LLM傾向于以各種格式產生釋義響應，使精確的匹配評估變得復雜。為了簡化任務中的評估，我們確保盡可能多地從對話中獲取質量檢查注釋中的答案。我們指示LLM可行時在對話中復制對話中的確切措辭，并采用F1部分匹配度量度量來評估預測。每個質量檢查樣本也都注釋，其中包含答案的對話日志中的轉彎ID。我們報告了為抹布模型檢索正確上下文的準確性。

4.2 Event Summarization Task 事件摘要任務

對話是基于時間事件圖G而生成的，該圖是通過在角色陳述P上調節LLM來構建的，反映了個人生活中事件的時間順序順序。會話代理人不僅可以理解因果關系和G中的事件序列，但也可以根據需要介紹這些事件。為了評估代理商對事件動態的掌握，我們介紹了事件摘要任務，該任務挑戰了代理商在指定的時間范圍內總結事件，并將代理商的摘要與G中的事件進行比較。由于對話中存在的時間和因果關系，很難總結，與現有的研究論文的摘要基準（Li等，2023a），電影腳本（Chen等，2022）相比，書籍（Krysci′nski等， 2022），電子郵件（Zhang等，2021b）等。

Bleu（Papineni等，2002）和Rogue（Lin，2004年）等傳統指標重點是參考和生成的摘要之間的詞匯相似性，而不滿足我們的需求，因為我們強調了摘要中的事實準確性。在這種情況下，我們采用FactScore（Min等，2023），該方法通過將參考和假設分解為原子事實來評估生成的文本的事實。我們通過計算內容中與G中的原子事實的數量來調整度量標準以測量匯總內容的精度；（2）通過確定g的原子事實在內容中的全面表示，回顧了匯總的內容。我們介紹F1分數，這些得分從計算的精度和回憶中得出。

4.3 Multi-Modal Dialogue Generation Task 多模式對話生成任務

我們數據集中的對話固定在特定的角色p和對p量身定制的相應事件g。對話中的主題是從跨越幾周或幾個月的早期對話中引入的事件演變而來的。這種結構允許評估會話代理人是否可以維持一致的角色和隨著時間的流逝持續的敘述。例如，如果發言人最近受傷，下一次對話可能會集中在他們的恢復方面，而不是從事冒險活動。我們通過測量數據集中的地面真相多模式對話的預測多模式對話方式來評估這種一致性，除其他NLG指標外，還通過MMRELELEVANCE量化了這種對齊方式（Feng等，2022）。

5 Experimental Setup 實驗設置

對于提問和事件摘要任務，我們替換了Locomo中的圖像，并使用其標題（Li等，2023b），并使用State-Ofart LLMS來推理與圖像標題交織在一起的僅文本對話。我們直接將圖像直接用于多模式對話框生成任務。查看附錄C中的其他詳細信息。

問題回答。我們評估了三種類型的模型：（1）基本LLMS具有約束上下文長度的基礎LLM，其中省略了較早的對話，即Mistral-7B-Instruct-V0.2（Jiang等，2023），Llama-2-70B-Chat（Touvron）等，2023）和Llama-3-70B-Instruct5; （2）具有擴展上下文窗口的長篇小寫LLM，即GPT-3.5-Turbo 6，GPT-4-Turbo 7，Gemini-1.0-Pro（Team等，2023）和Claude-3-sonnet8；（3）檢索提升的生成（RAG）涉及從對話記錄數據庫，觀察結果（關于說話者的斷言；請參見第3.3節，圖9）或會話級級別的摘要（請參見第§3.3，圖8，圖8）。我們使用Dragon（Lin等，2023）作為獵犬，而GPT-3.5-Turbo作為讀者。

事件摘要。我們使用基本和長篇小寫的設置從問題提問任務中進行了實驗，但是避免了包括抹布的抹布，因為摘要需要對整個對話有全面的理解，而不僅僅是檢索特定部分。我們實施增量摘要，即迭代地創建上一個會話的摘要，然后以該摘要為基礎來匯總后續會議（Chang等，2023）。

多模式對話生成。我們使用自動管道（無人體過濾；第3節）進行50次對話，以訓練數據，并訓練三個版本的迷你期5版（Zheng等，2023）：（1）僅先前對話的基礎火車僅轉向；（2） +關于先前對話轉彎的摘要列車和正在進行的對話的全球摘要；（3） +關于先前對話轉彎和從對話歷史檢索到的觀察的觀察列車。

每次運行都用MMDialog上的Minigpt-5檢查點初始化（Feng等，2022）。

6 Experimental Results 實驗結果

我們評估和分析所有基準方法的全面性能（第6.1節），事件圖摘要（§6.2）和多模式對話生成（第6.3節）。

6.1 Question Answering Task 問答任務

表2和表3給出了回答任務的性能結果。我們發現：（1）上下文長度有限的LLM面臨著由于截短的上下文窗口而導致的非常長的對話時面臨的挑戰。盡管GPT-4-Turbo成為最佳表現模型，總得分為51.6，但它顯著落后于87.9的人類基準。（2）LongContext LLM可以理解更長的敘述，但它們容易產生幻覺。 GPT-4-Turbo在整體表現方面的其他方法都優于其他方法，但其在對抗性問題上的表現僅下降到15.7％，而使用GPT-3.5-Turbo和80.0％使用Llama-3-Chat-70b，而4K Chat-70b則降至15.7％長度。

在Gemini-Pro-1.5和Claude-Sonnet模型中也觀察到類似的趨勢。 GPT-3.5-Turbo的整體性能隨上下文的長度而增加，這主要是由于單跳和多跳的場景的大量改進，但是對抗性問題的表現卻急劇下降。這表明LLM在經歷較長的背景時很容易被誤導為產生幻覺。（3）長篇小說LLM難以正確利用召回的上下文。單跳和多跳問題類別之間的性能差距表明，LLM在“記憶”一個大的上下文窗口中相當擅長，但發現在召回的上下文中執行復雜的推理是一項挑戰。（4）當將對話作為觀測值存儲時，破布是有效的。當輸入是前5個相關觀察結果而不是純對話日志時，GPT-3.5-turbo有5％的改善。這種改進會隨著檢索的觀測值數量的增加而動搖，這表明在檢索到的上下文中，降低信號（SNR）比率很重要，以便模型準確利用上下文。相反，盡管召回精度很高，但使用會話摘要作為上下文并不能顯著提高性能，這可能是由于在對話框轉換為摘要過程中的信息丟失所致。

有趣的發現是時間推理和開放域知識問題是最具挑戰性的情況。（1）llms面對chal-在對話中理解時間概念的Lenges，這與其他基于單轉的基準的發現一致，該基準的重點是LLMS的時間推理功能（Wang和Zhao，2023）。（2）LLM與opendomain知識斗爭并在抹布環境中降低。這表明，盡管某些開放域知識可以嵌入模型的參數中，從而引入了不準確檢索的不當背景會導致性能下降（Mallen等，2023）。

6.2 Event Summarization Task 事件摘要任務

表4給出了事件摘要任務的結果。強大的長篇小寫模型記錄了此任務上最高的性能。 GPT-4-Turbo在Rouge和FactScore指標方面的得分最高，其次是Gemini-1.0-Pro和Claude-3-Sonnet。與長篇小說模型相比，使用Llama-3-70B教學窗口（4K上下文窗口）的增量匯總（4K上下文窗口）的使用效果很好，僅證明Rouge-l分數下降了2.4％。但是，在“事實”指標上的性能下降了近10％，這表明它無法捕獲與長篇小說模型一樣多的信息。盡管如此，在這項任務上的績效仍然很大。事件摘要任務需要遠程依賴性，以了解說話者在多個會話中討論的事件之間的時間和因果關系（見圖7）。最佳模型與該任務上的上限之間的巨大差距表明，LongContext模型可能不熟練地利用其上下文，這也與Li等人（2023a）中的類似發現以及QA任務相符機車。

根據對預測的摘要的手動分析，我們確定了LLMS犯下的事件摘要錯誤的五個廣泛類別：（1）事件中的丟失信息，因為該模型無法在漫長的對話中建立時間和/或因果關系；（2）幻覺，即對話中不存在的額外細節，或者是同一會話中其他事件的一部分；（3）誤解對話線索（例如幽默或諷刺）的錯誤是理解對話的獨特問題；（4）不準確的說話者歸因；（5）被錯誤地認為是顯著事件的微不足道的對話。請參閱附錄中表6中的示例。

6.3 Multi-Modal Dialog Generation Task 多模式對話框生成任務

圖4說明了各種迷你訓練變體在多模式對話生成中的有效性。將上下文納入訓練中可以增強性能，并將觀察結果包括在內，因為上下文產生了顯著改善的結果。例如，在圖4A中，檢索到的觀察結果包含有關說話者在視頻游戲錦標賽中的經驗的信息，這導致了對話框和圖像對演講者角色更忠實的圖像的預測。該觀察結果與QA任務的早期發現一致（請參見表3）。另外，我們觀察到，MM-Reathance評分隨著對話歷史記錄的長度的增加而下降（請參見圖4B）。檢索增強的一代在某種程度上減輕了MM-RELEVANCE的下降。

7 Conclusion 結論

我們開發了一條人機管道來收集機車，這是一個由10個高質量的非常長的對話的數據集，每次涵蓋了600圈和16K代幣，在AVG。上最多可達32個會話，并提出了一個評估框架，該評估框架由三個評估的任務組成，這些任務是評估的。模型在長時間對話中的熟練程度。我們的實驗表明，LLM努力理解對話中的長期敘事，并且無法在演講者討論的事件之間建立時間和因果關系。

8 Limitations 限制

機器生成的數據。我們的數據集主要來自LLMS生成的文本。我們追求了這種方法，該方法已迅速成為耗時的手動數據收集（Kim等，2023; Jang等，2023b）的一種流行替代方案，以避免收集非常長期的現實世界的后勤和法律復雜性大規模對話。我們通過讓人類注釋者驗證和編輯生成的對話來確保數據集盡可能地反映現實世界的交互。但是，我們承認該數據集可能無法完全反映現實世界在線對話的細微差別。

對多模式行為的有限探索。

由于我們的數據集中的圖像是從網絡中采購的，因此它們沒有證明通常在個人照片（例如外觀，家庭環境，人和寵物等）中展示的視覺長期一致性。因此，我們發現我們的數據集中的圖像可以用其字幕替換而不會丟失信息，除了需要OCR的情況。然而，我們的工作是研究長期對話多模式方面的第一步。

語言。我們的基于LLM的長期對話的管道僅針對英語開發了。但是，我們可以使用精通該語言的LLM和提示的適當翻譯來與任何其他語言一起使用。

封閉源LLM。我們在對話框生成管道中使用最先進的LLMS來創建一個盡可能現實的對話框數據集。不幸的是，這意味著采用未開源的LLM，僅通過付費API才能獲得，類似于許多引起合成對話的并發作品（Zhong等，2023； Lu等，2023）。我們將為我們的生成管道制定代碼，希望將來可以使其與開源LLM有效合作。

評估長格式NLG。即使在簡短的短語中提示回答，LLM也容易產生冗長的答案。這在評估LLM提供的答案的正確性方面引起了挑戰，并已在NLP文獻中得到廣泛證明（Chang等，2023; Xu等，2023; Krishna等，2023）。我們的評估框架在使用LLMS實驗時面臨著相同的挑戰。

9 Broader Impacts 更廣泛的影響

我們采用并改善了Park等人（2023）中引入的生成代理的框架，以產生長期對話。因此，Park等人（2023）概述的生成代理的道德問題也適用于我們的工作，尤其是因為我們框架的目標是使對話盡可能現實。

具體而言，通過框架中的時間事件圖所啟用的對話代理人可以像人類一樣構成人類，從而構成了用戶可能與可能不利影響生活的這種代理人形成副社會關系的風險。我們建議，在我們的工作中，任何實際部署生成框架的任何實際部署都始終置于對話源的免責聲明中。

其次，使用多模式LLM（Zheng等，2023）在對話框中生成圖像可以導致錯誤信息和社會偏見的傳播，尤其是如果可以將對話代理人脅迫到偽造的虛假信息或危險意見。

第三，很容易使用生成劑代替真正的人類，尤其是當與人類的特定目標面臨重大挑戰時，例如一年或更長時間以上人類之間的現實世界互動。必須注意確保在研究結果可以用來做出對人類產生切實影響的現實決定的研究中不要做出這種替代品。我們的工作僅僅是對長期對話中模型理解的研究。我們沒有根據這項研究對現實世界政策提出任何建議，并建議我們框架的潛在用戶也避免提出此類建議。