1.Pre-trained Large Language Models for Financial Sentiment Analysis
標題:用于金融情感分析的預訓練大型語言模型
author:Wei Luo, Dihong Gong
date Time:2024-01-10
paper pdf:http://arxiv.org/pdf/2401.05215v1
摘要:
金融情感分析是指將金融文本內容劃分為情感類別(如正面、負面和中性)。在本文中,我們重點關注財經新聞標題的分類,由于缺乏大量的訓練樣本,這是一項具有挑戰性的任務。為了克服這一困難,我們建議使用預訓練的大型語言模型(LLMs)[1, 2, 3]來解決這一問題。LLM 由大量文本語料庫訓練而成,在文本理解方面具有優勢,可以有效地適應特定領域的任務,同時只需要很少的訓練樣本。特別是,我們利用監督微調(SFT)技術對開源的 Llama2-7B 模型(2023)進行了調整[4]。實驗評估表明,即使使用 7B 模型(對于 LLM 而言,該模型相對較小),我們的方法也明顯優于之前的先進算法。
2.Can ChatGPT Rival Neural Machine Translation? A Comparative Study
標題:ChatGPT 能否媲美神經機器翻譯?比較研究
author:Zhaokun Jiang, Ziyin Zhang
date Time:2024-01-10
paper pdf:http://arxiv.org/pdf/2401.05176v1
摘要:
受利用大型語言模型進行翻譯的興趣日益濃厚的啟發,本文評估了以 ChatGPT 為代表的大型語言模型(LLMs)與主流神經機器翻譯(NMT)引擎在將中文外交文本翻譯成英文方面的能力對比。具體來說,我們通過四個自動化指標以及基于錯誤類型學和六個分析標準的人工評估,考察了 ChatGPT 和 NMT 引擎的翻譯質量。我們的研究結果表明,在不同的提示和 NMT 系統下,ChatGPT 的自動度量結果相似,而當 ChatGPT 獲得有關翻譯任務的示例或上下文信息時,人工注釋者傾向于給予 ChatGPT 明顯更高的分數。自動化指標與人工評估維度之間的配對相關性結果微弱且不顯著,這表明兩種翻譯質量評估方法之間存在差異。這些發現為了解 ChatGPT 作為功能強大的機器翻譯的潛力,以及提示工程對其性能的影響提供了寶貴的見解。
3.InFoBench: Evaluating Instruction Following Ability in Large Language Models
標題:InFoBench:評估大型語言模型中的指令跟蹤能力
author:Yiwei Qin, Kaiqiang Song, Yebowen Hu, Wenlin Yao, Sangwoo Cho, Xiaoyang Wang, Xuansheng Wu, Fei Liu, Pengfei Liu, Dong Yu
date Time:2024-01-07
paper pdf:http://arxiv.org/pdf/2401.03601v1
摘要:
本文介紹了分解要求遵循率(DRFR),這是一種用于評估大型語言模型(LLM)遵循指令能力的新指標。DRFR 將復雜的指令分解為更簡單的標準,便于詳細分析 LLM 是否符合任務的各個方面,從而彌補了當前方法的不足。除此指標外,我們還介紹了 InFoBench 基準,該基準包含 500 種不同指令和 2250 個分解問題,涉及多個約束類別。我們的實驗將 DRFR 與傳統評分方法進行了比較,并探索了注釋來源,包括人類專家、眾包工作者和 GPT-4。實驗結果表明 DRFR 具有更高的可靠性,而且 GPT-4 作為一種經濟高效的注釋器也非常有效。使用該框架對幾種高級 LLM 進行的評估揭示了它們的優勢和需要改進的地方,特別是在復雜的指令遵循方面。這項研究提供了一種新的衡量標準和基準,為未來的 LLM 開發和評估提供了啟示。
4.Human-Instruction-Free LLM Self-Alignment with Limited Samples
標題:有限樣本下的無人工指令 LLM 自對齊
author:Hongyi Guo, Yuanshun Yao, Wei Shen, Jiaheng Wei, Xiaoying Zhang, Zhaoran Wang, Yang Liu
date Time:2024-01-06
paper pdf:http://arxiv.org/pdf/2401.06785v1
摘要:
將大型語言模型(LLMs)與人類價值進行對齊是 LLM 從業人員的一項重要任務。目前的對齊技術有幾個局限性:(1)需要大量注釋數據;(2)需要大量人工參與;(3)缺乏持續改進的系統機制。在這項工作中,我們研究了在樣本有限(例如小于 100 個)的情況下將 LLM 對齊到一個新的領域。我們提出了一種算法,可以在沒有主動人工參與的情況下迭代地對齊 LLM。與現有算法不同的是,我們的算法既不依賴于人工編寫的指令,也不依賴于標記的獎勵,從而大大減少了人工參與。此外,我們的算法還能不斷自我改進配準。其關鍵思路是首先檢索與目標領域相關的高質量樣本,并將其作為上下文學習示例來生成更多樣本。然后,我們利用自生成的樣本對 LLM 進行迭代微調。我們的研究表明,我們的方法可以釋放 LLM 的自我泛化能力,在近乎零人工監督的情況下完成配準。我們在安全性、真實性和指令遵循三個基準上測試了我們的算法,結果表明我們的算法在對齊、領域適應性和可擴展性方面表現出色。
5.DocGraphLM: Documental Graph Language Model for Information Extraction
標題:DocGraphLM:用于信息提取的文檔圖語言模型
author:Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Kang Gu, Sameena Shah
date Time:2024-01-05
paper pdf:http://arxiv.org/pdf/2401.02823v1
摘要:
豐富可視化文檔理解(VrDU)技術的進步使得信息提取和問題解答成為可能。目前出現了兩種架構–受 LLM 啟發的基于變換器的模型和圖神經網絡。在本文中,我們介紹了 DocGraphLM,這是一種將預訓練語言模型與圖語義相結合的新型框架。為此,我們提出了 1) 表示文檔的聯合編碼器架構,以及 2) 重建文檔圖的新型鏈接預測方法。DocGraphLM 使用收斂的聯合損失函數預測節點之間的方向和距離,該函數優先考慮鄰域恢復,并降低遠處節點檢測的權重。我們在三個 SotA 數據集上進行的實驗表明,采用圖特征后,IE 和 QA 任務的性能得到了持續改善。此外,我們還報告稱,在訓練過程中,盡管圖特征僅通過鏈接預測來構建,但采用圖特征加快了學習過程的收斂速度。
6.Blar-SQL: Faster, Stronger, Smaller NL2SQL
標題:Blar-SQL:更快、更強、更小的 NL2SQL
author:José Manuel Domínguez, Benjamín Errázuriz, Patricio Daher
date Time:2024-01-04
paper pdf:http://arxiv.org/pdf/2401.02997v1
摘要:
大型語言模型(LLMs)在自然語言到 SQL 任務(NL2SQL)領域已經獲得了相當高的知名度。在本研究中,我們展示了任務分解如何使 LLM 在數據庫理解和查詢生成方面受益匪淺,從而用 SQL 查詢回答人類的問題。 我們對開源模型(特別是 Llama-2 和 Code Llama)進行了微調,將 2 個不同的模型組合在一起,每個模型都被指定專注于兩個任務中的一個,以便利用每個模型的核心能力進一步提高最終 SQL 查詢的準確性。 我們提出了一個新框架,將模式劃分為若干塊,以便在有限的上下文中容納更多信息。我們的結果與 GPT-4 所取得的結果不相上下,同時比 GPT-4 小 135 倍、快 90 倍、便宜 100 多倍。
7.Are LLMs Robust for Spoken Dialogues?
標題:LLM 是否適合口語對話?
author:Seyed Mahed Mousavi, Gabriel Roccabruna, Simone Alghisi, Massimo Rizzoli, Mirco Ravanelli, Giuseppe Riccardi
date Time:2024-01-04
paper pdf:http://arxiv.org/pdf/2401.02297v1
摘要:
大型預訓練語言模型在不同的下游任務(包括對話狀態跟蹤和端到端響應生成)中表現出了最先進的性能。然而,大多數面向任務對話的公開可用數據集和基準都集中在書面對話上。因此,所開發模型對口語交互的魯棒性尚不可知。在這項工作中,我們在 DSTC11 測試集上評估了面向任務的口語對話 LLM 的性能。由于缺乏合適的口語對話數據集,我們使用最先進的 ASR 引擎自動轉錄了口語對話開發集。我們描述了 ASR 錯誤類型及其分布,并在一個大型對話數據集中模擬了這些錯誤。我們報告了經過微調的 GPT-2 和 T5 模型分別在應答生成和對話狀態跟蹤這兩個子任務中的內在(易錯性)和外在(人類評估)性能。結果表明,LLM 默認情況下對口語噪聲不具有魯棒性,但是,在適當的口語 TOD 數據集上對此類模型進行微調/訓練,可以獲得更加魯棒的性能。
8.Using LLM to select the right SQL Query from candidates
標題:使用 LLM 從候選中選擇正確的 SQL 查詢
author:Zhenwen Li, Tao Xie
date Time:2024-01-04
paper pdf:http://arxiv.org/pdf/2401.02115v1
摘要:
文本到 SQL 模型可以生成候選 SQL 查詢列表,而最佳查詢往往就在候選列表中,但并不在列表的頂部。有效的重新排序方法可以從候選列表中選擇正確的 SQL 查詢,從而提高模型的性能。以往關于代碼生成的研究可以自動生成測試用例,并利用它們對候選代碼重新排序。然而,文本到 SQL 的自動測試用例生成是一個研究不足的領域。我們提出了一種自動生成測試用例的方法,該方法首先生成一個數據庫,然后使用 LLM 預測基本事實,即基本事實 SQL 查詢在該數據庫上的預期執行結果。為了降低 LLM 預測的難度,我們進行了實驗,尋找為 LLM 生成簡單數據庫的方法,并設計了易于理解的提示。基于我們的測試用例生成方法,我們提出了一種從候選列表中選擇正確 SQL 查詢的重新排序方法。給定候選列表后,我們的方法可以生成測試用例,并根據這些測試用例的通過率和生成概率對候選列表重新排序。在 Spider 驗證數據集上的實驗結果表明,應用我們的重排序方法后,一些最先進模型的性能可以提高 3.6%。
9.Understanding LLMs: A Comprehensive Overview from Training to Inference
標題:了解 LLM:從訓練到推理的全面概述
author:Yiheng Liu, Hao He, Tianle Han, Xu Zhang, Mengyuan Liu, Jiaming Tian, Yutong Zhang, Jiaqi Wang, Xiaohui Gao, Tianyang Zhong, Yi Pan, Shaochen Xu, Zihao Wu, Zhengliang Liu, Xin Zhang, Shu Zhang, Xintao Hu, Tuo Zhang, Ning Qiang, Tianming Liu, Bao Ge
date Time:2024-01-04
paper pdf:http://arxiv.org/pdf/2401.02038v2
摘要:
隨著 ChatGPT 的推出,用于處理下游任務的大型語言模型(LLM)的使用率大幅提高。在這種情況下,人們越來越關注具有成本效益的訓練和部署。LLM 的低成本培訓和部署是未來的發展趨勢。本文回顧了與這一新興趨勢相適應的大型語言模型訓練技術和推理部署技術的發展。關于訓練的討論涉及多個方面,包括數據預處理、訓練架構、預訓練任務、并行訓練以及與模型微調相關的內容。在推理方面,論文涉及模型壓縮、并行計算、內存調度和結構優化等主題。論文還探討了 LLM 的使用情況,并對其未來發展提出了見解。
10.Text2MDT: Extracting Medical Decision Trees from Medical Texts
標題:Text2MDT:從醫學文本中提取醫學決策樹
author:Wei Zhu, Wenfeng Li, Xing Tian, Pengfei Wang, Xiaoling Wang, Jin Chen, Yuanbin Wu, Yuan Ni, Guotong Xie
date Time:2024-01-04
paper pdf:http://arxiv.org/pdf/2401.02034v1
摘要:
醫療決策過程的知識可以建模為醫療決策樹(MDT),這對于建立臨床決策支持系統至關重要。然而,目前的 MDT 構建方法嚴重依賴費時費力的人工標注。在這項工作中,我們提出了一項新任務–Text2MDT,探索從醫學指南和教科書等醫學文本中自動提取 MDT。我們將 MDT 的形式規范化,并在醫學專家的參與下創建了一個有注釋的中文文本到 MDT 數據集。我們針對文本到 MDT 任務研究了兩種不同的方法:(a) 端到端框架,該框架僅依靠 GPT 式大語言模型(LLM)指令調整來生成所有節點信息和樹結構。(b) 管道框架,將 Text2MDT 任務分解為三個子任務。在我們的 Text2MDT 數據集上進行的實驗表明(a) 基于 LLM(7B 參數或更大)的端到端方法顯示出良好的效果,并成功超越了管道方法。(b) 思維鏈(COT)提示方法(\cite{Wei2022ChainOT})可以提高微調 LLMs 在 Text2MDT 測試集上的性能。? 基于編碼器預訓練模型的輕量級流水線方法的性能可與模型復雜度小兩個量級的 LLM 相媲美。我們的 Text2MDT 數據集開源于 \url{https://tianchi.aliyun.com/dataset/95414},源代碼開源于 \url{https://github.com/michael-wzhu/text2dt}。
11.Can AI Be as Creative as Humans?
標題:人工智能能像人類一樣有創造力嗎?
author:Haonan Wang, James Zou, Michael Mozer, Anirudh Goyal, Alex Lamb, Linjun Zhang, Weijie J Su, Zhun Deng, Michael Qizhe Xie, Hannah Brown, Kenji Kawaguchi
date Time:2024-01-03
paper pdf:http://arxiv.org/pdf/2401.01623v4
摘要:
創造力是社會進步和創新的基石。隨著先進的生成式人工智能模型的興起,這些模型能夠完成曾經只屬于人類創造力的任務,因此研究人工智能的創造潛力對于其負責任的發展和應用來說勢在必行。在本文中,我們從理論上證明了人工智能可以像人類一樣具有創造力,前提是它能正確地適應人類創造者生成的數據。因此,關于人工智能創造力的爭論被簡化為其是否有能力適應足夠數量的數據的問題。為了得出這一結論,本文首先引入了一個名為 "相對創造力 "的新概念,以解決定義創造力的復雜性問題。我們并不試圖對創造力進行普遍定義,而是將重點轉移到人工智能是否能與假想人類的創造能力相匹配。方法論上的轉變帶來了對人工智能創造力的統計量化評估,即 “統計創造力”(Statistical Creativity)。這一概念將人工智能的創造能力與特定人類群體的創造能力進行統計比較,有助于從理論上探索人工智能的創造潛力。我們的分析表明,通過對大量條件數據進行擬合,而不將生成條件邊緣化,人工智能可以作為一個假想的新創造者出現。這種創造者擁有與人類創造者同等的創造能力。在理論研究成果的基礎上,我們討論了及時條件自回歸模型中的應用,為評估大型語言模型(LLM)等人工智能生成模型的創造能力提供了一種實用方法。此外,這項研究還提供了一個可操作的培訓指南,將創造力的理論量化與實際模型培訓結合起來。
12.LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
標題:LLM Maybe LongLM:無需調整即可自擴展 LLM 上下文窗口
author:Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu
date Time:2024-01-02
paper pdf:http://arxiv.org/pdf/2401.01325v2
摘要:
眾所周知,LLM 不能很好地泛化到長度大于訓練序列長度的長上下文。這給在推理過程中使用 LLMs 處理長輸入序列帶來了挑戰。在這項工作中,我們認為 LLM 本身具有處理長上下文的內在能力,無需微調。為了實現這一目標,我們提出了 “自我擴展”(SelfExtend)方案,通過構建兩級注意力信息來擴展 LLM 的上下文窗口:分組注意力和鄰近注意力。分組注意力捕捉的是相距較遠的標記之間的依賴關系,而鄰居注意力捕捉的是指定范圍內相鄰標記之間的依賴關系。這兩級注意力是在推理過程中根據原始模型的自我注意力機制計算出來的。只需對代碼稍作修改,我們的 SelfExtend 就能毫不費力地擴展現有 LLM 的上下文窗口,而無需進行任何微調。我們在多個基準上進行了綜合實驗,結果表明我們的 SelfExtend 可以有效地擴展現有 LLM 的上下文窗口長度。代碼見 \url{https://github.com/datamllab/LongLM}。
13.A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
標題:大型語言模型中減少幻覺技術的全面調查
author:S. M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Anku Rani, Vipula Rawte, Aman Chadha, Amitava Das
date Time:2024-01-02
paper pdf:http://arxiv.org/pdf/2401.01313v3
摘要:
隨著大型語言模型(LLMs)在編寫類人文本方面的能力不斷提高,一個關鍵的挑戰依然存在,那就是它們容易產生幻覺,生成看似真實但毫無根據的內容。可以說,幻覺問題是將這些功能強大的 LLM 安全地部署到影響人們生活的實際生產系統中的最大障礙。要在實際環境中廣泛采用 LLM,在很大程度上有賴于解決和減輕幻覺問題。與專注于有限任務的傳統人工智能系統不同,LLM 在訓練過程中接觸了大量在線文本數據。雖然這使它們能夠表現出令人印象深刻的語言流暢性,但這也意味著它們能夠從訓練數據的偏差中推斷信息,誤解模棱兩可的提示,或修改信息使其與輸入信息表面一致。當我們依賴語言生成能力進行敏感應用(如總結醫療記錄、財務分析報告等)時,這種情況就會變得非常令人擔憂。本文全面介紹了為減少 LLM 中的幻覺而開發的 32 種技術。其中著名的有檢索增強生成(Lewis 等人,2021 年)、知識檢索(Varshney 等人,2023 年)、CoNLI(Lei 等人,2023 年)和 CoVe(Dhuliawala 等人,2023 年)。此外,我們還引入了一個詳細的分類法,根據數據集利用率、常見任務、反饋機制和檢索器類型等各種參數對這些方法進行分類。這種分類有助于區分專為解決 LLM 中的幻覺問題而設計的各種方法。此外,我們還分析了這些技術所面臨的挑戰和固有的局限性,為今后研究解決 LLM 領域中的幻覺和相關現象奠定了堅實的基礎。
14.Fine-tuning and Utilization Methods of Domain-specific LLMs
標題:特定領域 LLM 的微調和利用方法
author:Cheonsu Jeong
date Time:2024-01-01
paper pdf:http://arxiv.org/pdf/2401.02981v2
摘要:
最近發布的預訓練大型語言模型(LLMs)獲得了相當大的關注,但有關微調和使用特定領域 LLMs 的研究仍然很少。本研究探討了微調和利用特定領域 LLM 的方法,重點介紹了 LLM 的發展趨勢、基礎模型和特定領域預訓練方法。本研究以金融領域為重點,詳細介紹了數據集選擇、預處理、模型選擇以及對金融領域 LLM 微調至關重要的注意事項。針對金融數據的獨特性,該研究探討了特定領域詞匯表的構建以及安全和監管合規方面的注意事項。在 LLM 微調的實際應用中,研究概述了在金融領域生成特定領域 LLM 的程序和實施。本研究舉例說明了各種金融案例,包括股票價格預測、金融新聞情感分析、自動文檔處理、研究、信息提取和客戶服務提升。研究探討了 LLM 在金融領域的潛力,指出了局限性,并提出了改進方向,為未來研究提供了寶貴的見解。最終,它推動了商業領域自然語言處理技術的發展,建議各行業在金融服務中積極利用 LLM。