摘要:近期,大型語言模型(LLMs)的進展加速了金融自然語言處理(NLP)及其應用的發展,然而現有的基準測試仍局限于單語言和單模態場景,往往過度依賴簡單任務,無法反映現實世界金融交流的復雜性。我們推出了 MultiFinBen,這是首個針對全球金融領域定制的多語言、多模態基準測試集,用于在特定領域任務上跨模態(文本、視覺、音頻)和語言環境(單語言、雙語、多語言)對大型語言模型進行評估。我們引入了兩個新穎的任務,包括 PolyFiQA-Easy 和 PolyFiQA-Expert,這是首批要求模型對混合語言輸入進行復雜推理的多語言金融基準測試;以及 EnglishOCR 和 SpanishOCR,這是首批嵌入光學字符識別(OCR)技術的金融問答任務,挑戰模型從圖文并茂的金融文檔中提取信息并進行推理。此外,我們提出了一種動態的、具備難度感知能力的選擇機制,并精心策劃了一個緊湊且平衡的基準測試集,而非簡單聚合現有數據集。對 22 個最先進模型的廣泛評估表明,即便是最強大的模型,盡管具備通用的多模態和多語言能力,但在面對金融領域中復雜的跨語言和多模態任務時,也顯得力不從心。MultiFinBen 已公開發布,旨在推動金融研究和應用領域實現透明、可復現且包容性的進展。Huggingface鏈接:2506.14028,論文鏈接:2506.14028
研究背景和目的
研究背景
近年來,大型語言模型(LLMs)在自然語言處理(NLP)領域取得了顯著進展,并逐漸應用于金融領域。然而,現有的金融NLP基準測試集大多局限于單語言和單模態場景,過度依賴簡單任務,無法充分反映現實世界金融任務的復雜性。這些基準測試集通常只涵蓋文本模態,語言種類單一,任務類型簡單,難以全面評估大型語言模型在真實金融環境中的表現。
具體而言,現有的金融基準測試集存在以下局限性:
- 單語言和單模態限制:大多數基準測試集僅支持單一語言(如英語或中文)和單一模態(如文本),無法評估模型在多語言和多模態環境下的表現。
- 任務簡單化:現有基準測試集的任務設計往往過于簡單,無法充分挑戰模型的能力,導致評估結果缺乏區分度。
- 缺乏難度感知:現有基準測試集在數據集選擇和任務設計上缺乏難度感知機制,導致評估結果無法準確反映模型在不同難度任務上的表現。
研究目的
為了克服現有金融基準測試集的局限性,本研究旨在開發一個多語言、多模態且具備難度感知能力的金融基準測試集——MultiFinBen。MultiFinBen旨在全面評估大型語言模型在真實金融環境中的表現,涵蓋文本、視覺和音頻三種模態,支持單語言、雙語和多語言環境,并包含不同難度的任務類型。通過MultiFinBen,研究人員可以更準確地了解模型在金融領域的優勢和不足,為模型的進一步改進提供指導。
研究方法
數據集構建
MultiFinBen的數據集構建過程包括以下幾個關鍵步驟:
- 數據收集:從多個來源收集金融領域的文本、視覺和音頻數據。文本數據包括金融報告、新聞、財報等;視覺數據包括圖表、表格和PDF文檔的圖像;音頻數據包括財報電話會議錄音等。
- 任務設計:設計了七大類任務,包括信息抽取(IE)、文本分類(TA)、問答(QA)、文本生成(TG)、風險管理(RM)、金融預測(FO)和決策制定(DM)。針對每種任務類型,設計了不同難度的子任務,如簡單(Easy)、中等(Medium)和困難(Hard)。
- 多語言支持:涵蓋了英語、中文、日語、西班牙語和希臘語五種語言,支持單語言、雙語和多語言環境下的評估。
- 多模態融合:在視覺模態中,引入了光學字符識別(OCR)任務,要求模型從掃描的金融PDF文件中提取結構化信息;在音頻模態中,引入了自動語音識別(ASR)和語音摘要任務。
難度感知選擇機制
為了確保基準測試集的挑戰性和平衡性,本研究提出了一種動態的、具備難度感知能力的選擇機制。具體步驟如下:
- 模型性能評估:使用兩個參考模型(GPT-4o和LLaMA3.1-70B-Instruct)對所有候選數據集進行評估,計算平均標準化性能得分。
- 難度分級:根據平均得分將數據集分為簡單(>60分)、中等(20-60分)和困難(<20分)三個等級。
- 數據集選擇:在每個模態-語言-任務配置下,從每個難度等級中選擇一個數據集,確保基準測試集的緊湊性和平衡性。
模型評估
本研究對22個最先進的大型語言模型進行了廣泛評估,包括閉源模型(如GPT-4o)和開源模型(如Llama-4、Qwen-2.5-Omni等)。評估過程包括:
- 任務適配:將每個模型適配到MultiFinBen的各項任務中,確保模型能夠處理不同模態和語言環境下的輸入。
- 性能評估:使用ROUGE-1、準確率(Accuracy)、F1分數等指標評估模型在各項任務上的表現。
- 難度分析:分析模型在不同難度任務上的表現,揭示模型的優勢和不足。
研究結果
模型性能概述
評估結果顯示,即便是最先進的大型語言模型,在面對MultiFinBen中的復雜跨語言和多模態任務時,也表現出顯著的局限性。具體而言:
- 總體表現:GPT-4o在MultiFinBen上的總體得分為50.67%,盡管其在多項任務上表現出色,但仍遠未達到完美水平。其他模型的表現則更為參差不齊,多模態和多語言模型的表現普遍優于單模態和單語言模型。
- 模態差異:在文本任務上,專門的文本模型(如Llama-3.1-70B)表現優于多模態模型;但在視覺和音頻任務上,多模態模型(如GPT-4o和Qwen-2.5-Omni-7B)則表現出顯著優勢。
- 語言差異:多語言模型在多語言任務上的表現顯著優于單語言模型,尤其是在低資源語言(如希臘語)上,專門的多語言模型(如Plutus)表現出更高的準確率。
難度分析
難度感知選擇機制揭示了模型在不同難度任務上的表現差異:
- 簡單任務:模型在簡單任務上的表現普遍較好,但仍有提升空間。例如,GPT-4o在簡單任務上的得分為31.24%,而在困難任務上的得分則下降至6.63%。
- 中等和困難任務:模型在中等和困難任務上的表現顯著下降,尤其是跨語言和多模態任務。這表明現有模型在處理復雜金融任務時仍存在顯著不足。
新任務挑戰
MultiFinBen中引入的兩個新任務——PolyFiQA-Easy/Expert和OCR嵌入的金融問答任務(EnglishOCR和SpanishOCR)——對模型構成了顯著挑戰。評估結果顯示,即便是最先進的模型在這些任務上的表現也遠未達到預期水平,這進一步凸顯了MultiFinBen在揭示模型局限性方面的價值。
研究局限
盡管MultiFinBen在評估大型語言模型在金融領域表現方面取得了顯著進展,但仍存在以下局限性:
- 高質量開放數據集的有限性:金融領域缺乏真正開源的數據集,許多公開數據集包含模糊或限制性的許可條款,阻礙了數據的再分發和標準化基準測試。這限制了MultiFinBen的覆蓋范圍,可能無法充分代表現實世界金融任務的多樣性。
- 評估指標的多樣性:不同任務類型需要不同的評估指標,這增加了基準測試集設計的復雜性。雖然本研究使用了ROUGE-1、準確率等常用指標,但在某些任務上可能仍需更細粒度的評估方法。
- 模型多樣性的限制:盡管本研究評估了22個最先進的模型,但仍可能存在未涵蓋的模型類型或架構。此外,閉源模型的不可訪問性也限制了評估的全面性。
未來研究方向
基于MultiFinBen的研究結果和局限性分析,未來的研究可以從以下幾個方面展開:
- 擴展數據集覆蓋范圍:進一步收集和整理更多高質量、開源的金融數據集,尤其是覆蓋更多語言和模態的數據集。這將有助于提高基準測試集的代表性和多樣性。
- 改進評估指標:針對不同任務類型設計更細粒度的評估指標,以更準確地反映模型在各項任務上的表現。例如,在OCR任務中,可以引入字符識別準確率、布局恢復準確率等指標。
- 探索新模型架構:研究新的模型架構和訓練方法,以提高模型在跨語言和多模態任務上的表現。例如,可以探索結合預訓練語言模型和特定領域知識的混合模型架構。
- 加強模型可解釋性研究:研究如何提高大型語言模型在金融領域的可解釋性,以便更好地理解模型的決策過程和結果。這將有助于增強用戶對模型的信任度,并促進模型在金融領域的實際應用。
- 推動社區合作與標準化:加強與學術界和工業界的合作,共同推動金融領域大型語言模型基準測試集的標準化和規范化。通過共享數據集、評估方法和最佳實踐,促進整個領域的共同進步。
綜上所述,MultiFinBen作為一個多語言、多模態且具備難度感知能力的金融基準測試集,為評估大型語言模型在金融領域的表現提供了全面而系統的框架。盡管存在某些局限性,但通過未來的研究和改進,有望推動金融領域大型語言模型的發展和應用。