論文閱讀_大模型情緒分析預測股票趨勢

英文名稱:Stock Price Trend Prediction using Emotion Analysis of Financial Headlines with Distilled LLM Model ?

中文名稱:利用蒸餾大型語言模型對財務新聞標題情緒分析以預測股價趨勢 ?

鏈接: https://dl.acm.org/doi/pdf/10.1145/3652037.3652076

作者: Rithesh H. Bhat, Bhanu Jain ?

機構: University of Texas at Arlington ?

日期:2024?06?26?

摘要

  • 目標:探討僅通過財務新聞標題中的情緒分析是否能夠在無財務數據情況下預測股票價格趨勢。

  • 方法:使用輕量蒸餾大型語言模型分析財務新聞標題的情緒,再結合多種機器學習分類算法預測次日股價方向。

  • 結論:基于新聞標題情緒的特征預測準確性可與使用傳統財務數據的模型相當,不依賴抓取公司財務數據亦可有效預測股價走勢。

讀后感

內容簡潔明了,各種具體的實現方法不僅清晰而且易于執行。驚喜的是,這里提到可以從 Kaggle 上下載 2009-2020 年間超過百萬條的股票相關新聞數據(下載鏈接)。

不過這個預測的目標顯得有些單一,僅僅是預測股價是漲是跌,相對而言較為簡單。

image

1 引言

通過基于 API 的機制檢索財經新聞頭條,并訓練輕量化、計算快速的蒸餾 LLM 模型,以捕捉公司金融新聞頭條的情緒基調和強度。隨后,我們將這些情緒信息與多種機器學習分類算法結合使用,僅通過新聞的情緒分析預測股價走勢。我們證明,利用金融新聞標題中的情緒分析屬性預測股價方向,與僅依賴財務數據運行的算法一樣準確。

1.1 主要貢獻

  • 通過金融聚合器的 API 創建預測股票價格所需的數據集,避免了網絡抓取用于策劃金融數據集的復雜過程。

  • 展示如何微調預訓練的 LLM 模型,以有效預測財經新聞頭條的情緒。

  • 使用蒸餾的 LLM 模型執行文本分類任務,代替傳統 NLP 方法,實現同樣的目標。

  • 針對情緒和財務特性,分別執行分類算法,以預測股價走勢。

  • 對所采用方法的局限性和挑戰進行分析和討論。

2 數據聚合

2.1 股票選擇

本研究選取了來自美國的 32 家市值超過 2000 億美元的大型上市公司。這些公司具有新聞曝光度高、數據豐富等特點,便于獲取高質量的財經新聞,從而有效研究新聞標題所包含的信息與股價趨勢之間的相關性。

我們收集了與這些公司相關的兩個維度的數據:

  • 財經新聞

  • 股票的日常財務指標(開盤價、收盤價、成交量、當日最高價和最低價等)

2.2 財經新聞提取

為確保新聞數據的權威性與一致性,我們未采用網頁爬蟲,而是通過官方新聞聚合平臺 NewsAPI.org 提取新聞內容。NewsAPI 提供免費和付費版本的服務,在免費計劃下,每日可請求最多 100 條新聞數據,覆蓋全球主流媒體。

需要注意的是,NewsAPI 的響應中并不包含完整的文章正文,僅提供新聞的標題、描述、來源、發布時間、圖片鏈接及原文鏈接等元數據。

2.3 財務屬性數據獲取

股票價格及財務屬性數據通過 Alpha Vantage 獲取,該平臺提供包括實時和歷史數據在內的金融市場數據服務。用戶需注冊賬號并獲取 API Key。在免費額度下,每日最多請求 25 次數據,因此無法支持對所有公司進行高頻監控。

獲取的數據包括:

  • 每日股價(開盤、收盤、最高、最低)

  • 成交量

  • 年度與季度收益報告等基本面信息

2.4 數據采集使用的工具庫

我們分別使用?newsapi-python?和?alphavantage?兩個官方 Python 包從上述 API 獲取數據。這些庫封裝了常用請求方法,便于快速集成。

上述信息經清洗后統一存儲至 Postgres 數據庫。

2.5 歷史新聞數據的補充

由于 NewsAPI 的免費套餐僅允許訪問最近 30 天的數據,我們通過 Kaggle 補充了歷史財經新聞數據,獲取了 2009 年至 2020 年期間,涵蓋 6,000 只股票的新聞標題數據,以提升模型的泛化能力與長期預測效果。

2.6 情緒分析

本研究引入情緒分析而非傳統的情感(sentiment)分析,是為了獲得更細致的情緒標簽和更高維度的表達。相比二元(正面 / 負面)或三元(正面 / 中性 / 負面)情感分類,情緒分析提供了對具體情緒類別(如憤怒、喜悅、恐懼等)的識別,更有助于理解金融新聞中對市場潛在影響的細節。

2.7 模型選擇策略

在本地部署了一款輕量級的蒸餾版語言模型:emotion-english-distilroberta-base。這是基于 RoBERTa-base 的變體,專為英文情緒識別任務優化。

該模型支持基于 Ekman 情緒理論的 7 類標簽:

  • 憤怒(anger)

  • 厭惡(disgust)

  • 恐懼(fear)

  • 喜悅(joy)

  • 悲傷(sadness)

  • 驚訝(surprise)

  • 中性(neutral)

該分類粒度適中,適合捕捉財經新聞標題中隱含的心理預期和市場反應傾向。

2.8 模型訓練數據

為了增強模型對財經領域術語和表達的理解,我們采用有監督微調方法對模型進行定制訓練。具體流程如下:

  • 首先人工對一批財經新聞標題進行標注,每條標題分配一個情緒標簽;

  • 然后使用這些帶標簽的數據對基礎模型進行訓練,使其適應金融語境下的情緒識別任務。

訓練的核心目標是提升模型對財經類文本的感知精度,而不僅僅依賴通用語料中的語言特征。

2.9 微調效果

在微調階段,我們僅使用了 76 條具有不同情緒標簽的新聞標題進行訓練,樣本數量雖少,但模型表現有明顯提升。微調后的模型在預測財經新聞的情緒類別上更加敏感,尤其對“恐懼”“驚訝”等高影響力情緒的識別更準確。

表 2 展示了模型微調前后的性能對比,具體指標包括準確率、召回率和 F1 分數,均有實質性改善。

image

3 實驗

  • 實驗一

    :通過 SQL 查詢提取指定時間范圍內的情緒標簽、情緒強度(emotion_strength)以及收盤價。對 7 類情緒(憤怒、厭惡、恐懼、喜悅、中性、悲傷、驚訝)進行獨熱編碼,轉化為布爾特征。

  • 實驗二

    :提取同一時間段內的股價相關數據,包括開盤價、收盤價、最高價、最低價、成交量及收盤價的滾動平均。

  • 為防止過擬合,兩組實驗均移除了公司名稱、日期等非關鍵字段。

  • 標簽設置為二分類:若次日收盤價高于當日,則為 1,否則為 0。

  • 數據按 8:2 比例劃分為訓練集和測試集。

  • 兩個實驗均分別使用三種分類算法進行建模:邏輯回歸、隨機森林、人工神經網絡(ANN)。

image

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/96231.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/96231.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/96231.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

websocket和socket區別

websocket和socket區別,這是一個非常經典的問題。簡單來說,Socket 是構建網絡通信的工具和基礎,而 WebSocket 是建立在它之上的一種具體的通信協議。可以把它們的關系想象成:Socket 像是修路和建立交通規則的基礎工程。它定義了車…

網絡復習1

1.網絡協議棧 一般一個主機內的應用(進程)進行通信,直接在操作系統層面進行 進程交互即可。而不同位置兩臺主機進行通信需要通過網線傳輸信號,因此 這些通信的數據為網絡數據,而網絡數據進程傳輸必須從應用層依次向下…

AFSim2.9.0學習筆記 —— 4.2、ArkSIM文件結構介紹及項目結構整理

🔔 AFSim2.9.0 相關技術、疑難雜癥文章合集(掌握后可自封大俠 ?_?)(記得收藏,持續更新中…) 若還沒有下載AFSim2.9.0完整軟件或源碼,請先進入本人另篇文章了解下載。 文章概要 本文主要對上篇…

hbuilderx配置微信小程序開發環境

hbuilderx配置微信小程序開發環境 借鑒HbuilderX微信開發者工具配置_hbuilder和微信開發者工具-CSDN博客 在微信開發者工具的設置選項的安全設置打開服務端口 在hbuidex的工具的設置選項的運行配置的微信開發者工具路徑的方框輸入 D:/software/wxchatmini 方可成功&#xf…

AUTOSAR Adaptive Platform 日志與追蹤 (Log and Trace) 規范深度解析

<摘要> [R22-11 AUTOSAR Adaptive Platform (AP) 日志規范是AUTOSAR標準體系中針對高性能計算域&#xff08;如自動駕駛、智能座艙&#xff09;的關鍵組成部分。本文對AUTOSAR AP日志與追蹤&#xff08;Log and Trace, LT&#xff09;進行了系統性解析&#xff0c;涵蓋了…

[硬件電路-179]:集成運放,虛短的是電壓,虛斷的是電流

集成運放&#xff08;運算放大器&#xff09;中的“虛短”和“虛斷”是分析其線性應用&#xff08;如反相放大器、同相放大器等&#xff09;時的兩個核心概念&#xff0c;它們分別描述了運放輸入端的電壓和電流特性。以下是詳細解釋&#xff1a;1. 虛短&#xff08;Virtual Sho…

Redis常見問題及其處理策略

TODO&#xff1a;待重新整理 資源穩定性保障&#xff08;以Redis為例&#xff09;&#xff1a;核心指標、常見問題及處理策略 一、資源穩定性核心參考指標 在資源本身的穩定性保障中&#xff0c;常見核心監控指標包括&#xff1a; CPU&#xff1a;計算資源負載&#xff0c;…

微算法科技(NASDAQ: MLGO)結合子陣列算法,創建基于區塊鏈的動態信任管理模型

隨著分布式系統在物聯網、供應鏈金融、去中心化存儲等領域的廣泛應用&#xff0c;節點間信任評估的高效性與安全性成為核心挑戰。傳統中心化信任機制存在單點故障、數據篡改風險及擴展性不足等問題&#xff0c;難以適應大規模動態網絡需求。區塊鏈技術憑借其去中心化、不可篡改…

【展廳多媒體】從技術到體驗,AR在展廳中的一體化整合

AR增強現實正在重塑現代展廳的體驗范式&#xff0c;為觀眾創造虛實交融的沉浸式環境。這項技術通過計算機視覺與圖形學算法&#xff0c;將數字信息精準疊加于真實空間&#xff0c;從而實現超越物理限制的敘事可能。 在展廳環境中&#xff0c;AR增強現實技術的有效實施&#xf…

人工智能機器學習——模型評價及優化

一、欠擬合與過擬合二、數據分離與混淆矩陣混淆矩陣(Confusion Matrix)混淆矩陣&#xff0c;又稱為誤差矩陣&#xff0c;用于衡量分類算法的準確程度二、模型優化四、實戰準備五、酶活性預測&#xff0c;使用數據集T-R-train.csv&#xff0c;測試集T-R-test.csv #加載數據 impo…

linux系統啟動時腳本命令執行

Linux內核啟動過程中&#xff0c;會掛載文件系統&#xff0c;在文件系統掛載后&#xff0c;運行的第一個程序就是根目錄下的linuxrc&#xff0c;而這是一個指向/bin/busybox 的鏈接&#xff0c;也就是說&#xff0c;系統起來后運行的第一個程序就是busybox本身。再然后&#xf…

連接池項目考點

好的&#xff01;讓我詳細講解一下您項目中的連接池是如何工作的。我會基于您現有的代碼來分析整個工作流程。 Read file: net/ngx_c_socket_conn.cxx Read file: net/ngx_c_socket_conn.cxx Read file: net/ngx_c_socket_conn.cxx Read file: net/ngx_c_socket_conn.cxx Read …

【MySQL】從零開始了解數據庫開發 --- 數據類型

我不假思索地上路&#xff0c; 因為出發的感覺太好了&#xff0c; 世界突然充滿了可能性。 --- 杰克凱魯亞克 --- 從零開始了解數據庫開發MySQL中的數據類型數字類型字符串類型日期類型MySQL中的數據類型 MySQL數據庫匯中&#xff0c;每一條數據都有其類型&#xff0c;主要分為…

mybatis vs mybatis-plus

??核心關系&#xff1a;?? MyBatis-Plus ??不是?? MyBatis 的替代品&#xff0c;而是構建在 MyBatis ??之上??的一個強大的??增強工具包??。它完全兼容原生 MyBatis&#xff0c;并在其基礎上提供了大量開箱即用的功能&#xff0c;極大地簡化了開發&#xff0c;…

2025膠水分裝機服務商技術解析:聚焦高精度、智能化應用

膠水作為電子組裝、新能源電池、醫療器械、消費類電子產品等關鍵環節中的核心材料&#xff0c;其生產、儲存與分裝過程對精度、潔凈度和一致性的要求日益嚴苛。在這一背景下&#xff0c;膠水分裝機及分裝服務商正從傳統的設備供應商向“工藝裝備數據服務”的綜合解決方案提供者…

v-model是怎么實現的,語法糖到底是什么

1&#xff1a;作用在表單元素上實際上就是2&#xff1a;作用在自定義組件上&#xff0c;vue2和vue3不同 vue2&#xff1a; v-model相當于名為value 的 prop和名為 input 的事件 在父組件中 <child v-model"message"></child> //相當于&#xff1a; <…

學習筆記:Javascript(5)——事件監聽(用戶交互)

事件監聽&#xff1a;用戶交互的核心機制在前端開發中&#xff0c;事件監聽是處理用戶交互的基礎機制。它允許我們檢測用戶的操作&#xff08;如點擊、輸入、滾動等&#xff09;并執行相應的代碼&#xff0c;讓網頁從靜態變為動態。一、事件與事件監聽的基本概念事件&#xff0…

在Linux系統中清理大文件的方法

在Linux系統的日常運維管理過程中&#xff0c;磁盤空間問題是一個非常常見且棘手的難題。隨著系統運行時間的增加&#xff0c;日志文件、臨時文件、緩存文件以及用戶產生的數據會不斷增長。如果缺乏及時的監控和清理&#xff0c;大文件往往會迅速占滿磁盤&#xff0c;導致系統性…

使用x64dbg分析調試windows可執行程序

引言 當我們僅有一個C/C等編譯的可執行程序&#xff08;windows 上的 exe 文件&#xff09;&#xff0c;而沒有源碼時我們應該怎么分析調試該可執行程序呢&#xff1f;我們可以通過動態分析或靜態分析的方式達成我們的目的&#xff0c;當然比較有效的方案當然是靜態分析結合動態…

在Windows 11上配置Cursor IDE進行Java開發

前言 Cursor IDE是一款基于VSCode的AI編程助手&#xff0c;集成了強大的AI功能&#xff0c;能夠顯著提升Java開發效率。本文詳細介紹如何在Windows 11系統上安裝和配置Cursor IDE&#xff0c;使其成為高效的Java開發環境。 1. Windows 11上安裝Cursor IDE 1.1 下載和安裝步驟…