使用`sklearn`中的邏輯回歸模型進行股票的情感分析,以及按日期統計積極和消極評論數量的功能

以下是完成上述任務的Python代碼,可在Jupyter Notebook中運行。此代碼包含了使用sklearn中的邏輯回歸模型進行情感分析,以及按日期統計積極和消極評論數量的功能。

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 假設數據已經完成預處理,且包含 'comment'(評論內容)、'sentiment'(情感標簽,0或1)和 'date'(評論日期)列
# 加載數據
data = pd.read_csv('preprocessed_comments.csv')# 劃分訓練集和測試集
X = data['comment']
y = data['sentiment']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 使用TF-IDF進行文本向量化
vectorizer = TfidfVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)# 訓練邏輯回歸模型
model = LogisticRegression()
model.fit(X_train_vec, y_train)# 在測試集上進行預測
y_pred = model.predict(X_test_vec)# 計算模型準確率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型準確率: {accuracy}")# 對所有評論進行情感預測
all_comments_vec = vectorizer.transform(data['comment'])
data['predicted_sentiment'] = model.predict(all_comments_vec)# 按日期歸類,統計每天積極和消極評論的數量
daily_stats = data.groupby('date')['predicted_sentiment'].value_counts().unstack(fill_value=0)
daily_stats.columns = ['negative_count', 'positive_count']
print(daily_stats)# 保存結果,可用于后續的LSTM預測分析
data.to_csv('sentiment_analysis_results.csv', index=False)    

代碼說明:

  1. 數據加載:從CSV文件中加載已經完成預處理的評論數據。
  2. 數據劃分:將數據劃分為訓練集和測試集,比例為8:2。
  3. 文本向量化:使用TF-IDF將文本轉換為數值特征。
  4. 模型訓練:使用邏輯回歸模型進行訓練。
  5. 模型評估:在測試集上評估模型的準確率。
  6. 情感預測:對所有評論進行情感預測,并將預測結果添加到原始數據中。
  7. 統計分析:按日期對評論進行歸類,統計每天積極和消極評論的數量。
  8. 結果保存:將情感分析結果保存為CSV文件,以便后續進行LSTM預測分析。

你需要把代碼中的preprocessed_comments.csv替換成實際的預處理后的數據文件路徑。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/74787.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/74787.shtml
英文地址,請注明出處:http://en.pswp.cn/web/74787.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

oracle批量刪除分區

為了清理數據,往往需要刪除一些分區 簡單查看當前分區 附件 --創建測試表 -- drop table test_part purge;CREATE TABLE test_part (sales_id NUMBER,sale_date DATE,amount NUMBER ) PARTITION BY RANGE (sale_date) INTERVAL (INTERVAL 1 MONTH) -- 每個月創建…

java流程控制08:For循環

For循環 雖然所有循環結構都可以用while或者do…while表示,但Java提供了另一種語句-----for循環,使一些循環結構變得更加簡單。 for循環語句是支持迭代的一種通用結構,是最有效、最靈活的循環結構。 for循環執行的次數是在執行前就確定的。…

嵌入式軟件開發調試方法

文章目錄 1. 利于函數返回值,retrurn 定位錯誤位置2. 合理使用邏輯分析儀(正點原子 厲害!!) 1. 利于函數返回值,retrurn 定位錯誤位置 如下圖所示,設置不同的返回值,0是ok的,其他值均為失敗&…

P1025 [NOIP 2001 提高組] 數的劃分(DFS)

題目描述 將整數 n 分成 k 份,且每份不能為空,任意兩個方案不相同(不考慮順序)。 例如:n7,k3,下面三種分法被認為是相同的。 1,1,5; 1,5,1; 5,1,1. 問有多少種不同的分法。 輸入格式 n,k …

設計模式簡述(三)工廠模式

工廠模式 描述簡單工廠(靜態工廠)工廠方法模式 抽象工廠增加工廠管理類使用 描述 工廠模式用以封裝復雜的實例初始化過程,供外部統一調用 簡單工廠(靜態工廠) 如果對象創建邏輯簡單且一致,可以使用簡單工…

批量將 JSON 轉換為 Excel/思維導入等其它格式

json 格式相信對大家來說都不陌生,這是一種輕量級的結構化數據,可以對對象進行描述。json 格式也是一種普通的文本文件格式,用記事本就能夠打開編輯 json 格式的文件,可以很方便的轉換為其他格式。今天要給大家介紹的就是如何將 j…

電腦有時出現檢測不到音箱設備怎么辦?

問題 有時候電腦開機之后就檢測不到音箱,經過我一頓檢查發現是檢測不到聲卡,即使拔插了音箱也沒用,但是當我重啟或者休眠之后再重啟發現就檢測到了 解決方案 方案一 重啟或者休眠之后再開啟 方案二 使用powershell指令將聲卡彈出和載入…

Qwen-Agent框架的文件相關操作:從Assistant到BasicDocQA

在前面的幾篇文章如《針對Qwen-Agent框架的Function Call及ReAct的源碼閱讀與解析:Agent基類篇》 、《基于Qwen-Agent框架的Function Call及ReAct方式調用自定義工具》、 《針對Qwen-Agent框架的源碼閱讀與解析:FnCallAgent與ReActChat篇》中&#xff0c…

RSSI定位程序,N個錨點、三維空間,使用CKF對軌跡進行濾波,附MATLAB代碼的下載鏈接

本文所述的程序實現三維空間中基于RSSI信號的多錨點定位,并采用容積卡爾曼濾波(CKF)對動態軌跡進行降噪優化。代碼包含完整的定位仿真流程,涵蓋環境建模、信號強度模擬、定位解算、軌跡濾波及可視化分析模塊 文章目錄 程序介紹概述…

開源軟件與自由軟件:一場理念與實踐的交鋒

在科技的世界里,“開源軟件”和“自由軟件”這兩個詞幾乎無人不知。很多人或許都聽說過,它們的代碼是公開的,可以供所有人查看、修改和使用。然而,若要細究它們之間的區別,恐怕不少朋友會覺得云里霧里。今天&#xff0…

C++ - 頭文件基礎(常用標準庫頭文件、自定義頭文件、頭文件引入方式、防止頭文件重復包含機制)

一、頭文件 在 C 中&#xff0c;頭文件&#xff08;.h&#xff09;用于函數聲明、類定義、宏定義等等 在 Visual Studio 中&#xff0c;頭文件通常放在頭文件目錄中&#xff0c;頭文件實現通常放在源文件目錄中 二、常用標準庫頭文件 1、輸入輸出 <iostream> 標準輸入…

CSS 背景屬性學習筆記

一、CSS 背景屬性概述 CSS 背景屬性用于定義 HTML 元素的背景效果&#xff0c;主要包括以下幾種屬性&#xff1a; background-color&#xff1a;定義元素的背景顏色。 background-image&#xff1a;定義元素的背景圖像。 background-repeat&#xff1a;定義背景圖像如何重復…

Qt實現鼠標拖動窗口

Qt實現鼠標拖動窗口 1、設置窗口無邊框2、重寫鼠標點擊&#xff0c;移動函數2.1添加頭文件2.2 重寫函數2.3 添加定義 3、定義一個偏移值4、判斷鼠標左鍵是否按下并計算偏移值5、移動窗口6、.h文件和.cpp文件6.1 .h文件6.2 .cpp文件 7、總結 1、設置窗口無邊框 this->setWin…

MDX語言的數論算法

MDX語言的數論算法探討 引言 數論作為數學的一個重要分支&#xff0c;主要研究整數及其性質。在計算機科學和信息技術領域&#xff0c;數論算法被廣泛應用于密碼學、算法設計、數據加密等領域。MDX&#xff08;Multi-Dimensional Expressions&#xff09;語言&#xff0c;雖然…

【學Rust寫CAD】34 精確 Alpha 混合函數(argb.rs補充方法)

源碼 #[inline]pub fn over_exact(self, dst: Argb) -> Argb {let a 255 - self.alpha32();let t dst.rb() * a 0x80_00_80;let mut rb (t ((t >> 8) & Argb::MASK)) >> 8;rb & Argb::MASK;rb self.rb();// saturaterb | 0x1000100 - ((rb >&…

2025-04-06 NO.2 Quest3 基礎配置與打包

文章目錄 1 場景配置1.1 開啟手勢支持1.2 創建 OVRCameraRig1.3 創建可交互 Cube 2 打包配置 環境&#xff1a; Windows 11Unity6000.0.42f1 Quest3 開發環境配置見 2025-03-17 NO.1 Quest3 開發環境配置教程_quest3 unity 開發流程-CSDN博客。 1 場景配置 1.1 開啟手勢支持 …

LabVIEW提升程序響應速度

LabVIEW 程序在不同計算機上的響應速度可能存在較大差異&#xff0c;這通常由兩方面因素決定&#xff1a;計算機硬件性能和程序本身的優化程度。本文將分別從硬件配置對程序運行的影響以及代碼優化方法進行詳細分析&#xff0c;幫助提升 LabVIEW 程序的執行效率。 一、計算機硬…

Matlab:三維繪圖

目錄 1.三維曲線繪圖命令&#xff1a;plot3 實例——繪制空間直線 實例——繪制三角曲線 2.三維曲線繪圖命令&#xff1a;explot3 3.三維網格命令&#xff1a;mesh 實例——繪制網格面 實例——繪制山峰曲面 實例——繪制函數曲線 1.三維曲線繪圖命令&#xff1a;plot3 …

微信小程序基于Canvas實現頭像圖片裁剪(上)

序言 嘿&#xff0c;打工人混跡職場這么久&#xff0c;圖片處理肯定都沒少碰。不過咱說實話&#xff0c;大部分時候都是直接 “抄近道”&#xff0c;用現成的三方組件&#x1f60f;。就像我&#xff0c;主打一個會用工具&#xff0c;畢竟善用工具可是咱人類的 “超能力”&…

[特殊字符] 使用 Handsontable 構建一個支持 Excel 公式計算的動態表格

在 Web 應用中&#xff0c;處理表格數據并提供 Excel 級的功能&#xff08;如公式計算、數據導入導出&#xff09;一直是個挑戰。今天&#xff0c;我將帶你使用 React Handsontable 搭建一個強大的 Excel 風格表格&#xff0c;支持 公式計算、Excel 文件導入導出&#xff0c;并…