【上市公司文本分析】根據句號和分號進行文本分割,提取含有特定關鍵詞的語句并導出為EXCEL

本文介紹了一種基于Python的中文文本分析方法,用于從年報文件中提取含有關鍵詞的語句。方法使用jieba分詞庫進行中文分詞,通過自定義詞典提高分詞準確性。程序首先讀取并預處理文本(統一標點符號、去除換行符),然后按句分割文本并進行分詞處理,篩選出包含關鍵詞的語句,最后將結果(股票代碼、年份、關鍵詞、語句長度及內容)保存至Excel。該方法適用于批量處理上市公司文本數據,為后續分析提供結構化數據支持。

import os
import pandas as pd
import jieba
import jieba.analyseitem=0 #保存到excel上的行號
fileList=os.listdir('finaltxt')#已提取完畢的txt年報文件目錄
fileList.sort()#對年報按文件名進行排序
df=pd.DataFrame(columns=['code','year','sign','keyword','length','sentences'],index=range(1,50000))#預先設置列名,包括股票代碼、年報年份、標記、提取出該句子所依據的關鍵詞、文本字符長度、句子,創建50000行的空表,行數可自行估計設定
Dict=['','','']#自行錄入關鍵詞詞典,注意是英文符號for i in Dict:jieba.add_word(i)# 向jieba內加入這些詞語,防止被拆分   
for index,i in enumerate(fileList):  name=i[:-4].split('_')#根據txt文件名稱進行切分,例如文件名為873833_2023-12-31.txt,name[0]為873833,name[1]為2023-12-31with open('finaltxt\\'+i,'r',encoding='utf-8') as f: text=f.read()text=text.replace('\n','')#刪除換行符text=text.replace(';','。')#將分號統一換成句號textList=text.split('。') #按句號分割#遍歷每一句話,進行分詞和語句提取for i in textList:words=jieba.lcut(i)for word in words:if word in Dict:#如果識別到有分詞結果在關鍵詞詞典里,就錄入信息#向df里錄入信息df['code'][item]=name[0]df['year'][item]=name[1][:4]df['keyword'][item]=worddf['length'][item]=len(i)df['sentences'][item]=iitem+=1breakelse:continuef.close()       print(str(index)+'完成')
df.to_excel('result.xlsx')

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909869.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909869.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909869.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

小白暢通Linux之旅-----DHCP服務項目實戰

目錄 一、項目拓撲 二、項目要求 三、項目準備 DHCP服務器 1、下載dhcp服務 2、準備 1.txt 文件 (為內部客戶機設置為固定獲得ip) 3、準備2.txt文件 (為內部網絡分配ip) 4、準備 3.txt 文件(為外部網絡配置ip&…

eps轉pdf-2025年6月18日星期三

1.打開cmd。 使用 cd 命令切換到包含 EPS 文件的目錄。例如,如果 EPS 文件在 E:\eps_files 目錄下,輸入以下命令: cd E:\eps_files 2. 轉換單個 EPS 文件: 輸入以下命令將單個 EPS 文件轉換為 PDF 文件 epstopdf input.eps …

處理器特性有哪些?

處理器特性有哪些? 處理器的特性可以從多個維度進行劃分,包括架構設計、性能指標、功能支持等。以下是處理器的主要特性分類及詳細說明: 1. 架構特性 指令集架構(ISA) CISC(復雜指令集,如x86&…

Vue3+TypeScript 導入枚舉(Enum)最佳實踐

在 Vue 3 TypeScript 項目中,導入枚舉時通常不需要使用 import type,但具體取決于使用場景。以下是詳細說明: 1. 枚舉的特殊性 枚舉在 TypeScript 中既是類型(Type)也是值(Value)&#xff1a…

主成分分析(PCA)例題——給定協方差矩陣

向量 x x x的相關矩陣為 R x [ 0.3 0.1 0.1 0.1 0.3 ? 0.1 0.1 ? 0.1 0.3 ] {\bm R}_x \begin{bmatrix} 0.3 & 0.1 & 0.1 \\ 0.1 & 0.3 & -0.1 \\ 0.1 & -0.1 & 0.3 \end{bmatrix} Rx? ?0.30.10.1?0.10.3?0.1?0.1?0.10.3? ? 計算輸入向量…

RTSP播放器低延遲實踐:一次對毫秒級響應的技術探索

? 為什么說“大牛直播SDK的RTSP播放器延遲表現行業領先”: 1. 毫秒級延遲(100ms~250ms) windows平臺rtsp播放器延遲測試 在業內常見的 RTSP 播放器中,傳統開源方案(如 VLC、FFmpeg 播放器封裝)延遲普遍在…

【postgresql中timestamp為6是什么意思?】

postgresql中timestamp為6是什么意思? postgresql中timestamp為6是什么意思?示例注意事項 postgresql中timestamp為6是什么意思? 在 PostgreSQL 中,TIMESTAMP 類型用于存儲日期和時間信息。當你提到 TIMESTAMP(6),這里…

EC2實例(Amazon Linux 2023)監控磁盤讀寫速度和I/O負載

在viewer端進行日志分析的時候,由于日志比較大,每個4.5G,一共9個viewer端,對應9個日志文件,而且判斷音頻幀和視頻幀是否卡頓時,需要的樣本也很多,各15000行,分析完成需要5分20秒左右…

SpringBoot電腦商城項目--收獲地址列表

1. 收獲地址列表展示-持久層 1.1 sql語句 1.2 AddressMapper接口編寫抽象方法 /*** 根據用戶id查詢用戶的收貨地址數據* param uid* return*/List<Address> findByUid(Integer uid); 1.3 在xml文件中進行sql映射 <!-- DESC降序 --><select id"fin…

學校住宿繳費系統h5-——東方仙盟——仙盟創夢IDE

代碼: <div class"form-group"><h4 style"color: #006400; margin-bottom: 15px;">費用明細 <input name"room_unit_price" id"room_unit_price" type"number" value"" style"width:65px;…

docker 目錄更改,必須做數據遷移才能啟動

要修改 Docker 鏡像的存儲位置 并遷移數據&#xff08;如從 /var/lib/docker 遷移到 /mnt/data/docker&#xff09;&#xff0c;需要以下步驟&#xff1a; 1. 停止 Docker 服務 在修改配置和遷移數據前&#xff0c;先停止 Docker 服務&#xff1a; sudo systemctl stop docke…

根據圖片理解maven

maven 是一款強大的項目管理與構建工具&#xff0c;在 Java 開發中尤為常用&#xff0c;結合這張圖&#xff0c;從核心功能、倉庫體系、工作流程三方面快速了解&#xff1a; 一、核心作用 項目構建&#xff1a;自動完成編譯、測試、打包、部署等流程&#xff08;比如把 .java…

阿里云中間件:解鎖云端應用的強大引擎

走進阿里云中間件 在云計算的宏大版圖中&#xff0c;阿里云無疑是一位舉足輕重的參與者。而阿里云中間件&#xff0c;作為阿里云服務體系的關鍵構成部分&#xff0c;在整個云計算架構里扮演著不可或缺的角色&#xff0c;宛如一座橋梁&#xff0c;緊密地連接著底層基礎設施與上…

windows下FFmpeg精簡

1. 安裝MSYS2和必要工具 下載并安裝MSYS2打開 MSYS2中的 MinGW 64-bit 終端更新系統包&#xff1a; pacman -Syu # 如果提示關閉終端&#xff0c;關閉后重新打開再次運行&#xff1a; pacman -Su裝編譯工具鏈&#xff1a; pacman -S --needed base-devel mingw-w64-x86_64-t…

WPF數據綁定疑惑解答--(關于控件的Itemsource,Collection綁定)

1. ListView綁定的數據類型問題 在 MainWindow 的構造函數中綁定 List11.ItemsSource List<string> rpcListnew List<string>(); public MainWindow() {InitializeComponent();// 確保 List11 的 ItemsSource 已經綁定到 rpcListList11.ItemsSource rpcList; } …

【Centos7安裝Cloudera Manager5.12、CDH5.12詳細步驟】

安裝Cloudera Manager&#xff08;5.12.1&#xff09;一定要細心&#xff0c;每一步走錯都可能造成最終安裝失敗。 安裝Cloudera Manager&#xff08;5.12.1&#xff09;一定要硬件資源充足。 本示例參考了眾多網上資料&#xff08;放在文末&#xff09;&#xff0c;消耗了1000…

青少年編程與數學 01-011 系統軟件簡介 25 Web服務器及代理軟件

青少年編程與數學 01-011 系統軟件簡介 25 Web服務器及代理軟件 一、Web 服務器軟件&#xff08;一&#xff09;定義與功能&#xff08;二&#xff09;歷史與主要產品1. Apache HTTP Server2. Nginx3. Microsoft Internet Information Services&#xff08;IIS&#xff09;4. L…

Vue的隱形魔法:虛擬DOM和Diff算法如何讓頁面飛起來?

大家好&#xff0c;我是江城開朗的豌豆&#xff0c;一名擁有6年以上前端開發經驗的工程師。我精通HTML、CSS、JavaScript等基礎前端技術&#xff0c;并深入掌握Vue、React、Uniapp、Flutter等主流框架&#xff0c;能夠高效解決各類前端開發問題。在我的技術棧中&#xff0c;除了…

SAP_HANA常用sql合集——持續更新中

一、時間格式轉換 (1)切換日期格式yyyymmdd的字段數據為yyyy-mm-dd select TO_VARCHAR(TO_DATE(t1.time1, YYYYMMDD), YYYY-MM-DD) AS time1, TO_VARCHAR(TO_DATE(t1.time2, YYYYMMDD), YYYY-MM-DD) AS time2 from table

【AI Study】第四天,Pandas(5)- 數據可視化

文章概要 本文詳細介紹 Pandas 的數據可視化功能&#xff0c;包括&#xff1a; 基礎繪圖高級可視化統計圖表實際應用示例 基礎繪圖 折線圖 # 基本折線圖 df.plot(x日期, y值) df.plot.line(x日期, y值)# 多列折線圖 df.plot(x日期, y[列1, 列2])# 自定義樣式 df.plot(x日期…