[特殊字符] Python 實戰 | 批量統計中文文檔詞頻并導出 Excel

本文展示如何用 Python 腳本:

  • 批量讀取文件夾中的多篇中文文檔;

  • jieba 分詞并統計詞頻(過濾停用詞與單字符);

  • 將各文檔詞頻輸出為對應 Excel 文件;

  • 是文本分析、內容審查、報告編寫中的實用技巧。


📂 Step 1:批量加載文件夾中文本文件路徑

import ospath = '主要業務'
files = [os.path.join(path, f) for f in os.listdir(path)]
  • 使用標準庫 os.listdir() 枚舉目錄中的文件;

  • 生成包含所有待處理文件路徑的列表,便于后續遍歷讀取。


🔤 Step 2:分詞 + 詞頻統計 + 停用詞過濾

import jiebafor file in files:txt = open(file, "r", encoding="utf-8").read()words = jieba.lcut(txt)freq = {}for w in words:if len(w) == 1:continuefreq[w] = freq.get(w, 0) + 1stopWords = ["2019", "主要", "企業", "業務", "公司", "產品", "..."]for w in stopWords:freq.pop(w, None)items = sorted(freq.items(), key=lambda x: x[1], reverse=True)
  • 使用 jieba.lcut() 精準分詞,是中文文本處理常用方案 pankti0919.medium.com+2thedataschool.co.uk+2stackoverflow.com+2gist.github.com+5breezegeography.wordpress.com+5m.php.cn+5;

  • 自定義長度過濾與停用詞列表,保障高頻詞的質量。


📈 Step 3:導出詞頻結果至 Excel

import pandas as pddf = pd.DataFrame(items, columns=['詞', '次數'])
basename = os.path.splitext(os.path.basename(file))[0]
df.to_excel(f"詞頻/{basename}.xlsx", index=False)
  • pandas.DataFrame 存儲詞頻詞典并導出;

  • stopWords 列表作用類似英文文本中的停用詞過濾,使結果更有價值 stackoverflow.com。


🖼? 結果展示區

? 技術亮點與優化建議

  • jieba 分詞:適合中文分詞處理 pankti0919.medium.com+1thedataschool.co.uk+1;

  • 詞頻排序:按次數降序排列,可配合 Counter 簡化統計 m.php.cn+3stackoverflow.com+3gist.github.com+3;

  • 停用詞機制:過濾不具有語義價值的常見詞,結果更精煉;

  • 可擴展性

    • 可增加 jieba.analyse.extract_tags() 提取關鍵詞與 tf-idf pankti0919.medium.com+2m.php.cn+2breezegeography.wordpress.com+2;

    • 加入 HTML 或 GUI 操作;

    • 將結果寫入數據庫或繪制詞云圖;


📝 總結

通過這個小腳本,你可以高效:

  • 批處理多個文本文件;

  • 自動清洗文本,統計高頻詞;

  • 導出 Excel 結果,用于報告、分析或展示。

?更多實用案例,代碼,素材如下:

自取鏈接:https://pan.quark.cn/s/a46f30accea2

如果你希望下一步集成詞云生成、分組對比分析,或英文與多語種混排文本處理,也可以繼續告訴我,我可以為你定制更豐富的教程!

?

?

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/88193.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/88193.shtml
英文地址,請注明出處:http://en.pswp.cn/web/88193.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

共享打印機(詳細操作+常見問題:需輸入用戶名密碼、無法連接等)

文章目錄一、設置打印機共享的準備工作二、Windows系統下打印機共享設置1. 啟用主機打印機共享2. 客戶端添加共享打印機三、我所遇到的問題及解決方法客戶機遇到輸入用戶名、密碼錯誤代碼 0x0000011b一、錯誤代碼 0x0000011b 的含義二、解決方法添加打印機沒成功其他問題此次打…

在 Windows 系統上配置 [go-zero](https://go-zero.dev) 開發環境教程

💻 在 Windows 系統上配置 go-zero 開發環境教程 本教程將詳細介紹如何在 Windows 系統上配置 go-zero 微服務框架的開發環境,包括依賴安裝、路徑配置、常見問題等。 🧱 一、前置環境安裝 1. 安裝 Go 下載地址:https://go.dev/…

開源=白嫖?

國內有一個非常濃重的思想,開源,開源就是免費,就是白嫖,就是不花錢,白給。那么什么是開源?“源代碼”是軟件中大多數計算機用戶從未見過的部分;它是計算機程序員可以操縱的代碼,以改變一個軟件(…

2048-控制臺版本

2048控制臺版 文章目錄2048控制臺版實現效果:在這里插入圖片描述庫函數使用:初始化變量功能函數實現:狀態判斷函數int Judge();數字生成函數 bool CtreateNumber()打印游戲界面 void…

提取出Wallpaper Engine壁紙的mpkg類靜態壁紙

github 地址 https://github.com/notscuffed/repkg先下載軟件2853…26目錄這樣獲取有的直接mp4格式,就不能用這方法準備好后 cmd 進入repkg目錄 執行 repkg extract ./294...333/scene.pkg

AI健康小屋“15分鐘服務圈”:如何重構社區健康生態?

AI健康小屋作為“15分鐘服務圈”的核心載體,通過技術賦能與場景重構,正推動社區健康生態從被動治療向主動預防、從單一服務向全周期管理轉型。那我們應該如何重構社區健康生態呢?服務模式創新1.全時段覆蓋AI健康小屋通過分時段服務滿足不同群…

[netty5: WebSocketFrame]-源碼分析

WebSocketFrame WebSocketFrame 是 Netty 中用于表示 WebSocket 消息幀的抽象基類,封裝了幀的內容、分片標志和擴展位信息,供各類具體幀(如文本、二進制、控制幀)繼承使用。 public abstract class WebSocketFrame extends Buffer…

【加解密與C】非對稱加解密(三)ECC橢圓曲線

ECC橢圓曲線的基本概念橢圓曲線密碼學(Elliptic Curve Cryptography,ECC)是一種基于橢圓曲線數學的公鑰密碼體制。與傳統的RSA相比,ECC在相同安全級別下使用更短的密鑰,計算效率更高,適用于資源受限的環境。…

力扣網編程150題:加油站(貪心解法)

一. 簡介 前面一篇文章使用暴力解法來解決力扣網150 題目:加油站。文章如下: 力扣網編程150題:加油站(暴力解法)-CSDN博客 暴力解法就是遍歷了所有元素作為起始點的可能,算法時間復雜度為 O(n*n)&#x…

windwos 設置redis長久密碼不生效

1、設置長久密碼redis.windows.conf 文件修改對應的設置密碼2、啟動時設置對應的加載配置文件

物聯網(IoT)領域存在多種協議

物聯網(IoT)領域存在多種協議,主要是因為不同的應用場景對通信的需求差異很大,包括實時性、帶寬、功耗、設備兼容性、安全性等。以下從協議多樣性的原因和你提到的具體協議(如 dc3-driver-* 模塊)展開說明&…

二、encoders

文章目錄一、batch_encoder (用于 BFV)1. 概述2. 數學原理3. 使用方法4. 代碼示例二、ckks_encoder (用于 CKKS)在 1. bfv_basics.cpp 中,我們展示了如何使用BFV方案執行非常簡單的計算。計算是在 plain_modulus 參數的模下執行的,并且 只使用了 BFV 明文…

數據一致性解決方案總結

數據一致性解決方案總結 我們在系統中,主要進行了數據冗余,那么就會帶來數據一致性的問題。常見的數據一致性問題有:數據庫主從同步延遲導致的讀數據不一致;數據庫主主之間數據的不一致;緩存和數據庫之間的數據不一致。…

17.Spring Boot的Bean詳解(新手版)

文章目錄1. 什么是Bean?從零開始理解1.1 Bean的定義1.2 為什么需要Bean?1.3 Bean vs 普通對象的區別2. Spring容器:Bean的家2.1 什么是Spring容器?2.2 容器的工作流程3. Bean的聲明方式詳解3.1 使用Component及其專門化注解3.1.1 …

cherryStudio electron因為環境問題無法安裝解決方法或打包失敗解決方法

$env:ELECTRON_MIRROR"https://npmmirror.com/mirrors/electron/"; $env:ELECTRON_CUSTOM_DIR"{{ version }}"; yarn install1. 上面是關于electron安裝失敗的解決方法. 也可以通過到git上下面包,解壓后,放到對應的目錄下面,并把里面的build文件夾刪除, b…

微服務架構中數據一致性保證機制深度解析

在微服務架構中,數據一致性是分布式系統設計的核心挑戰。由于服務拆分后數據自治(每個服務獨立數據庫),跨服務操作的一致性保障需突破傳統單體事務的局限。本文從一致性模型、核心解決方案、技術實現及面試高頻問題四個維度&#…

【Gin】HTTP 請求調試器

文章目錄 項目概述代碼功能詳解1. 導入必要的包2. 主函數和路由設置3. 請求信息捕獲4. 請求參數和頭信息5. 請求體處理5.1 JSON 數據處理5.2 表單數據處理5.3 Multipart 表單數據處理5.4 其他類型數據處理6. 構造響應對象7. 返回 JSON 響應功能特點使用場景完整代碼項目概述 這…

物聯網(IoT)領域的協議

物聯網(IoT)領域的通信協議種類繁多,不同協議適用于不同的應用場景(如低功耗設備、工業自動化、家庭智能設備等)。以下是主要物聯網協議的分類及詳細解釋:一、物聯網協議分類物聯網協議通常分為兩大類&…

專題一_雙指針_四數之和

一:題目解析 題目鏈接:18. 四數之和 - 力扣(LeetCode) 注:本題是在上題的基礎上講解的:專題一_雙指針_三數之和-CSDN博客 解析:和三數之區別在于找四元組和為targe的數字 而不是0 二&#xff1a…

Spring Boot多數據源配置詳解

Spring Boot多數據源配置詳解 在實際企業開發中,隨著業務復雜度提升,單一數據源已無法滿足所有場景需求。比如:讀寫分離、分庫分表、數據遷移、微服務整合等,這時就需要用到多數據源配置。本文將從原理、配置、常見問題和最佳實踐…