[特殊字符] Python 實戰 | 批量統計中文文檔詞頻并導出 Excel

本文展示如何用 Python 腳本：

批量讀取文件夾中的多篇中文文檔；
用 jieba 分詞并統計詞頻（過濾停用詞與單字符）；
將各文檔詞頻輸出為對應 Excel 文件；
是文本分析、內容審查、報告編寫中的實用技巧。

📂 Step 1：批量加載文件夾中文本文件路徑

import ospath = '主要業務'
files = [os.path.join(path, f) for f in os.listdir(path)]

使用標準庫 os.listdir() 枚舉目錄中的文件；
生成包含所有待處理文件路徑的列表，便于后續遍歷讀取。

🔤 Step 2：分詞 + 詞頻統計 + 停用詞過濾

import jiebafor file in files:txt = open(file, "r", encoding="utf-8").read()words = jieba.lcut(txt)freq = {}for w in words:if len(w) == 1:continuefreq[w] = freq.get(w, 0) + 1stopWords = ["2019", "主要", "企業", "業務", "公司", "產品", "..."]for w in stopWords:freq.pop(w, None)items = sorted(freq.items(), key=lambda x: x[1], reverse=True)

使用 jieba.lcut() 精準分詞，是中文文本處理常用方案 pankti0919.medium.com+2thedataschool.co.uk+2stackoverflow.com+2gist.github.com+5breezegeography.wordpress.com+5m.php.cn+5；
自定義長度過濾與停用詞列表，保障高頻詞的質量。

📈 Step 3：導出詞頻結果至 Excel

import pandas as pddf = pd.DataFrame(items, columns=['詞', '次數'])
basename = os.path.splitext(os.path.basename(file))[0]
df.to_excel(f"詞頻/{basename}.xlsx", index=False)

用 pandas.DataFrame 存儲詞頻詞典并導出；
stopWords 列表作用類似英文文本中的停用詞過濾，使結果更有價值 stackoverflow.com。

🖼? 結果展示區

? 技術亮點與優化建議

jieba 分詞：適合中文分詞處理 pankti0919.medium.com+1thedataschool.co.uk+1；
詞頻排序：按次數降序排列，可配合 Counter 簡化統計 m.php.cn+3stackoverflow.com+3gist.github.com+3；
停用詞機制：過濾不具有語義價值的常見詞，結果更精煉；
可擴展性：
- 可增加 jieba.analyse.extract_tags() 提取關鍵詞與 tf-idf pankti0919.medium.com+2m.php.cn+2breezegeography.wordpress.com+2；
- 加入 HTML 或 GUI 操作；
- 將結果寫入數據庫或繪制詞云圖；

📝 總結

通過這個小腳本，你可以高效：

批處理多個文本文件；
自動清洗文本，統計高頻詞；
導出 Excel 結果，用于報告、分析或展示。

?更多實用案例，代碼，素材如下：

自取鏈接：https://pan.quark.cn/s/a46f30accea2

如果你希望下一步集成詞云生成、分組對比分析，或英文與多語種混排文本處理，也可以繼續告訴我，我可以為你定制更豐富的教程！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/88193.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/88193.shtml
英文地址，請注明出處：http://en.pswp.cn/web/88193.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！