本文展示如何用 Python 腳本:
-
批量讀取文件夾中的多篇中文文檔;
-
用
jieba
分詞并統計詞頻(過濾停用詞與單字符); -
將各文檔詞頻輸出為對應 Excel 文件;
-
是文本分析、內容審查、報告編寫中的實用技巧。
📂 Step 1:批量加載文件夾中文本文件路徑
import ospath = '主要業務'
files = [os.path.join(path, f) for f in os.listdir(path)]
-
使用標準庫
os.listdir()
枚舉目錄中的文件; -
生成包含所有待處理文件路徑的列表,便于后續遍歷讀取。
🔤 Step 2:分詞 + 詞頻統計 + 停用詞過濾
import jiebafor file in files:txt = open(file, "r", encoding="utf-8").read()words = jieba.lcut(txt)freq = {}for w in words:if len(w) == 1:continuefreq[w] = freq.get(w, 0) + 1stopWords = ["2019", "主要", "企業", "業務", "公司", "產品", "..."]for w in stopWords:freq.pop(w, None)items = sorted(freq.items(), key=lambda x: x[1], reverse=True)
-
使用
jieba.lcut()
精準分詞,是中文文本處理常用方案 pankti0919.medium.com+2thedataschool.co.uk+2stackoverflow.com+2gist.github.com+5breezegeography.wordpress.com+5m.php.cn+5; -
自定義長度過濾與停用詞列表,保障高頻詞的質量。
📈 Step 3:導出詞頻結果至 Excel
import pandas as pddf = pd.DataFrame(items, columns=['詞', '次數'])
basename = os.path.splitext(os.path.basename(file))[0]
df.to_excel(f"詞頻/{basename}.xlsx", index=False)
-
用
pandas.DataFrame
存儲詞頻詞典并導出; -
stopWords
列表作用類似英文文本中的停用詞過濾,使結果更有價值 stackoverflow.com。
🖼? 結果展示區
? 技術亮點與優化建議
-
jieba 分詞:適合中文分詞處理 pankti0919.medium.com+1thedataschool.co.uk+1;
-
詞頻排序:按次數降序排列,可配合
Counter
簡化統計 m.php.cn+3stackoverflow.com+3gist.github.com+3; -
停用詞機制:過濾不具有語義價值的常見詞,結果更精煉;
-
可擴展性:
-
可增加
jieba.analyse.extract_tags()
提取關鍵詞與 tf-idf pankti0919.medium.com+2m.php.cn+2breezegeography.wordpress.com+2; -
加入 HTML 或 GUI 操作;
-
將結果寫入數據庫或繪制詞云圖;
-
📝 總結
通過這個小腳本,你可以高效:
-
批處理多個文本文件;
-
自動清洗文本,統計高頻詞;
-
導出 Excel 結果,用于報告、分析或展示。
?更多實用案例,代碼,素材如下:
自取鏈接:https://pan.quark.cn/s/a46f30accea2
如果你希望下一步集成詞云生成、分組對比分析,或英文與多語種混排文本處理,也可以繼續告訴我,我可以為你定制更豐富的教程!
?
?
?
?