建筑兔零基礎自學python記錄39|實戰詞云可視化項目——章節分布10(上)

??? 這次我們來制作《紅樓夢》各章節的分布情況:

源代碼:

import pandas as pd
import numpy as np
import matplotlib.pyplot as pltdf_hlm = pd.read_csv("hlm.txt", names=["hlm_texts"]).dropna()df_hlm = df_hlm[~df_hlm.hlm_texts.str.contains(r"第\d卷")].reset_index(drop=True)hui_mask = df_hlm.hlm_texts.str.match(r"第.+?回")
df_hui = pd.DataFrame(df_hlm.hlm_texts[hui_mask].str.split(' ').tolist(),columns=['Huiname', 'Firstname', 'Secondname'])df_hui['HuiNum'] = np.arange(1, len(df_hui) + 1)
df_hui['AllName'] = df_hui['Firstname'] + ',' + df_hui['Secondname']
df_hui['Start'] = hui_mask[hui_mask].index
df_hui['End'] = df_hui['Start'].shift(-1, fill_value=df_hlm.index[-1] + 1) - 1
df_hui['LineNum'] = df_hui['End'] - df_hui['Start']df_hui['Text'] = df_hui.apply(lambda row: ''.join(df_hlm.hlm_texts[row['Start'] + 1:row['End'] + 1]).replace('\u3000', ''), axis=1)
df_hui['ZiShu'] = df_hui['Text'].str.len()plt.rcParams.update({'font.sans-serif': 'SimHei','savefig.format': 'svg','axes.unicode_minus': False
})plt.figure(figsize=(10, 6))
scatter = plt.scatter(df_hui['LineNum'], df_hui['ZiShu'])
for num, row in df_hui.iterrows():plt.text(row['LineNum'] + 1, row['ZiShu'], row['HuiNum'])plt.xlabel("章節段落數", fontsize=12)
plt.ylabel("章節字數", fontsize=12)
plt.title('《紅樓夢》整本書各章節分布情況', fontsize=18)
plt.savefig('plot.svg')
plt.show()

??? 從生成的圖和代碼中我們都能看到各章節的分布情況和詞云無關,這是對于文本解讀的一種方式。繪圖前我們需要對文本進行一些基本處理。處理之前我們先看一下紅樓夢的目錄,這是傳統的章回體。章回體是中國古代長篇小說的一種敘述體式。其特點是將整部作品分成若干章節,稱為 “回” 或 “則”。每回都有相對獨立的情節,但又與前后回目緊密相連,共同構成一個完整的故事。每回的開頭和結尾往往有一些固定的格式,比如開頭常用 “話說”“且說” 等套語,結尾則多以 “欲知后事如何,且聽下回分解” 之類的話語來吸引讀者繼續閱讀。

?根據目標:制作紅樓夢各章節的分布情況。所以在處理時我們需要將每一回分開。

?

?讓我們來逐一解讀代碼:

(1)dropna()去除缺失值(NaN)

DataFrame 上使用時:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

Series 上使用時:

Series.dropna(axis=0, inplace=False) 
  • axis:指定刪除缺失值的方向,取值可以是 0'index'(默認值),表示按刪除;取值為 1'columns' 時,表示按刪除。
  • how:指定刪除行或列的條件,取值可以是 'any'(默認值),表示只要該行或列中有一個缺失值就刪除;取值為 'all' 時,表示只有當該行或列中的所有值都是缺失值時才刪除
  • thresh一個整數,指定保留行或列所需的非缺失值的最小數量。如果某行或列的非缺失值數量小于 thresh,則將其刪除。
  • subset:一個列標簽的列表,用于指定在哪些列中檢查缺失值。只有在這些列中存在缺失值的行或列才會被考慮刪除。
  • inplace:一個布爾值,默認為 False。如果設置為 True,則會直接在原對象上進行修改,不返回新的對象;如果設置為 False,則會返回一個新的對象,原對象保持不變。

補充:

  • Series:一維的帶標簽數組。
  • DataFrame:二維的表格型數據結構,由多個 Series 組成。
df_hlm = pd.read_csv("hlm.txt", names=["hlm_texts"]).dropna()

?讀取紅樓夢文本,命名為hlm_texts,去除空行

補充:這里的去除空行是一個預操作,在簡化文本數據的時候同時方便后續使用正則表達式提取卷、回信息,若存在空行容易導致匹配結果不準確。

?

(2)DataFrame

數據標簽:具有索引(index)和索引(columns),可以通過這些索引來訪問和操作數據。

DataFrame 對象可以通過 . 操作符加上列名來訪問該 DataFrame 中的某一列。如 df.Age

所以 df_hlm.hlm_texts 就是從 df_hlm 這個 DataFrame 中選取名為 hlm_texts 的列。

?

df_hlm = df_hlm[~df_hlm.hlm_texts.str.contains(r"第\d卷")].reset_index(drop=True)

?

?

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/72636.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/72636.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/72636.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++:#ifndef 頭文件保護機制詳解

在C開發中,頭文件可能會被多個源文件包含,導致編譯錯誤。為了避免這種情況,我們使用了頭文件保護機制(防止重復包含)。 頭文件保護的原理 通過預處理指令#ifndef(如果沒有定義)和#define&…

利用MQ自動取消未支付超時訂單最佳實踐

一、利用MQ自動取消未支付超時訂單最佳實踐 1、基于 RocketMQ 延遲消息 1.1:延遲消息 當消息寫入到 Broker 后,不會立刻被消費者消費,需要等待指定的時長后才可被消費處理的消息,稱為延時消息。 1.2:實現流程 &am…

基于 ChatGPT 創建專屬 GPTs

文章目錄 基于 ChatGPT 創建專屬 GPTs一、效果展示1.1 中文命名專家1.2 行程小助手 二、核心配置2.1 Instructions2.3 Actions 三、Agent 簡介3.1 功能框架3.2 工作流程3.3 意圖識別 四、數據流程 基于 ChatGPT 創建專屬 GPTs ChatGPT 具備定制 GPTs 的能力,能夠通…

Spring Boot WebFlux 中 WebSocket 生命周期解析

Spring Boot WebFlux 中的 WebSocket 提供了一種高效、異步的方式來處理客戶端與服務器之間的雙向通信。WebSocket 連接的生命周期包括連接建立、消息傳輸、連接關閉以及資源清理等過程。此外,為了確保 WebSocket 連接的穩定性和可靠性,我們可以加入重試…

【數據挖掘】異構圖與同構圖

在圖論(Graph Theory)中,異構圖(Heterogeneous Graph)和同構圖(Homogeneous Graph)是兩種不同的圖結構概念,它們的主要區別在于節點和邊的類型是否單一。 1. 異構圖(Hete…

Golang實踐錄:go發布版本信息收集

go發布版本信息收集。 背景 本文從官方、網絡資料收羅有關go的發布歷史概況。主要目的是能快速了解golang不同版本的變更。鑒于官方資料為英文,為方便閱讀,使用工具翻譯成中文,重要特性參考其它資料補充/修改。由于發布版本內容較多&#xf…

【C++】: STL詳解 —— set和map類

目錄 關聯式容器 鍵值對 set set的概念 set的構造函數 set的使用 map map的概念 map的構造函數 map的使用 multiset multimap 關聯式容器 C標準庫提供了多種容器,用于高效管理和操作數據集合。這些容器可分為以下幾類: 順序容器(…

DeepSeek:構筑大數據平臺底座的最優解

一、大數據平臺底座的重要性 在數字化浪潮席卷全球的當下,數據已成為企業乃至整個社會最具價值的資產之一 。大數據平臺底座作為數據處理和業務支撐的核心樞紐,其重要性不言而喻,猶如大廈的基石,關乎整個數據生態系統的穩定與發展。 從數據處理角度來看,隨著互聯網、物聯…

Minix OS的配置 SSH C程序編譯

Minix3的下載 官網:https://www.minix3.org/ 安裝 平臺:VMware 開機后進入系統使用setup命令來配置和安裝盡量配置一個DNS服務器,比如8.8.8.8 SSH 安裝:pkgin install openssh 修改配置文件,需要: 修…

ubuntu20 安裝python2

1. 確保啟用了 Universe 倉庫 在某些情況下,python2-minimal 包可能位于 Universe 倉庫中。你可以通過以下命令啟用 Universe 倉庫并更新軟件包列表: bash復制 sudo add-apt-repository universe sudo apt update 然后嘗試安裝: bash復制…

STM32---FreeRTOS中斷管理試驗

一、實驗 實驗目的:學會使用FreeRTOS的中斷管理 創建兩個定時器,一個優先級為4,另一個優先級為6;注意:系統所管理的優先級范圍 :5~15 現象:兩個定時器每1s,打印一段字符串&#x…

docker利用docker-compose-gpu.yml啟動RAGFLOW,文檔解析出錯【親測已解決】

0.問題說明 想要讓RAGFLOW利用GPU資源跑起來,可以選擇docker-compose-gpu.yml啟動。(但是官網啟動案例是86平臺的不是NVIDIA GPU的,docker-compose-gpu.yml又是第三方維護,所以稍有問題) 1.問題 docker利用docker-c…

【AI深度學習網絡】卷積神經網絡(CNN)入門指南:從生物啟發的原理到現代架構演進

深度神經網絡系列文章 【AI深度學習網絡】卷積神經網絡(CNN)入門指南:從生物啟發的原理到現代架構演進【AI實踐】基于TensorFlow/Keras的CNN(卷積神經網絡)簡單實現:手寫數字識別的工程實踐 引言 在當今…

【ThreeJS Basics 06】Camera

文章目錄 Camera 相機PerspectiveCamera 透視相機正交相機用鼠標控制相機大幅度轉動(可以看到后面) 控制組件FlyControls 飛行組件控制FirstPersonControls 第一人稱控制PointerLockControls 指針鎖定控制OrbitControls 軌道控制TrackballControls 軌跡球…

Linux | Ubuntu 與 Windows 雙系統安裝 / 高頻故障 / UEFI 安全引導禁用

注:本文為 “buntu 與 Windows 雙系統及高頻故障解決” 相關文章合輯。 英文引文,機翻未校。 How to install Ubuntu 20.04 and dual boot alongside Windows 10 如何將 Ubuntu 20.04 和雙啟動與 Windows 10 一起安裝 Dave’s RoboShack Published in…

在 C++ 中,通常會使用 `#define` 來定義宏,并通過這種方式發出警告或提示。

在 C++ 中,通常會使用 #define 來定義宏,并通過這種方式發出警告或提示。 如何實現 GBB_DEPRECATED_MSG 宏: 你可以通過以下方式定義一個宏,顯示棄用警告: #include <iostream>// 定義一個宏,用來打印棄用警告 #define GBB_DEPRECATED_MSG(msg

el-tree右鍵節點動態位置展示菜單;el-tree的節點圖片動態根據節點屬性color改變背景色;加遮罩層(opacity)

一、el-tree右鍵節點動態位置展示菜單 關鍵:@node-contextmenu="handleRightClick"與@node-click=“handleNodeClick” <div class="content"><el-tabs class="tabs" @tab-click="handleClick" v-model="Modal"…

Leetcode 378-有序矩陣中第 K 小的元素

給你一個 n x n 矩陣 matrix &#xff0c;其中每行和每列元素均按升序排序&#xff0c;找到矩陣中第 k 小的元素。 請注意&#xff0c;它是 排序后 的第 k 小元素&#xff0c;而不是第 k 個 不同 的元素。 你必須找到一個內存復雜度優于 O(n2) 的解決方案。 示例 1&#xff1…

【二.提示詞工程與實戰應用篇】【3.Prompt調優:讓AI更懂你的需求】

最近老張在朋友圈秀出用AI生成的國風水墨畫,隔壁王姐用AI寫了份驚艷全場的年終總結,就連樓下小賣部老板都在用AI生成營銷文案。你看著自己跟AI對話時滿屏的"我不太明白您的意思",是不是懷疑自己買了臺假電腦?別慌,這可能是你的打開方式不對。今天咱們就聊聊這個…

UNIAPP前端配合thinkphp5后端通過高德API獲取當前城市天氣預報

如何通過 UniApp 前端項目與 ThinkPHP5 后端結合高德天氣 API 獲取天氣預報信息。我們將分為前端和后端兩部分進行實現。以下是一個完整的代碼. 一、項目結構 project/ ├── frontend/ (UniApp 項目) │ ├── pages/ │ │ └── weather/ │ │ ├── in…