【AI】從零開始的文本分類模型實戰：從數據到部署的全流程指南

引言

一、項目背景與目標

二、環境準備

三、數據獲取與探索

3.1 數據獲取

3.2 數據探索

四、數據預處理

4.1 文本清洗

4.2 分詞

4.3 標簽編碼

4.4 數據集劃分

4.5 特征提取

五、模型構建與訓練

5.1 邏輯回歸模型

5.2 LSTM 模型

六、模型評估

6.1 邏輯回歸模型評估

6.2 LSTM 模型評估

6.3 模型結果可視化

七、模型優化

八、模型部署

8.1 保存模型

8.2 搭建 Web 服務

引言

在人工智能迅猛發展的今天，文本分類作為自然語言處理（NLP）領域的基礎任務，在情感分析、垃圾郵件識別、新聞分類等諸多場景中都有著廣泛的應用。本文將以 "電商評論情感分析" 為具體案例，帶大家進行一次完整的文本分類模型實戰。從數據獲取與預處理，到模型構建、訓練、評估，再到最后的模型部署，每個環節都會詳細講解并附上可運行的代碼，讓即使是初學者也能輕松跟上節奏，親身體驗從 0 到 1 構建一個文本分類模型的全過程。

一、項目背景與目標

在電商行業蓬勃發展的當下，用戶的評論數據蘊含著巨大的價值。這些評論中包含了用戶對商品的真實感受和評價，商家可以通過分析這些評論了解用戶的需求和意見，從而改進產品和服務；而對于其他消費者來說，這些評論也能為他們的購買決策提供重要參考。

本次實戰項目的目標就是構建一個能夠對電商評論進行情感分析的文本分類模型。具體來說，就是要讓模型能夠自動判斷一條電商評論是正面的還是負面的，實現對評論情感的二分類。通過這個項目，我們不僅能掌握文本分類模型的構建方法，還能將其應用到實際的業務場景中，發揮模型的實用價值。

二、環境準備

在開始項目之前，我們需要先準備好相應的開發環境。本次實戰將使用 Python 作為開發語言，主要用到以下幾個庫：

pandas：用于數據處理和分析

numpy：用于數值計算

scikit - learn：提供了豐富的機器學習算法和工具，用于數據預處理、模型訓練和評估等

tensorflow/keras：用于構建和訓練深度學習模型

jieba：用于中文文本分詞

flask：用于模型部署，搭建簡單的 Web 服務

下面是環境安裝的代碼：

# 安裝所需庫pip install pandas numpy scikit-learn tensorflow jieba flask安裝完成后，我們就可以導入這些庫，開始項目的后續工作了。# 導入庫import pandas as pdimport numpy as npimport jiebaimport refrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.metrics import accuracy_score, classification_report, confusion_matrixfrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import Dense, Dropout, Embedding, LSTM, SpatialDropout1Dfrom tensorflow.keras.preprocessing.text import Tokenizerfrom tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.utils import to_categoricalfrom tensorflow.keras.callbacks import EarlyStoppingimport flaskfrom flask import request, jsonify

三、數據獲取與探索

3.1 數據獲取

本次實戰使用的電商評論數據可以從公開的數據集平臺獲取，比如 Kaggle、天池等。這里我們假設已經獲取了一份包含評論內容和對應情感標簽的數據集，數據集的格式為 CSV，包含 "comment" 和 "sentiment" 兩列，其中 "comment" 是評論內容，"sentiment" 是情感標簽，取值為 "positive"（正面）或 "negative"（負面）。

我們可以使用 pandas 庫來讀取數據集：

# 讀取數據集data = pd.read_csv('ecommerce_comments.csv')

3.2 數據探索

數據探索是了解數據特征的重要步驟，通過數據探索我們可以知道數據的基本情況，比如數據量、數據分布等，為后續的數據預處理和模型構建提供依據。


# 查看數據的前5行print(data.head())# 查看數據的形狀（行數和列數）print('數據形狀：', data.shape)# 查看情感標簽的分布情況print('情感標簽分布：')print(data['sentiment'].value_counts())# 查看評論內容的長度分布data['comment_length'] = data['comment'].apply(lambda x: len(x))print('評論長度描述統計：')print(data['comment_length'].describe())# 繪制評論長度的直方圖import matplotlib.pyplot as pltplt.hist(data['comment_length'], bins=50)plt.xlabel('評論長度')plt.ylabel('頻數')plt.title('評論長度分布直方圖')plt.show()

通過以上代碼，我們可以了解到數據集的基本情況。比如，數據集中有多少條評論，正面和負面評論的比例如何，評論內容的長度大致在什么范圍等。如果發現數據分布不均衡，比如正面評論遠多于負面評論，我們可能需要在后續的數據預處理中進行相應的處理，如過采樣、欠采樣等。

四、數據預處理

數據預處理是文本分類任務中非常關鍵的一步，直接影響模型的性能。文本數據通常包含大量的噪聲，需要進行清洗、分詞等處理，將其轉化為模型能夠理解的數值形式。

4.1 文本清洗

文本清洗的目的是去除文本中的噪聲，比如特殊符號、數字、標點符號等，只保留有意義的漢字。

# 定義文本清洗函數def clean_text(text):# 去除特殊符號和數字text = re.sub(r'[^\u4e00-\u9fa5]', ' ', text)# 去除多余的空格text = re.sub(r'\s+', ' ', text).strip()return text# 對評論內容進行清洗data['cleaned_comment'] = data['comment'].apply(clean_text)

4.2 分詞

由于中文文本不像英文文本那樣有天然的分隔符，所以需要進行分詞處理，將連續的漢字序列切分成一個個獨立的詞語。這里我們使用 jieba 庫進行分詞。

# 定義分詞函數def segment_text(text):# 分詞words = jieba.cut(text)# 過濾掉長度為1的詞語（可選）words = [word for word in words if len(word) > 1]# 拼接成字符串，用空格分隔return ' '.join(words)# 對清洗后的評論進行分詞data['segmented_comment'] = data['cleaned_comment'].apply(segment_text)

4.3 標簽編碼

情感標簽是文本型的（"positive" 和 "negative"），我們需要將其轉化為數值型，方便模型處理。這里我們使用 LabelEncoder 進行編碼，將 "positive" 編碼為 1，"negative" 編碼為 0。

# 標簽編碼label_encoder = LabelEncoder()data['label'] = label_encoder.fit_transform(data['sentiment'])

4.4 數據集劃分

我們需要將數據集劃分為訓練集和測試集，其中訓練集用于模型訓練，測試集用于評估模型的性能。通常我們將 70% - 80% 的數據作為訓練集，其余的數據作為測試集。

# 劃分訓練集和測試集X = data['segmented_comment']y = data['label']X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

這里使用了 stratify=y 參數，確保訓練集和測試集中情感標簽的分布與原始數據集一致。

4.5 特征提取

文本數據經過分詞后，還是字符串形式，我們需要將其轉化為數值型的特征向量。常用的特征提取方法有詞袋模型（Bag of Words）、TF - IDF 等。這里我們使用 TF - IDF 進行特征提取。

# TF-IDF特征提取tfidf_vectorizer = TfidfVectorizer(max_features=5000) # 只保留出現頻率最高的5000個詞X_train_tfidf = tfidf_vectorizer.fit_transform(X_train).toarray()X_test_tfidf = tfidf_vectorizer.transform(X_test).toarray()

max_features=5000 表示只保留出現頻率最高的 5000 個詞，這樣可以減少特征維度，提高模型的訓練速度。

五、模型構建與訓練

在文本分類任務中，常用的模型有樸素貝葉斯、支持向量機（SVM）、邏輯回歸以及深度學習模型（如 LSTM、CNN 等）。本節我們將分別構建一個基于邏輯回歸的機器學習模型和一個基于 LSTM 的深度學習模型，并進行訓練。

5.1 邏輯回歸模型

邏輯回歸是一種簡單而有效的分類算法，在文本分類任務中經常被使用。

# 構建邏輯回歸模型from sklearn.linear_model import LogisticRegressionlr_model = LogisticRegression(max_iter=1000)lr_model.fit(X_train_tfidf, y_train)

5.2 LSTM 模型

LSTM（長短期記憶網絡）是一種特殊的循環神經網絡（RNN），能夠很好地處理序列數據，在 NLP 任務中表現出色。

由于 LSTM 模型需要輸入的是序列數據，而我們之前使用 TF - IDF 提取的是特征向量，不太適合 LSTM。所以我們需要使用 Tokenizer 對文本進行處理，將其轉化為序列。

# 文本序列處理tokenizer = Tokenizer(num_words=5000) # 只保留出現頻率最高的5000個詞tokenizer.fit_on_texts(X_train)X_train_seq = tokenizer.texts_to_sequences(X_train)X_test_seq = tokenizer.texts_to_sequences(X_test)# 序列填充，使所有序列長度一致max_sequence_length = 100 # 序列的最大長度X_train_pad = pad_sequences(X_train_seq, maxlen=max_sequence_length)X_test_pad = pad_sequences(X_test_seq, maxlen=max_sequence_length)# 構建LSTM模型embedding_dim = 128lstm_model = Sequential()lstm_model.add(Embedding(input_dim=5000, output_dim=embedding_dim, input_length=max_sequence_length))lstm_model.add(SpatialDropout1D(0.2))lstm_model.add(LSTM(units=64, dropout=0.2, recurrent_dropout=0.2))lstm_model.add(Dense(units=1, activation='sigmoid'))# 編譯模型lstm_model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])# 打印模型結構lstm_model.summary()# 訓練模型early_stopping = EarlyStopping(monitor='val_loss', patience=3, mode='min') # 早停法，防止過擬合history = lstm_model.fit(X_train_pad, y_train, batch_size=32, epochs=20, validation_data=(X_test_pad, y_test), callbacks=[early_stopping])

六、模型評估

模型訓練完成后，我們需要在測試集上對模型進行評估，了解模型的性能。常用的評估指標有準確率（Accuracy）、精確率（Precision）、召回率（Recall）、F1 值等。

6.1 邏輯回歸模型評估

# 邏輯回歸模型預測y_pred_lr = lr_model.predict(X_test_tfidf)# 計算準確率accuracy_lr = accuracy_score(y_test, y_pred_lr)print('邏輯回歸模型準確率：', accuracy_lr)# 打印分類報告print('邏輯回歸模型分類報告：')print(classification_report(y_test, y_pred_lr))# 打印混淆矩陣print('邏輯回歸模型混淆矩陣：')print(confusion_matrix(y_test, y_pred_lr))

6.2 LSTM 模型評估

# LSTM模型預測y_pred_lstm_prob = lstm_model.predict(X_test_pad)y_pred_lstm = (y_pred_lstm_prob > 0.5).astype(int).flatten()# 計算準確率accuracy_lstm = accuracy_score(y_test, y_pred_lstm)print('LSTM模型準確率：', accuracy_lstm)# 打印分類報告print('LSTM模型分類報告：')print(classification_report(y_test, y_pred_lstm))# 打印混淆矩陣print('LSTM模型混淆矩陣：')print(confusion_matrix(y_test, y_pred_lstm))通過對比兩個模型的評估指標，我們可以看出哪個模型的性能更好。一般來說，在文本分類任務中，LSTM 等深度學習模型的性能會優于傳統的機器學習模型，但訓練成本也更高。

6.3 模型結果可視化

為了更直觀地了解模型的訓練過程和性能，我們可以對模型的訓練損失和準確率進行可視化。

# 繪制LSTM模型的訓練損失和驗證損失曲線plt.plot(history.history['loss'], label='訓練損失')plt.plot(history.history['val_loss'], label='驗證損失')plt.xlabel('Epoch')plt.ylabel('Loss')plt.title('LSTM模型訓練損失和驗證損失曲線')plt.legend()plt.show()# 繪制LSTM模型的訓練準確率和驗證準確率曲線plt.plot(history.history['accuracy'], label='訓練準確率')plt.plot(history.history['val_accuracy'], label='驗證準確率')plt.xlabel('Epoch')plt.ylabel('Accuracy')plt.title('LSTM模型訓練準確率和驗證準確率曲線')plt.legend()plt.show()

通過這些曲線，我們可以判斷模型是否存在過擬合或欠擬合的情況。如果訓練損失不斷下降，而驗證損失卻開始上升，說明模型出現了過擬合。

七、模型優化

如果模型的性能不理想，我們可以進行模型優化。常用的優化方法有：

調整模型參數：比如邏輯回歸的正則化參數、LSTM 的隱藏層單元數、學習率等。

增加特征維度：可以適當增加 TF - IDF 保留的詞的數量，或者使用詞向量（如 Word2Vec、GloVe）作為特征。

數據增強：對于文本數據，可以進行同義詞替換、隨機插入、隨機刪除等操作，增加訓練數據量。

集成學習：將多個模型的預測結果進行融合，提高模型的性能。

下面以調整 LSTM 模型的隱藏層單元數為例，進行模型優化：

# 調整LSTM模型的隱藏層單元數lstm_model_optimized = Sequential()lstm_model_optimized.add(Embedding(input_dim=5000, output_dim=embedding_dim, input_length=max_sequence_length))lstm_model_optimized.add(SpatialDropout1D(0.2))lstm_model_optimized.add(LSTM(units=128, dropout=0.2, recurrent_dropout=0.2)) # 將隱藏層單元數從64調整為128lstm_model_optimized.add(Dense(units=1, activation='sigmoid'))# 編譯模型lstm_model_optimized.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])# 訓練模型history_optimized = lstm_model_optimized.fit(X_train_pad, y_train, batch_size=32, epochs=20, validation_data=(X_test_pad, y_test), callbacks=[early_stopping])# 評估優化后的LSTM模型y_pred_lstm_optimized_prob = lstm_model_optimized.predict(X_test_pad)y_pred_lstm_optimized = (y_pred_lstm_optimized_prob > 0.5).astype(int).flatten()accuracy_lstm_optimized = accuracy_score(y_test, y_pred_lstm_optimized)print('優化后的LSTM模型準確率：', accuracy_lstm_optimized)

八、模型部署

模型訓練好之后，我們需要將其部署到實際應用中，讓用戶能夠方便地使用。這里我們使用 flask 搭建一個簡單的 Web 服務，實現對電商評論情感的在線預測。

8.1 保存模型

首先，我們需要將訓練好的模型和相關的預處理工具保存下來，以便在部署時使用。

# 保存邏輯回歸模型import joblibjoblib.dump(lr_model, 'lr_model.pkl')joblib.dump(tfidf_vectorizer, 'tfidf_vectorizer.pkl')joblib.dump(label_encoder, 'label_encoder.pkl')# 保存LSTM模型lstm_model.save('lstm_model.h5')import jsonwith open('tokenizer_config.json', 'w', encoding='utf-8') as f:json.dump(tokenizer.get_config(), f, ensure_ascii=False)

8.2 搭建 Web 服務

使用 flask 搭建 Web 服務，實現接收用戶輸入的評論內容，調用模型進行預測，并返回預測結果的功能。

# 加載模型和預處理工具lr_model = joblib.load('lr_model.pkl')tfidf_vectorizer = joblib.load('tfidf_vectorizer.pkl')label_encoder = joblib.load('label_encoder.pkl')from tensorflow.keras.models import load_modellstm_model = load_model('lstm_model.h5')from tensorflow.keras.preprocessing.text import tokenizer_from_jsonwith open('tokenizer_config.json', 'r', encoding='utf-8') as f:tokenizer_config = json.load(f)tokenizer = tokenizer_from_json(tokenizer_config)# 創建flask應用app = flask.Flask(__name</doubaocanvas>