文本分類、文本聚類
- 基礎庫: pandas, sklearn
- 功能: 商品識別、情感分析、評論聚類
- 商品識別: 視頻文本信息,預測推廣商品名稱 & 情感分析:四個維度(情感傾向、用戶場景、用戶疑問、用戶建議)
- jieba中文分詞
- TF-IDF, 文本轉特征向量
- SGDClassifier,分類預測
- 評論聚類: 五個維度(正面、負面、用戶場景、用戶疑問、用戶建議)
- jieba 分詞
- TF-IDF 向量化
- KMeans 聚類
重難點
目標:從文本中“提取“商業洞察
關鍵任務:文本編碼、文本分類、文本聚類
- 文本編碼: 將人類可讀文本轉換為機器可理解的數值向量表示。
- 獨熱編碼(One-Hot Encoding): 將每個詞表示為一個稀疏向量,向量中只有一個位置為1,其他位置為0。 適用于詞匯量較小場景,但會產生高維稀疏向量,且無法捕捉詞語間的語義關系。
- 詞嵌入(如Word2Vec、GloVe等靜態詞向量): 將詞語映射到低緯度連續向量空間,相似詞在向量空間中距離也相近。
- 基于預訓練模型上下文詞嵌入(如BERT、GPT等動態詞向量)
- 文本分類:根據文本內容將其自動歸類到預定義類別。
- 基于規則和詞典方法
- 傳統機器學習方法(如樸素貝葉斯、支持向量機SVM等)
- 深度學習方法(如循環神經網絡RNN、卷積神經網絡CNN、Transformer等)
- 文本聚類:根據文本內容的相似性將文本分組,無需預先定義類別。聚類評估指標通常用輪廓系數。
- K-Means(需預設簇數K)
- 層次聚類: 構建一個樹狀結構,可以直觀地展示聚類過程。
- DBSCAN: 基于密度的聚類算法,能夠發現任意形狀的簇,并且不需要預設聚類數量。
- 輪廓系數:衡量聚類結果的緊密型和分離度。值越接近1表示聚類效果越好,越接近-1表示
- 大語言模型(LLM)
- 大模型零樣本/少樣本學習能力,針對于有限標注數據完成學習
- 微調預訓練模型
- 使用預訓練模型提供的API接口獲取文本向量表示,用于后續分類或聚類。
要點
- 分析文本特點,從機器學習角度提取特征和分類
- 構建和對比文本分類和聚類算法,調整模型精度
- 對比深度學習和大模型的應用場景,做少樣本學習
難點
- 數據量少,挑戰模型泛化能力
- 多任務協同,要求全鏈路解決方案
TF-IDF的局限性
- 僅關注詞語的頻率和文檔分布,無法捕捉詞語的 上下文信息、語義相似性或多義詞
K-Means的局限性
- 基于距離的聚類算法,假設簇是凸形的且大小相近。無法很好地處理不規則形狀的簇。
分類是一種有監督學習任務,聚類是一種無監督學習任務。
進階
baseline優化方案
TF-IDF無法捕捉詞語的上下文信息、語義相似性和多義詞 => 使用BERT等上下文嵌入
聚類分析粗糙,未評估聚類質量
提示詞引導優化
讓AI幫助優化分析代碼
評論聚類
- 聚類沒有標簽知道,無法像監督學習那樣通過損失函數明確優化目標。
- 無監督場景中,噪聲和真實數據點的界限不明確。
進階嘗試
- K-Means的n_clusters統一設置到5,得分223.19596
n_clusters | 聚類效果 | 說明 |
---|---|---|
1 | 所有樣本被歸一類 | 沒有分類意義 |
2 | 只劃分成兩大類 | 適合明確二分類的場景 |
3~5 | 較常見的有效區間 | 通常在這里找到肘部點 |
6~8 | 更細致但可能過擬合 | 適合樣本本身確實有復雜結構的情況 |
參考鏈接
TfidfVectorizer
KMeans