【Datawhale夏令營】用AI做帶貨視頻評論分析

文本分類、文本聚類

基礎庫： pandas, sklearn
功能：商品識別、情感分析、評論聚類
商品識別：視頻文本信息，預測推廣商品名稱 & 情感分析：四個維度（情感傾向、用戶場景、用戶疑問、用戶建議）
- jieba中文分詞
- TF-IDF，文本轉特征向量
- SGDClassifier，分類預測
評論聚類：五個維度（正面、負面、用戶場景、用戶疑問、用戶建議）
- jieba 分詞
- TF-IDF 向量化
- KMeans 聚類

重難點

目標：從文本中“提取“商業洞察

關鍵任務：文本編碼、文本分類、文本聚類

文本編碼：將人類可讀文本轉換為機器可理解的數值向量表示。
- 獨熱編碼（One-Hot Encoding): 將每個詞表示為一個稀疏向量，向量中只有一個位置為1，其他位置為0。適用于詞匯量較小場景，但會產生高維稀疏向量，且無法捕捉詞語間的語義關系。
- 詞嵌入（如Word2Vec、GloVe等靜態詞向量）：將詞語映射到低緯度連續向量空間，相似詞在向量空間中距離也相近。
- 基于預訓練模型上下文詞嵌入（如BERT、GPT等動態詞向量）
文本分類：根據文本內容將其自動歸類到預定義類別。
- 基于規則和詞典方法
- 傳統機器學習方法（如樸素貝葉斯、支持向量機SVM等）
- 深度學習方法（如循環神經網絡RNN、卷積神經網絡CNN、Transformer等）
文本聚類：根據文本內容的相似性將文本分組，無需預先定義類別。聚類評估指標通常用輪廓系數。
- K-Means（需預設簇數K）
- 層次聚類：構建一個樹狀結構，可以直觀地展示聚類過程。
- DBSCAN：基于密度的聚類算法，能夠發現任意形狀的簇，并且不需要預設聚類數量。
- 輪廓系數：衡量聚類結果的緊密型和分離度。值越接近1表示聚類效果越好，越接近-1表示
大語言模型（LLM）
- 大模型零樣本/少樣本學習能力，針對于有限標注數據完成學習
- 微調預訓練模型
- 使用預訓練模型提供的API接口獲取文本向量表示，用于后續分類或聚類。

要點

分析文本特點，從機器學習角度提取特征和分類
構建和對比文本分類和聚類算法，調整模型精度
對比深度學習和大模型的應用場景，做少樣本學習

難點

數據量少，挑戰模型泛化能力
多任務協同，要求全鏈路解決方案

TF-IDF的局限性

僅關注詞語的頻率和文檔分布，無法捕捉詞語的上下文信息、語義相似性或多義詞

K-Means的局限性

基于距離的聚類算法，假設簇是凸形的且大小相近。無法很好地處理不規則形狀的簇。

分類是一種有監督學習任務，聚類是一種無監督學習任務。

進階

baseline優化方案

TF-IDF無法捕捉詞語的上下文信息、語義相似性和多義詞 => 使用BERT等上下文嵌入

聚類分析粗糙，未評估聚類質量

提示詞引導優化

讓AI幫助優化分析代碼

評論聚類

聚類沒有標簽知道，無法像監督學習那樣通過損失函數明確優化目標。
無監督場景中，噪聲和真實數據點的界限不明確。

進階嘗試

K-Means的n_clusters統一設置到5，得分223.19596

n_clusters	聚類效果	說明
1	所有樣本被歸一類	沒有分類意義
2	只劃分成兩大類	適合明確二分類的場景
3~5	較常見的有效區間	通常在這里找到肘部點
6~8	更細致但可能過擬合	適合樣本本身確實有復雜結構的情況

參考鏈接

TfidfVectorizer

KMeans

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/88902.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/88902.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/88902.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！