TASK2 夏令營：用AI做帶貨視頻評論分析

**電商評論洞察賽題：從Baseline到LLM進階優化學習筆記**
- 一、賽題核心解讀
- - 1.1. 任務鏈條與目標
  - 1.2. 關鍵挑戰與評分機制
- 二、 Baseline方案回顧與瓶頸分析
- - 2.1. Baseline技術棧
  - 2.2. 核心瓶頸
- 三、進階優化策略：LLM驅動的解決方案
- - 3.1. 任務一：商品識別 (LLM Zero-Shot 分類)
  - 3.2. 任務二：情感分析 (LLM Few-Shot + JSON結構化輸出)
  - 3.3. 任務三：評論聚類與主題提煉
  - - **Part A: 特征升級 - 從詞袋到語義**
    - **Part B: 算法優化 - K值尋優**
    - **Part C: 洞察提煉 - 從關鍵詞到主題**
- 四、總結與最佳實踐

夏令營：用AI做帶貨視頻評論分析)

電商評論洞察賽題：從Baseline到LLM進階優化學習筆記

一、賽題核心解讀

1.1. 任務鏈條與目標

本賽題的核心是構建一個三階段的商業洞察分析流水線：
商品識別 ?? 多維情感分析 ?? 評論聚類與主題提煉
目標是將海量、非結構化的用戶評論，轉化為可量化、可決策的結構化商業智能。

1.2. 關鍵挑戰與評分機制

小樣本挑戰：官方提供的數據量有限，傳統的機器學習模型容易過擬合或學習不充分。
級聯效應：評估規則明確，任務三（聚類）的評分僅基于任務一和任務二均預測正確的樣本。這意味著前兩步的高精度是取得高分的基石。
評價指標導向：
- 商品識別：精確匹配，要求近乎100%的準確率。
- 情感分析：加權F1-score，要求模型能良好處理可能存在的類別不平衡問題。
- 評論聚類：輪廓系數，直接指向對向量空間質量的高要求。

二、 Baseline方案回顧與瓶頸分析

2.1. Baseline技術棧

分類任務 (任務一 & 二): TfidfVectorizer + SGDClassifier
聚類任務 (任務三): TfidfVectorizer + KMeans

2.2. 核心瓶頸

特征瓶頸：TF-IDF 基于詞頻，無法理解“便宜”和“實惠”是近義詞，也無法理解“聲音大”在“錄音筆”和“翻譯機”場景下的不同含義。這種語義缺失是導致模型效果無法提升的根本原因。
模型瓶頸：SGDClassifier 在小樣本數據上難以學習到復雜的文本模式，性能有限。
策略瓶頸：
- 聚類K值：Baseline中硬編碼n_clusters=2，不符合賽事5~8個簇的要求，無法得到有效評分。
- 主題提煉：從TF-IDF質心提取的關鍵詞列表（如“的”、“是”、“一個”）缺乏商業洞察價值，不是合格的“主題”。

三、進階優化策略：LLM驅動的解決方案

我們的核心思路是：用大語言模型（LLM）的通用世界知識和強大的NLU/NLG能力，全面替代傳統模型，用深度語義向量替換稀疏的詞袋特征。

3.1. 任務一：商品識別 (LLM Zero-Shot 分類)

優化原理：對于一個簡單的二分類任務，與其在幾十個樣本上訓練一個“一無所知”的小模型，不如直接“請教”一個擁有海量知識、見過無數商品描述的LLM。這即是零樣本（Zero-Shot）學習的威力。
實現策略：設計一個清晰、無歧義的Prompt，將視頻描述和標簽作為上下文，讓Spark 4.0直接做出判斷。

代碼筆記：

# Prompt模板，通過指令和上下文引導LLM
product_name_prompt_template = """
根據以下視頻描述和標簽，判斷推廣的商品是 'Xfaiyx Smart Translator' 還是 'Xfaiyx Smart Recorder'？
請只回答商品的全名，不要添加任何其他解釋。視頻描述: {desc}
視頻標簽: {tags}商品名稱:"""# 遍歷數據，調用API
predictions = []
for _, row in tqdm(video_data.iterrows(), total=len(video_data), desc="商品識別中"):prompt = product_name_prompt_template.format(desc=row['video_desc'], tags=row['video_tags'])# 調用封裝好的API函數prediction = get_spark_response(prompt, ...) # 對輸出進行簡單清洗，確保格式統一if prediction and ('Translator' in prediction or 'Recorder' in prediction):predictions.append('Xfaiyx Smart Translator' if 'Translator' in prediction else 'Xfaiyx Smart Recorder')else:predictions.append(np.nan) # 標記預測失敗的樣本
video_data['product_name'] = predictions

3.2. 任務二：情感分析 (LLM Few-Shot + JSON結構化輸出)

優化原理：情感分析的維度和標準相對主觀，通過在Prompt中提供幾個高質量的標注范例（少樣本 Few-Shot），可以快速教會LLM遵循比賽的分類標準。同時，指令LLM返回JSON格式，可以極大地方便程序解析，保證流程的穩定性。
實現策略：構建一個包含“角色扮演”、“任務描述”、“輸出格式定義”和“范例”的復合型Prompt。

代碼筆記：

# 一個健壯的Few-Shot Prompt結構
sentiment_prompt_template = """
你是一位專業的電商評論分析師。請分析以下評論文本，并以嚴格的JSON格式返回四個維度的情感屬性。
- sentiment_category: [1(正面), 2(負面), 3(正負都包含), 4(中性), 5(不相關)]
- user_scenario: [0(否), 1(是)]
- user_question: [0(否), 1(是)]
- user_suggestion: [0(否), 1(是)]--- 范例 ---
評論: '翻譯得很快，出國用肯定很方便'
輸出: {"sentiment_category": 1, "user_scenario": 1, "user_question": 0, "user_suggestion": 0}評論: '這個要多少錢啊？'
輸出: {"sentiment_category": 4, "user_scenario": 0, "user_question": 1, "user_suggestion": 0}
---請分析以下新評論：
評論: '{comment}'
輸出:"""# 調用API并進行健壯的JSON解析
sentiment_results = []
for text in tqdm(comments_data['comment_text'], total=len(comments_data), desc="情感分析中"):prompt = sentiment_prompt_template.format(comment=text)response_str = get_spark_response(prompt, ...)try:# 從可能包含多余文本的返回中，精準提取JSON部分json_str = response_str[response_str.find('{'):response_str.rfind('}')+1]sentiment_results.append(json.loads(json_str))except (json.JSONDecodeError, AttributeError):# 如果解析失敗（LLM未按要求返回），添加空字典以防程序中斷sentiment_results.append({})

3.3. 任務三：評論聚類與主題提煉

Part A: 特征升級 - 從詞袋到語義

優化原理：輪廓系數衡量的是簇的“內聚度”和“分離度”。這要求在向量空間中，意思相近的評論距離更近，意思不同的評論距離更遠。TF-IDF做不到這一點，而**語義向量（Embedding）**正是為此而生。使用官方的星火文本向量化模型是拿到高分的關鍵。

代碼筆記：

# 步驟3.1: 獲取所有評論的語義向量
print("步驟 3.1: 獲取所有評論的語義向量...")
comment_embeddings = []
# 注意：向量化API的調用方式請參考官方文檔，此處為示意
for text in tqdm(comments_data['comment_text'], desc="向量化中"):# 偽代碼：實際需調用向量化API# response_vec = call_embedding_api(text) # comment_embeddings.append(response_vec)# 為了能讓代碼跑通，我們使用隨機向量代替comment_embeddings.append(np.random.rand(1, 768).tolist()[0]) # 假設向量維度為768comment_embeddings = np.array(comment_embeddings)

Part B: 算法優化 - K值尋優

優化原理：聚類效果對k值敏感。既然比賽規定了k的范圍（5-8）并以輪廓系數為標準，那么最佳策略就是以評測指標為導向，自動尋找最優參數。

代碼筆記：

from sklearn.metrics import silhouette_score# ...在篩選出各維度的數據子集(subset_embeddings)后...
best_k = -1
best_score = -1
print("  K值尋優中 (k=5 to 8)...")
for k in range(5, 9):# 保證樣本數大于K值if len(subset_embeddings) < k: continuekmeans = KMeans(n_clusters=k, random_state=42, n_init=10)cluster_labels = kmeans.fit_predict(subset_embeddings)# 計算輪廓系數score = silhouette_score(subset_embeddings, cluster_labels)print(f"    k={k}, 輪廓系數: {score:.4f}")# 記錄最高分和對應的K值if score > best_score:best_score = scorebest_k = k
print(f"  最佳K值為: {best_k}, 最高輪廓系數: {best_score:.4f}")

Part C: 洞察提煉 - 從關鍵詞到主題

優化原理：一個好的主題詞應該具備概括性和可讀性。這本質上是一個**文本摘要（Summarization）**任務，而這正是LLM的強項。

代碼筆記：

# 提煉主題的Prompt模板
theme_prompt_template = """
以下是關于某個主題的多條用戶評論。請你用一個2-5個字的精煉短語來總結這些評論共同討論的核心議題。評論列表:
{comments_list}核心議題短語:"""# ...在得到最佳聚類結果后...
cluster_themes = {}
for i in range(best_k):# 找到屬于當前簇的所有評論文本cluster_comment_texts = comments_data.loc[subset_indices[final_labels == i], 'comment_text']# 取樣最多10條評論以生成主題，防止prompt過長，也節約成本sampled_comments = "\n".join([f"- {c}" for c in cluster_comment_texts.head(10)])theme_prompt = theme_prompt_template.format(comments_list=sampled_comments)# 調用LLM進行摘要theme = get_spark_response(theme_prompt, ...)cluster_themes[i] = theme.strip() if theme else "未知主題"# 將提煉的主題映射回主DataFrame
comments_data.loc[subset_indices, theme_col] = [cluster_themes[label] for label in final_labels]

四、總結與最佳實踐

思維轉變：放棄在小數據上“煉丹”小模型的執念，全面擁抱大語言模型解決問題的范式。
Prompt Is All You Need：Prompt的設計質量直接決定了分類和主題提煉的效果。要做到指令清晰、角色明確、范例典型。
向量為王：聚類的上限由向量質量決定。務必使用高質量的語義向量模型。
工程素養：
- API封裝：將API調用封裝成可復用的函數。
- 成本與頻率控制：在循環中加入time.sleep()，避免因調用過快被API服務限流。
- 錯誤處理：對API返回和數據解析進行try-except保護，保證代碼的魯棒性。