帶貨視頻評論洞察 Baseline 學習筆記 (Datawhale Al夏令營)

一、 項目認識

背景:

????????電商直播/短視頻已積累大量「視頻 + 評論」數據,蘊含了消費者的真實反饋。

目標:

????????通過「商品識別 → 情感分析 → 評論聚類」三步,輔助品牌洞察、網紅投放評估。

二、 Baseline 代碼流程

1. 讀取和預處理

video_data  = pd.read_csv("origin_videos_data.csv")
comments_data = pd.read_csv("origin_comments_data.csv")
video_data["text"] = video_desc + " " + video_tags  # 拼接文本

2. 商品識別

pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, max_features=50),SGDClassifier()
)
pipeline.fit(labeled_text, labeled_product)
video_data["product_name"] = pipeline.predict(video_data["text"])

實現思路: TF-IDF + 線性分類器(SGD)做二分類

簡化點:僅用了 50 個特征,無額外的清洗。

3. 意圖分類(四個模型)

for col in ["sentiment_category", "user_scenario", "user_question", "user_suggestion"]:pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut), SGDClassifier())pipeline.fit(train_text, train_label)comments_data[col] = pipeline.predict(all_text)

4. 評論聚類? & 主題詞抽取 (5個維度進行執行)

pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut), KMeans(n_clusters=2))
pipeline.fit(subset_text)
labels = pipeline.predict(subset_text)
top_words = (" ".join(前 10 重要詞))  # 每簇
comments_data[target_theme_col] = [top_words[label] for label in labels]

大賽要求: 要求 5 - 8 個簇,目前項目僅用了 n_clusters = 2。?

調整策略:將 n_clusters 進行優化調整,讓其等于 5-8 之間,進行優化。

5. 結果導出

video_data[["video_id", "product_name"]].to_csv("submit/submit_videos.csv", index=False)
comments_data[導出列].to_csv("submit/submit_comments.csv", index=False)
!zip -r submit.zip submit/

三、 技術分析

1. 分詞 & 特征

jieba?+?TfidfVectorizer:?適配中英文及?emoji/特殊符號。

2.?商品識別

SGDClassifier:?快速迭代、可在線學習。

3. 意圖分類

多個?SGDClassifier:?訓練速度快,支持稀疏特征。

4. 聚類

KMeans:?易解釋、效率高。

5. 主題詞抽取

中心向量前 N?詞:?簡單直觀。

四、Baseline?局限 & 提升方向

1. 文本預處理缺失:大小寫、URL、表情、停用詞均未處理。

2. 模型簡單:全部采用線性/常規模型,難以捕捉深層語義。

3. 聚類數量不合規:固定?2 簇,勢必影響 100 分聚類子任務。

4. 未利用多語言特性:數據包含中/英/日/韓等多語,分詞器不統一。

5. 評價指標未在本地計算:無法提前驗證得分。

五、學習收獲

1. 端到端管線思維:一個 Notebook 覆蓋讀取→標注數據利用→預測→聚類→提交文件的完整鏈路,是參賽 Baseline 的典型范式。

2. 快速原型:Scikit-learn?+?jieba?幾行代碼即可跑通 baseline,利于早期驗證。

3. 實驗可重復:全部步驟在?Notebook?內顯式記錄,方便 debug / 復現。

4. 評測視角:先滿足格式與流程正確,再逐步優化指標 —— 典型競賽節奏。

5. 改進空間評估:通過閱讀代碼可迅速定位性能瓶頸,為后續升級指明方向。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90923.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90923.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90923.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

uniapp中使用uView-plus踩坑記錄

???1.使用插件市場安裝點擊到插件市場 零云uview-plus3.0重磅發布,全面的Vue3鴻蒙移動組件庫。 - DCloud 插件市場 點擊選擇項目直接導入就可以,下載完成后會在uni_modules中,這個.gitignore中不可忽略 ? 使用在main.js里引入 import…

openGauss數據庫管理實戰指南——基本常用操作總結

查看所有數據庫 查看所有表 \d 查看函數定義 查看所有用戶 select usename from pg_user; 1.數據庫創建管理 CREATE DATABASE test; 2.數據庫用戶創建管理 CREATE USER tom PASSWORD Root123456.; 3.表的創建及管理 3.1.創建表 CREATE TABLE test(ID INTEGER PRIMARY …

智慧公安信息化建設解決方案PPT(63頁)

智慧公安的定義與職能 智慧公安是利用現代信息技術提升公安工作效率與服務質量的新模式,涵蓋刑事偵查、治安管理、交通管理等多方面職能,致力于保障社會安全與秩序。 智慧公安信息化建設的重要性 信息化建設是智慧公安發展的核心,通過數據…

k8s存儲入門

目錄 一、 Volume 的概念 二、 Volume 的類型 三、 通過 emptyDir 共享數據 1. EmptyDir 特性 2. EmptyDir 共享數據 四:使用 HostPath 掛載宿主機文件 1. HostPath 特性 2. 掛載宿主機時區文件 五、 掛載 NFS 至容器 1. 前置準備(所有 K8s 節…

基于 Flutter 的開源文本 TTS 朗讀器(支持 Windows/macOS/Android)

界面特性 基于 Flutter 的文本 TTS 朗讀器支持 Windows、macOS、AndroidTTS 源:OpenAI TTS、Microsoft TTS支持設置代理支持設置應用主題支持倍速支持書簽支持點擊指定地方朗讀支持 txt、epub、貼粘文本支持從上次地方開始朗讀 源代碼https://github.com/xchenhao/t…

深入理解大語言模型:從核心技術到極簡實現

零基礎的讀者建議先看《零基礎理解大語言模型:從生活例子到代碼實現》,本教程的完整代碼可以在GitHub上找到,如果你有任何問題或建議,歡迎交流討論。 引言 自ChatGPT橫空出世以來,大語言模型(Large Langua…

7月13日日記

看來每天寫一篇日記對我來說還是一個不小的挑戰。主要是和惰性做抗爭吧。但是這個東西說實話也沒有什么難度,也并不占用時間,一篇日記大概十幾分鐘就可以寫完。可能更多的是健忘。忘了每天有一個這樣的小任務。忘了前幾天日記寫沒寫了,三下鄉…

《Stata面板數據分析:數據檢驗、回歸模型與診斷技術 - 以NLSW工資研究(公開數據)為例》

本教程旨在全面介紹使用 Stata 進行面板數據分析的方法和技巧。我們將以美國國家縱向調查(NLSW)的數據為例,系統地探討從基礎 OLS 回歸到高級固定效應模型的分析過程。 NLSW 數據集是公開的,可以免費獲取,這為讀者提供了實踐和復現的機會。 通過這個教程,您將掌握使用 …

【VSCode+LaTeX】科研寫作環境搭建

文章目錄0 引言為什么選擇LaTeXVSCode?為什么不選擇Overleaf?1 TeXLive安裝1.1 下載安裝包1.2 運行安裝程序1.3 通過鏡像安裝2 VSCode安裝與配置2.1 下載VSCode安裝包2.2 安裝VSCode2.3 安裝中文語言包2.4 配置LaTeX核心擴展2.5 加載TeX模版文件2.6 編譯…

Surfer軟件入門與等值線繪制實操教程

本文還有配套的精品資源,點擊獲取 簡介:本教程將指導初學者如何使用Surfer軟件進行地質繪圖,重點在于等值線的繪制技巧和提升圖形質量。內容涵蓋Surfer界面介紹、數據導入、等值線繪制方法、樣式設置、地圖增強技術以及輸出保存方法&#…

攻防世界——Web題 very_easy_sql

目錄 payload1 payload2 payload3 看到了題目是sql就猜測是sql注入和萬能密碼了,但怎么試貌似都沒有反應,看源代碼發現了use.php 訪問use.php頁面 可以猜測這里是SSRF,可以訪問到我們本不能訪問的界面,比如:服務器…

基于 SpringBoot 的 REST API 與 RPC 調用的統一封裝

一、為何需要統一封裝? 在討論統一封裝之前,我們先看看 REST 和 RPC 各自的適用場景。 REST API 基于 HTTP 協議,采用 JSON 作為數據交換格式,可讀性好且跨語言,非常適合對外提供服務。 RPC(如 Dubbo、gRPC…

【SpringBoot】 整合MyBatis+Postgresql

MyBatis 是一個輕量級的持久化框架,用于簡化數據庫訪問和操作。它通過將 SQL 語句與 Java 代碼分離,允許開發者使用 XML 或注解來配置 SQL 語句,并將結果映射為 Java 對象。MyBatis 提供了靈活的 SQL 控制,適合需要精細控制 SQL 的…

無縫銜接直播流體驗

文章目錄前言🧠 1. 為什么能“無縫銜接”?🧰 2. Flutter 實現方案? 總體策略🎯 核心技術點? a. 使用全局播放器管理器(單例模式)? b. 廣場頁中的直播卡片使用播放器? c. 詳情頁復用控制器? d. 頁面切換…

[論文閱讀] 軟件工程 | 首個德語軟件工程情感分析黃金標準數據集:構建與價值解析

首個德語軟件工程情感分析黃金標準數據集:構建與價值解析 論文標題:A German Gold-Standard Dataset for Sentiment Analysis in Software EngineeringarXiv:2507.07325 A German Gold-Standard Dataset for Sentiment Analysis in Software Engineering…

PyTorch編程實踐:一文就入門的上手開發!

引言 PyTorch作為當今深度學習領域最流行的框架之一,以其動態計算圖、直觀的Python接口和強大的GPU加速能力,贏得了眾多研究人員和工程師的青睞。本文將深入探討PyTorch的編程實踐,從基礎概念到高級應用,幫助讀者全面掌握這一強大…

關于學習docker中遇到的問題

Cannot connect to the Docker daemon at unix:///home/pc/.docker/desktop/docker.sock. Is the docker daemon running?如何配置新的路徑 #運行這條命令,查看docker狀態 sudo systemctl status docker如圖所示表示監聽路徑不對,因此修改路徑即可&…

無法打開windows安全中心解決方案

系統還原或重置:如果以上方法均無效,可嘗試系統還原,使用之前創建的還原點恢復系統。或在設置中選擇 “系統> 恢復 > 重置此電腦”,選擇 “保留我的文件” 以避免數據丟失。創建新用戶賬戶:按下 Win I 打開設置…

復習筆記 33

緒論 《幻術》 張葉蕾 我該怎么承認, 一切都是幻境。 函數的基本性質和無窮小量及其階的比較 我感覺強化課我要跟上的話,我需要把基礎,強化的講義,還有練習冊上面的所有題都刷爛。不然我感覺自己考 140 完全就是癡人說夢。搞笑呢。…

算法學習筆記:12.快速排序 ——從原理到實戰,涵蓋 LeetCode 與考研 408 例題

快速排序是計算機科學中最經典的排序算法之一,由 Tony Hoare 在 1960 年提出。它憑借平均時間復雜度 O (nlogn)、原地排序(空間復雜度 O (logn),主要來自遞歸棧)以及良好的實際性能,成為工業界處理大規模數據排序的首選…