【Datawhale夏令營】用AI做帶貨視頻評論分析

文本分類、文本聚類

  • 基礎庫: pandas, sklearn
  • 功能: 商品識別、情感分析、評論聚類
  • 商品識別: 視頻文本信息,預測推廣商品名稱 & 情感分析:四個維度(情感傾向、用戶場景、用戶疑問、用戶建議)
    • jieba中文分詞
    • TF-IDF, 文本轉特征向量
    • SGDClassifier,分類預測
  • 評論聚類: 五個維度(正面、負面、用戶場景、用戶疑問、用戶建議)
    • jieba 分詞
    • TF-IDF 向量化
    • KMeans 聚類

重難點

目標:從文本中“提取“商業洞察

關鍵任務:文本編碼、文本分類、文本聚類

  • 文本編碼: 將人類可讀文本轉換為機器可理解的數值向量表示。
    • 獨熱編碼(One-Hot Encoding): 將每個詞表示為一個稀疏向量,向量中只有一個位置為1,其他位置為0。 適用于詞匯量較小場景,但會產生高維稀疏向量,且無法捕捉詞語間的語義關系。
    • 詞嵌入(如Word2Vec、GloVe等靜態詞向量): 將詞語映射到低緯度連續向量空間,相似詞在向量空間中距離也相近。
    • 基于預訓練模型上下文詞嵌入(如BERT、GPT等動態詞向量)
  • 文本分類:根據文本內容將其自動歸類到預定義類別。
    • 基于規則和詞典方法
    • 傳統機器學習方法(如樸素貝葉斯、支持向量機SVM等)
    • 深度學習方法(如循環神經網絡RNN、卷積神經網絡CNN、Transformer等)
  • 文本聚類:根據文本內容的相似性將文本分組,無需預先定義類別。聚類評估指標通常用輪廓系數。
    • K-Means(需預設簇數K)
    • 層次聚類: 構建一個樹狀結構,可以直觀地展示聚類過程。
    • DBSCAN: 基于密度的聚類算法,能夠發現任意形狀的簇,并且不需要預設聚類數量。
    • 輪廓系數:衡量聚類結果的緊密型和分離度。值越接近1表示聚類效果越好,越接近-1表示
  • 大語言模型(LLM)
    • 大模型零樣本/少樣本學習能力,針對于有限標注數據完成學習
    • 微調預訓練模型
    • 使用預訓練模型提供的API接口獲取文本向量表示,用于后續分類或聚類。

要點

  • 分析文本特點,從機器學習角度提取特征和分類
  • 構建和對比文本分類和聚類算法,調整模型精度
  • 對比深度學習和大模型的應用場景,做少樣本學習

難點

  • 數據量少,挑戰模型泛化能力
  • 多任務協同,要求全鏈路解決方案

TF-IDF的局限性

  • 僅關注詞語的頻率和文檔分布,無法捕捉詞語的 上下文信息、語義相似性或多義詞

K-Means的局限性

  • 基于距離的聚類算法,假設簇是凸形的且大小相近。無法很好地處理不規則形狀的簇。

分類是一種有監督學習任務,聚類是一種無監督學習任務。

進階

baseline優化方案

TF-IDF無法捕捉詞語的上下文信息、語義相似性和多義詞 => 使用BERT等上下文嵌入

聚類分析粗糙,未評估聚類質量

提示詞引導優化

讓AI幫助優化分析代碼

評論聚類

  • 聚類沒有標簽知道,無法像監督學習那樣通過損失函數明確優化目標。
  • 無監督場景中,噪聲和真實數據點的界限不明確。

進階嘗試

  • K-Means的n_clusters統一設置到5,得分223.19596
n_clusters聚類效果說明
1所有樣本被歸一類沒有分類意義
2只劃分成兩大類適合明確二分類的場景
3~5較常見的有效區間通常在這里找到肘部點
6~8更細致但可能過擬合適合樣本本身確實有復雜結構的情況

參考鏈接

TfidfVectorizer

KMeans

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88902.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88902.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88902.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[Meetily后端框架] AI摘要結構化 | `SummaryResponse`模型 | Pydantic庫 | vs marshmallow庫

第3章:摘要數據結構(Pydantic庫) 歡迎回來! 在之前的第2章:API文檔中,我們知道API網關提供了端點 而API文檔準確告訴我們如何與這些端點通信,包括需要發送的數據格式和期望接收的數據格式。 …

深度學習 tensor及其相關操作

目錄 Tensor 概念 數據類型 創建tensor 基本創建方式 1、 torch.tensor() 2、torch.Tensor() 3、torch.IntTensor() 等 創建線性張量和隨機張量 1、創建線性張量 2、創建隨機張量 切換設備 類型轉換 與 Numpy 數據轉換 1、張量轉 Numpy 2、Numpy 轉張量 tenso…

如何將FPGA設計的驗證效率提升1000倍以上(4)

本文為系列文章的完結篇。用戶應用設計中的信號,在經歷編譯器的多次迭代優化之后,在FPGA芯片內部運行時,可能已經被重新命名、“改頭換面”或“機里機氣”。要想以人工經驗進行追蹤,構建目標寄存器信號與RTL設計源碼之間的映射關系…

Linux驅動11 --- buildroot雜項驅動開發方法

目錄 一、Buildroot 1.1介紹 文件系統 1.一個完整的操作系統需要包含大量的文件 2.在嵌入式開發中目前應用最廣泛的文件系統制作工具就是 buildroot,busybox 3.buildroot 制作文件系統(了解) 二、雜項驅動編程 1.1 驅動編程做的內容 2.2…

Unity物理系統由淺入深第三節:物理引擎底層原理剖析

Unity物理系統由淺入深第一節:Unity 物理系統基礎與應用 Unity物理系統由淺入深第二節:物理系統高級特性與優化 Unity物理系統由淺入深第三節:物理引擎底層原理剖析 Unity物理系統由淺入深第四節:物理約束求解與穩定性 Unity 物理…

Docker一鍵安裝中間件(RocketMq、Nginx、MySql、Minio、Jenkins、Redis)腳步

1、Docker安裝RocketMq 2、Docker安裝Nginx 3、Docker安裝MySql 4、Docker安裝Minio 5、Docker安裝jenkins 6、Docker安裝Redis 1、Docker安裝RocketMq #!/bin/bash# 定義變量 NAMESRV_CONTAINER"rocketmq-namesrv" BROKER_CONTAINER"rocketmq-broker&quo…

WPF學習筆記(27)科學計算器

科學計算器1. 前端界面2. 功能代碼3. 效果展示1. 前端界面 <Window x:Class"Cal.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d"http:/…

【Linux系列】unzip file 命令

博客目錄掌握 unzip -o 命令&#xff1a;高效解壓并覆蓋文件的完整指南一、unzip 命令基礎二、-o 選項的核心作用三、典型應用場景四、與其他選項的組合使用五、注意事項與風險防范六、替代方案與高級技巧掌握 unzip -o 命令&#xff1a;高效解壓并覆蓋文件的完整指南 在日常的…

1965–2022年中國大陸高分辨率分部門用水數據集,包含:灌溉用水、工業制造用水、生活用水和火電冷卻

1965–2022年中國大陸高分辨率部門用水數據集 高質量用水數據集對推進變化環境下的水資源研究至關重要。然而&#xff0c;現有中國用水數據通常按行政區劃或流域匯總&#xff0c;時空分辨率不足&#xff0c;難以支撐人類用水模式及時空變化特征的精細化分析。為此&#xff0c;…

git中的指令解釋

在 Git 的 diff 輸出中&#xff0c;---、 和 ... 塊的含義如下&#xff1a; 1. --- a/1.py 和 b/1.py --- a/1.py&#xff1a;表示舊版本的文件路徑&#xff08;通常是工作目錄或上一次提交的版本&#xff09;。 b/1.py&#xff1a;表示新版本的文件路徑&#xff08;通常是暫存…

STM32實現四自由度機械臂(SG90舵機)多功能控制(軟件篇freertos)

書接上回的硬件篇STM32控制四自由度機械臂&#xff08;SG90舵機&#xff09;&#xff08;硬件篇&#xff09;&#xff08;簡單易復刻&#xff09;-CSDN博客 此時硬件平臺已經搭建完畢&#xff0c;軟件總共設計了三種模式&#xff0c;分別為 模式1&#xff1a;搖桿&藍牙模…

docker常用命令集(2)

接前一篇文章&#xff1a;docker常用命令集&#xff08;1&#xff09; 本文內容參考&#xff1a; Docker build 命令 | 菜鳥教程 docker基礎(二)之docker build-CSDN博客 Docker push 命令 | 菜鳥教程 Docker pull 命令 | 菜鳥教程 特此致謝&#xff01; 3. docker build …

舒爾特方格訓練小游戲流量主微信小程序開源

功能特點 游戲核心功能&#xff1a; 隨機生成55舒爾特方格 按順序點擊數字1-25 實時計時和嘗試次數統計 錯誤點擊反饋&#xff08;視覺和觸覺&#xff09; 數據統計&#xff1a; 記錄每次完成時間 保存歷史最佳成績 保存最近5次嘗試記錄 統計嘗試次數&#xff08;錯誤點擊&…

在Spring Boot 開發中 Bean 的聲明和依賴注入最佳的組合方式是什么?

在Spring Boot 開發中&#xff0c;社區和 Spring 官方已經形成了一套非常明確的最佳實踐。這個黃金組合就是&#xff1a; Bean 聲明&#xff1a;使用構造型注解&#xff08;Stereotype Annotations&#xff09;&#xff0c;如 Service, Repository, Component 等。依賴注入&…

Oxygen XML Editor 26.0編輯器

Oxygen XML Editor 26.0編輯器 歡迎使用Oxygen XML Editor 26.0編輯器準備工作安裝javajdk安裝jdk驗證Oxygen XML Editor 26.0安裝歡迎使用Oxygen XML Editor 26.0編輯器 準備工作安裝java Java官網下載地址:https://www.oracle.com/java/technologies/ Oxygen XML Editor 2…

AWS Lambda Container 方式部署 Flask 應用并通過 API Gateway 提供訪問

前言 一年前寫過一篇 Lambda 運行 Flask 應用的博文: https://lpwmm.blog.csdn.net/article/details/139756140 當時使用的是 ZIP 包方式部署應用代碼, 對于簡單的 API 開發用起來還是可以的, 但是如果需要集成到 CI/CD pipeline 里面就有點不太優雅. 本文將介紹使用容器方式…

React虛擬DOM的進化之路

引言 在Web前端開發中&#xff0c;用戶交互的流暢性和頁面性能一直是核心挑戰。早期&#xff0c;開發者直接操作真實DOM&#xff08;Document Object Model&#xff09;時&#xff0c;頻繁的重排&#xff08;reflow&#xff09;和重繪&#xff08;repaint&#xff09;導致性能…

(7)機器學習小白入門 YOLOv:機器學習模型訓練詳解

— (1)機器學習小白入門YOLOv &#xff1a;從概念到實踐 (2)機器學習小白入門 YOLOv&#xff1a;從模塊優化到工程部署 (3)機器學習小白入門 YOLOv&#xff1a; 解鎖圖片分類新技能 (4)機器學習小白入門YOLOv &#xff1a;圖片標注實操手冊 (5)機器學習小白入門 YOLOv&#xff…

初識MySQL(三)之主從配置與讀寫分離實戰

主重復制 主重復制原理master開啟二進制日志記錄slave開啟IO進程&#xff0c;從master中讀取二進制日志并寫入slave的中繼日志slave開啟SQL進程&#xff0c;從中繼日志中讀取二進制日志并進行重放最終&#xff0c;達到slave與master中數據一致的狀態&#xff0c;我們稱作為主從…

RabbitMQ面試精講 Day 2:RabbitMQ工作模型與消息流轉

【RabbitMQ面試精講 Day 2】RabbitMQ工作模型與消息流轉 開篇 歡迎來到"RabbitMQ面試精講"系列的第2天&#xff0c;今天我們將深入探討RabbitMQ的工作模型與消息流轉機制。這是面試中最常被問到的核心知識點之一&#xff0c;90%的RabbitMQ面試都會涉及消息流轉流程…