【實戰】deepseek數據分類用戶評論數據

在平時的工作中,我們會遇到數據分類的情況,比如將一些文本劃分為各個標簽。如果人工分類這塊的工作量將是非常大,而且分類數據的準確性也不高。我們需要用到一些工具來實現。提高效率的同時也提高準確率。

1.示例數據

用戶ID

時間戳

評論場景

評論內容

U001

2023/10/1 9:05

電商購物

"剛收到快遞,包裝完好,實物比圖片還漂亮!"

U001

2023/10/3 14:30

電商購物

"用了兩天發現電池續航很差,和宣傳不符,失望。"

U001

2023/10/5 11:15

客服溝通

"客服很快解決了問題,補償了優惠券,態度點贊!"

U002

2023/10/2 18:20

社交媒體

"今天和朋友聚餐,餐廳氛圍超棒,但菜品有點咸。"

U003

2023/10/4 10:00

旅行預訂

"航班延誤了3小時,機場服務混亂,體驗極差!"

U003

2023/10/4 15:45

旅行預訂

"酒店免費升級了海景房,意外驚喜!"

2.數據分析

數據清洗

通過python工具去除文字中的特殊符號。

安裝依賴

pip install pandas snownlp matplotlib openpyxl jinja2

代碼實戰

import pandas as pdfrom snownlp import SnowNLPimport matplotlib.pyplot as pltfrom datetime import datetime# 1. 數據加載df = pd.read_excel("數據分析.xlsx", sheet_name="Sheet1”)# 2. 情緒分析函數(使用SnowNLP中文情感分析)def classify_sentiment(text):score = SnowNLP(text).sentimentsif score > 0.6:return ("積極", score)elif score < 0.4:return ("消極", score)else:return ("中性", score)# 應用情緒分類df[["情緒標簽", "情緒強度"]] = df["評論內容"].apply(lambda x: pd.Series(classify_sentiment(x)))# 3. 生成統計報告report = df.groupby("情緒標簽").agg(評論數量=("用戶ID", "count"),用戶數=("用戶ID", pd.Series.nunique),平均情緒強度=("情緒強度", "mean")).reset_index()# 4. 用戶情緒軌跡分析user_timelines = []for uid, group in df.groupby("用戶ID"):timeline = group.sort_values("時間戳").reset_index(drop=True)user_timelines.append({"用戶ID": uid,"情緒變化序列": " → ".join(timeline["情緒標簽"]),"關鍵轉折點": timeline.iloc[[0, -1]][["時間戳", "情緒標簽"]].to_dict("records")})# 5. 可視化生成# 設置matplotlib的字體配置plt.rcParams['axes.unicode_minus'] = False? # 解決負號 '-' 顯示為方塊的問題plt.rcParams['font.family'] = 'Kaiti SC'? # 可以替換為其他字體plt.figure(figsize=(12, 6))# 情緒分布餅圖ax1 = plt.subplot(121)df["情緒標簽"].value_counts().plot.pie(autopct="%1.1f%%", ax=ax1)ax1.set_title("情緒分布比例")# 時間線示例(U001)ax2 = plt.subplot(122)u001 = df[df["用戶ID"] == "U001"].sort_values("時間戳")ax2.plot(u001["時間戳"], u001["情緒強度"], marker="o", linestyle="--")ax2.set_title("U001情緒波動趨勢")plt.xticks(rotation=45)plt.tight_layout()plt.savefig("sentiment_analysis.png", dpi=300)# 6. 導出報告with pd.ExcelWriter("情緒分析報告.xlsx") as writer:df.to_excel(writer, sheet_name="原始數據+情緒標注", index=False)pd.DataFrame(report).to_excel(writer, sheet_name="統計摘要", index=False)pd.DataFrame(user_timelines).to_excel(writer, sheet_name="用戶軌跡", index=False)print("分析完成!生成文件:情緒分析報告.xlsx 和 sentiment_analysis.png")

生成文件

原始數據+情緒標注

統計摘要

用戶分析

分析餅圖

效率提升

目前模型如果在大數據下會比較慢,需要更換模型

# 使用HuggingFace中文模型(需GPU支持)

from transformers import pipelineclassifier = pipeline("text-classification", model="uer/roberta-base-finetuned-jd-binary-chinese")

實時監控集成

# 示例:Flask API端點

from flask import Flask, requestapp = Flask(__name__)@app.route("/predict", methods=["POST"])def predict():text = request.json["text"]return {"sentiment": classify_sentiment(text)}

動態閾值調整

# 基于歷史數據自動校準閾值

def auto_threshold(df):q_low = df["情緒強度"].quantile(0.3)q_high = df["情緒強度"].quantile(0.7)return q_low, q_high

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/73181.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/73181.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/73181.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

技術視角解讀:游戲出海如何借助AWS全球架構突破性能與合規瓶頸

【場景痛點】 某二次元卡牌手游團隊在東南亞市場遭遇聯機延遲投訴率高達37%&#xff0c;日本地區因數據合規問題面臨下架風險。在傳統IDC架構下&#xff0c;運維團隊需要同時管理3個區域的物理服務器&#xff0c;版本更新耗時長達6小時。 【技術架構升級】 通過AWS Local Zones…

【JavaEE】網絡編程socket

1.????前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; Hello, Hello~ 親愛的朋友們&#x1f44b;&#x1f44b;&#xff0c;這里是E綿綿呀????。 如果你喜歡這篇文章&#xff0c;請別吝嗇你的點贊????和收藏&#x1f4d6;&#x1f4d6;。如果你對我的…

第16屆藍橋杯單片機4T模擬賽三

本次模擬賽涉及的模塊&#xff1a;基礎三件套&#xff08;Led&Relay&#xff0c;按鍵、數碼管&#xff09; 進階單件套&#xff08;pcf8591的AD模塊&#xff09; 附件&#xff1a; 各模塊底層代碼在文章的結尾 一、數碼管部分 1.頁面1 頁面1要顯示的格式是&#xff1a; …

網絡華為HCIA+HCIP IPv6

目錄 IPv4現狀 IPv6基本報頭 IPv6擴展報頭 IPv6地址 IPv6地址縮寫規范 ?編輯 IPv6地址分配 IPv6單播地址分配 IPv6單播地址接口標識 IPv6常見單播地址 - GUA &#xff08;2 / 3 開頭&#xff09; IPv6常見單播地址 - ULA IPv6常見單播地址 - LLA IPv6組播地…

基于YOLOv8深度學習的智能小麥害蟲檢測識別系統

作者簡介&#xff1a;Java領域優質創作者、CSDN博客專家 、CSDN內容合伙人、掘金特邀作者、阿里云博客專家、51CTO特邀作者、多年架構師設計經驗、多年校企合作經驗&#xff0c;被多個學校常年聘為校外企業導師&#xff0c;指導學生畢業設計并參與學生畢業答辯指導&#xff0c;…

Mac:Maven 下載+安裝+環境配置(詳細講解)

&#x1f4cc; 下載 Maven 下載地址&#xff1a;https://maven.apache.org/download.cgi &#x1f4cc; 無需安裝 Apache官網下載 Maven 壓縮包&#xff0c;無需安裝&#xff0c;下載解壓后放到自己指定目錄下即可。 按我自己的習慣&#xff0c;我會在用戶 jane 目錄下新建…

XSS-labs(反射型XSS) 靶場 1-13關 通關

目錄 前言 XSS漏洞概述 XSS漏洞分類 通關日記 level1 分析 解題 ?level2 分析 解題 方法一&#xff1a;閉合標簽 方法二&#xff1a;閉合雙引號 level3 分析 解題 level4 分析 解題 level5 分析 解題 level6 分析 解題 level7 分析 解體 level8 …

GPT-5 將免費向所有用戶開放?

GPT-5 將免費向所有用戶開放&#xff1f; 硅谷知名分析師 Ben Thompson 最近與 OpenAI CEO Sam Altman 進行了一場深度對談&#xff0c;其中Sam Altman透漏GPT-5將免費向大家發放。 OpenAI 這波操作可不是一時沖動&#xff0c;而是被逼出來的。DeepSeek 這個新秀橫空出世&am…

【雜記二】git, github, vscode等

一、前言 暫時空著... 二、git 2.1 可能的疑問 1. VSCode 項目名和 GitHub 倉庫名是否需要一致&#xff1f; 不需要一致。 VSCode 項目名&#xff08;也就是你本地的文件夾名字&#xff09;和 GitHub 倉庫名可以不一樣。 Git 是一個分布式版本控制系統&#xff0c;它主要關…

數學愛好者寫的編程系列文章

作為一個數學愛好者&#xff0c;我大學讀的專業卻不是數學專業&#xff0c;而是跟計算機有關的專業。原本我對編程一竅不通&#xff0c;平時上課也是在看數學文獻&#xff0c;作業基本靠同學&#xff0c;考試及格就行。不過后來因為畢業的壓力&#xff0c;我還是擁抱編程了&…

FPGA 以太網通信(四)網絡視頻傳輸系統

一、網絡視頻傳輸系統 網絡視頻傳輸系統使用ov5640攝像頭采集數據&#xff0c;通過組件UDP幀將視頻數據實時傳輸給上位機。 ov5640視頻傳輸帶寬 像素分辨率設為640x480&#xff0c;幀率設為60幀&#xff0c;像素格式為RGB565&#xff0c;傳輸帶寬為 640 x 480 x 16bit x 60 fps…

[leetcode]1631. 最小體力消耗路徑(bool類型dfs+二分答案/記憶化剪枝/并查集Kruskal思想)

題目鏈接 題意 給定 n m n\times m nm地圖 要從(1,1) 走到 (n,m) 定義高度絕對差為四聯通意義下相鄰的兩個點高度的絕對值之差 定義路徑的體力值為整條路徑上 所有高度絕對差的max 求所有路徑中 最小的路徑體力值是多少 方法1 這是我一開始自己寫的記憶化剪枝 比較暴力 時…

DeepSeek寫打臺球手機小游戲

DeepSeek寫打臺球手機小游戲 提問 根據提的要求&#xff0c;讓DeepSeek整理的需求&#xff0c;進行提問&#xff0c;內容如下&#xff1a; 請生成一個包含以下功能的可運行移動端打臺球小游戲H5文件&#xff1a; 要求 可以重新開始游戲 可以暫停游戲 有白球和其他顏色的球&am…

webpack使用詳細步驟

項目描述 本項目 webpack 的基本使用。 webpack 官方&#xff1a;https://webpack.docschina.org/concepts/ Element-plus 官方&#xff1a;https://element-plus.sxtxhy.com/zh-CN/ Vue3 官方&#xff1a;https://cn.vuejs.org/ 項目組成明細 每個步驟完成后重新執行 npm run …

【STM32實物】基于STM32的太陽能充電寶設計

基于STM32的太陽能充電寶設計 演示視頻: 基于STM32的太陽能充電寶設計 硬件組成: 系統硬件包括主控 STM32F103C8T6、0.96 OLED 顯示屏、蜂鳴器、電源自鎖開關、溫度傳感器 DS18B20、繼電器、5 V DC 升壓模塊 、TB4056、18650鋰電池、9 V太陽能板、穩壓降壓 5 V三極管。 功能…

【記一次】AI微調訓練步數計算方式

llama微調訓練步數計算方式,以下數據為假設 一、關鍵參數解析 總樣本數&#xff1a;Num examples 1,047 表示訓練數據集包含 1,047 個樣本。 訓練輪數&#xff1a;Num Epochs 300 表示整個訓練集將被遍歷 300 次。 總批次大小&#xff1a;Total train batch size 80 表示…

python-selenium 爬蟲 由易到難

本質 python第三方庫 selenium 控制 瀏覽器驅動 瀏覽器驅動控制瀏覽器 推薦 edge 瀏覽器驅動&#xff08;不容易遇到版本或者兼容性的問題&#xff09; 驅動下載網址&#xff1a;鏈接: link 1、實戰1 &#xff08;1&#xff09;安裝 selenium 庫 pip install selenium&#…

yaffs

YAFFS&#xff08;Yet Another Flash File System&#xff09;是專為NAND閃存設計的日志結構文件系統&#xff0c;其核心原理圍繞NAND閃存的特性優化數據管理。以下是其關鍵原理的詳細說明&#xff1a; 1. NAND閃存適配 寫入限制&#xff1a;NAND閃存需按頁寫入&#xff08;通…

git的底層原理

git的底層原理 三段話總結git&#xff0c; 1. 工作原理&#xff1a;git管理是一個DAG有向無環圖&#xff0c;HEAD指針指向branch或直接指向commit&#xff0c;branch指向commit&#xff0c;commit指向tree&#xff0c;tree指向別的tree或直接指向blob。 2. git所管理的一個目錄…

【計算機網絡原理】選擇題+簡答題

文章目錄 選擇題網絡基礎IP網絡拓撲 OSI七層模型協議HDLCTCP/IP 交換技術網絡安全數字簽名 算法與策略 簡答題UDPTCP 選擇題 網絡基礎 下列域名中&#xff0c;屬于國際頂級域名的是&#xff08;&#xff09; A. us B. tom C. edu D. int 下列關于光纖傳輸介質的敘述中錯誤的是…