Datawhale AI 夏令營:用戶洞察挑戰賽 Notebook(2)

針對文本聚類優化

優化TF-IDF特征工程


# 調整ngram_range:設置為(1, 2),捕捉單字和雙字詞(如“不錯”“不滿意”)。
# 限制特征數量:通過max_features=5000保留高信息密度特征,降低維度。
# 過濾低頻/高頻詞:設置min_df=2(過濾僅出現1次的詞)和max_df=0.8(過濾出現超過80%樣本的通用詞)。from sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer(ngram_range=(1, 2),  # 包含單字和雙字詞max_features=5000,   # 最大特征數min_df=2,            # 最小文檔頻率(出現至少2次)max_df=0.8,          # 最大文檔頻率(不超過80%樣本)token_pattern=r"\b\w+\b"  # 匹配單詞邊界(兼容中文)
)

動態選擇最佳簇數 n_clusters

import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 提取TF-IDF特征
X = tfidf.fit_transform(comments_to_cluster)# 輪廓系數:尋找最高得分
best_k = 0
best_silhouette = -1for k in range(5, 9):kmeans = KMeans(n_clusters=k, random_state=42)labels = kmeans.fit_predict(X)score = silhouette_score(X, labels)if score > best_silhouette:best_silhouette = scorebest_k = k

改進聚類算法

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import Normalizer  # 新增歸一化步驟
from sklearn.cluster import KMeans
from sklearn.pipeline import make_pipeline# 構建管道:TF-IDF → 歸一化 → KMeans
kmeans_predictor = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, # 分詞器ngram_range=(1, 2),  # 包含單字和雙字詞max_features=5000,   # 最大特征數min_df=2,            # 最小文檔頻率(出現至少2次)max_df=0.8,          # 最大文檔頻率(不超過80%樣本)token_pattern=r"\b\w+\b"  # 匹配單詞邊界(兼容中文)),Normalizer(norm="l2"),  # 歸一化向量長度為1(L2范數)KMeans(n_clusters=best_k, random_state=42, n_init=10)  # 使用標準KMeans
)# 訓練與預測(保持原有邏輯)
comments_data_clean = comments_data[comments_data["sentiment_category"].isin([1, 3])]
kmeans_predictor.fit(comments_data_clean["comment_text"])
kmeans_cluster_label = kmeans_predictor.predict(comments_data_clean["comment_text"])kmeans_top_word = []
tfidf_vectorizer = kmeans_predictor.named_steps['tfidfvectorizer']
kmeans_model = kmeans_predictor.named_steps['kmeans']
feature_names = tfidf_vectorizer.get_feature_names_out()
cluster_centers = kmeans_model.cluster_centers_
for i in range(kmeans_model.n_clusters):top_feature_indices = cluster_centers[i].argsort()[::-1]top_word = ' '.join([feature_names[idx] for idx in top_feature_indices[:top_n_words]])kmeans_top_word.append(top_word)comments_data.loc[comments_data["sentiment_category"].isin([1, 3]), "positive_cluster_theme"] = [kmeans_top_word[x] for x in kmeans_cluster_label]

提交得分

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/88275.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/88275.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/88275.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【博主親測可用】PS2025最新版:Adobe Photoshop 2025 v26.8.1 激活版(附安裝教程)

軟件簡介 Adobe Photoshop 2025是Adobe公司開發的一款圖像處理軟件。作為行業標準的數字圖像編輯工具,其核心定位是創意設計、后期攝影、3D建模和AI驅動創作,適用于專業設計師、攝影師、插畫家和多媒體創作者。界面設計簡單直觀,易于操作&…

unity A星尋路

算法 fCost gCost hCost gCost 是當前節點到移動起始點的消耗,hCost是當前節點到終點的消耗 網格為變成為1的矩形,左右相鄰的兩個網格直接的gCost為1,斜對角相鄰的兩個網格的gCost為1.4 hCost 當前網格到終點網格的 水平距離 垂直距離 比如…

十一 Javascript的按值傳遞

你將知道:“傳遞” 值是什么意思什么是按值傳遞傳遞物品JavaScript 中沒有傳遞引用!介紹當需要在 JavaScript 中分配或簡單地將一個值傳遞給其他標識符時,我們就會看到通常所說的 按值傳遞 。嚴格來說,JavaScript 中傳遞值的方式只…

SpringBoot ThreadLocal 全局動態變量設置

需求說明: 現有一個游戲后臺管理系統,該系統可管理多個大區的數據,但是需要使用大區id實現數據隔離,并且提供了大區選擇功能,先擇大區后展示對應的數據。需要實現一下幾點: 1.前端請求時,area_i…

如何解決pip安裝報錯ModuleNotFoundError: No module named ‘logging’問題

【Python系列Bug修復PyCharm控制臺pip install報錯】如何解決pip安裝報錯ModuleNotFoundError: No module named ‘logging’問題 摘要: 在使用 PyCharm 2025 控制臺通過 pip install 安裝第三方庫時,常會遇到諸如 ModuleNotFoundError: No module name…

打破技術債困境:從“保持現狀”到成為變革的推動者

相信許多在科技行業的同行都面臨過類似的挑戰:明知系統存在“技術債”,卻因為溝通成本、團隊壓力和短期KPI等原因,難以推動改進,最終陷入“想做卻不敢做”的矛盾心態。這不僅影響個人心情,更重要的是,它像一…

Spring Boot 整合 RabbitMQ

Spring Boot 整合 RabbitMQ 一、概述:RabbitMQ 是什么? 你可以把 RabbitMQ 想象成一個「快遞中轉站」。 比如你在網上買了一本書,賣家(生產者)把包裹(消息)交給快遞站(RabbitMQ&…

Unity Demo-3DFarm詳解-其一

我們來拆解一個種田游戲,這個游戲種類內部的功能還是比較模板化的,我們來一點點說。我們大體上分為這么幾個部分:農場運營玩法角色與玩家互動物品與背包存檔和進度管理用戶界面系統農場運營可以大體上分為:種植系統:支…

esp8266驅動下載

問題描述:esp8266插上電腦,設備管理器無法識別,顯示為USB serial(黃色感嘆號) 首先確認你的esp8266是不是 CH340 系列的 USB 轉串口芯片 CH340驅動下載地址

大語言模型的極限:知識、推理與創造力的邊界探析

大語言模型的極限:知識、推理與創造力的邊界探析 人工智能領域的快速發展推動了大語言模型(LLM)的廣泛應用,這些模型在文本生成、知識問答和創意表達等方面展現出前所未有的能力。然而,隨著應用場景的深化,…

git中的fork指令解釋

在Git中,Fork 是指將他人的代碼倉庫(Repository)復制到自己的賬戶下,創建一個完全獨立的副本[1][2]。以下是關于Fork的詳細說明: Fork的定義與核心作用 定義:Fork是代碼托管平臺(如GitHub&#…

iPhone 抓包工具有哪些?多工具對比分析優缺點

iOS 平臺一向以安全性著稱,這也使得對其進行網絡調試和抓包變得異常困難。相比安卓,iPhone 抓包難點主要在以下幾點: 系統限制代理設置的靈活性無法自由安裝根證書抓包常涉及 HTTPS 解密與雙向認證破解普通用戶設備無 root 或越獄權限 因此&a…

使用 libcu++ 庫

文章目錄使用 libcu 庫安裝與設置基本組件1. 原子操作2. 內存管理3. 類型特性4. 同步原語編譯選項注意事項使用 libcu 庫 libcu 是 NVIDIA 提供的 CUDA C 標準庫實現,它為 CUDA 開發者提供了類似 C 標準庫的功能和接口。以下是使用 libcu 的基本指南: …

[Leetcode] 預處理 | 多叉樹bfs | 格雷編碼 | static_cast | 矩陣對角線

魔術排列模擬一個特定的洗牌過程,并找到使得經過一系列洗牌和取牌操作后,能夠與給定的目標數組target相匹配的最小k值核心思想: 預處理初始排列:從一個按順序排列的數組(例如,{1, 2, 3, ..., n})開始。洗牌…

【技術追蹤】SynPo:基于高質量負提示提升無訓練少樣本醫學圖像分割性能(MICCAI-2025)

SAM 新用法,無需訓練,利用高質量負提示提升分割性能~ 論文:SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative Prompts 代碼:https://liu-yufei.github.io/synpo-project-page/ 0、摘要 大…

深入理解機器學習

一.前言本章節開始來講解一下機器學習的知識,本期作為一個了解就大概介紹一下,我們不會從機器學習基礎開始介紹,但是后面會來補充,隨著ai的不斷發展,機器學習在ai的領域里面的占比越來約少,我們還是以應用為…

數據結構 順序表(1)

目錄 1.線性表 2.順序表 1.線性表 線性表(linear list)是n個具有相同特性的數據元素的有限序列。線性表是一種在實際中廣泛使用 的數據結構,常見的線性表:順序表、鏈表、棧、隊列、字符串… 線性表在邏輯上是線性結構&#…

openssl 生成國密證書

openssl生成證書生成CA私鑰 openssl ecparam -genkey -name SM2 -out ca.key.pem -noout證書請求 openssl req -new -key ca.key.pem -out ca.cert.req -subj “/CNrtems-strongswan-CA”生成證書 openssl x509 -req -days 3650 -in ca.cert.req -signkey ca.key.pem -out ca.c…

系統架構設計師論文分享-論分布式事務技術及其應用

我的軟考歷程 摘要 2023年9月,我所在的公司通過了研發紗線MES系統的立項,該系統為國內紗線工廠提供SAAS服務,旨在提高紗線工廠的數字化和智能化水平。我在該項目中擔任系統架構設計師一職,負責該項目的架構設計工作。本文結合我…

東土科技智能塔機系統亮相南京,助力智能建造高質量發展

近日,由南京市城鄉建設委員會、江蘇省土木建筑學會主辦的“無人駕駛智能塔機觀摩會”,在中建三局一公司南京揚子江智慧中心項目現場成功舉辦。作為全國首批智能建造試點城市,南京市已出臺20余項支持政策,落地93個試點項目&#xf…