清華團隊提出時序聚類數據庫內高效方案,已被SIGMOD 2025接收

時間序列聚類是挖掘物聯網等場景下頻繁模式的關鍵技術,但現有SOTA方法(如K-Shape)面臨兩大瓶頸:1)傳統數據庫因LSM-Tree存儲導致時間戳無序,難以直接支持高效聚類;2)跨時間范圍查詢需重復計算,效率低下。

清華大學團隊創新提出K-Shape數據庫內適配方案,首次實現時序聚類與存儲引擎深度協同。針對長序列性能問題,進一步提出Medoid-Shape及其數據庫優化版本,在保持精度的同時顯著提速。實驗驗證,該方案在密集寫入、多范圍查詢場景下性能優勢突出,為時序分析開辟新路徑!

我花了很長時間整理出了十幾篇【時間序列+聚類】的相關論文,希望能幫到大家。

感興趣的可以? [絲 xin]? 我~~

在這里插入圖片描述

?

【論文標題】In-Database Time Series Clustering

【論文鏈接】https://dl.acm.org/doi/10.1145/3709696

研究背景

時間序列聚類是一種重要的數據分析技術,廣泛應用于多種領域。現有的最先進的(SOTA)時間序列聚類方法 K-Shape 能夠高效地通過形狀對時間序列進行聚類,并且其準確性顯著優于其他方法。然而,K-Shape 在物聯網(IoT)場景中面臨挑戰,因為物聯網數據具有到達無序和大量數據存儲的特點。因此,數據庫內時間序列聚類所面臨如下挑戰:

  • 由于延遲到達,時間序列通常在 LSM 樹數據庫中以無序方式存儲,而現有的聚類方法要求數據按時間順序排列。按時間順序對數據進行排序會帶來額外的預處理時間開銷。

  • 對于不同的任務,可能需要使用不同的時間過濾器反復執行聚類操作。每次 K-Shape 都需要從頭開始聚類,效率低下。

  • K-Shape 在處理長子序列時效率低下,因為其復雜度與子序列長度成正比。

核心貢獻

本研究致力于解決上述三個挑戰。貢獻可總結如下:

  • 數據庫內K-Shape:提出了對現有聚類方法K-Shape的數據庫內適應版本,利用數據庫中預計算的頁面級元數據進行加速。

  • Medoid-Shape:提出了一種新的聚類方法Medoid-Shape,通過用近似的中心點(medoid)代替K-Shape中的形狀提取步驟,避免了耗時的特征向量分解。

  • 數據庫內Medoid-Shape:將 Medoid-Shape方法適應到數據庫內場景,進一步提高了聚類效率。

  • 實驗驗證:通過廣泛的實驗驗證了所提方法的高效性和有效性。

方法解析

在這里插入圖片描述

?

數據庫內K-Shape

本文利用 LSM-Tree 的分層文件結構,通過多版本合并機制直接在數據庫內對無序數據按時間范圍排序,避免全量數據加載和外部排序開銷。

  1. 單頁元數據:對每頁內的完整子序列運行 K-Shape,存儲聚類中心、成員子序列的和矩陣(用于形狀提取)、平均類內距離。不完整子序列單獨存儲,留待后續拼接。

  2. 多頁聚合:相鄰頁:直接合并相似聚類中心,更新和矩陣(無需重新計算形狀)。 互補頁:將不完整子序列拼接為完整子序列,視為新頁后合并。 重疊頁:加載沖突數據點更新和矩陣,重新提取中心形狀。

  3. 最終聚類:所有頁聚合后,從全局和矩陣一次性提取最終聚類中心。 在這里插入圖片描述

Medoid-Shape

K-Shape 基于 SBD(Shape-Based Distance)和迭代質心優化的復雜度為 ( 為序列數, 為序列長度),難以處理長序列。本文放棄傳統質心迭代優化,改用聚類內真實存在的 Medoid 作為代表,避免特征向量分解的高計算量。

  1. 貪心算法:迭代選擇樣本子序列,每次選擇能使目標函數提升最大的子序列加入中心集。將長序列劃分為固定長度的子窗口,對每個子窗口進行局部形狀對齊,降低全局對齊的計算復雜度。

  2. 近似評估:先對子序列做快速近似聚類,用聚類中心近似代表全體子序列。計算目標函數時,僅需比較中心與候選 Medoids,大幅減少計算量。

在這里插入圖片描述

?

數據庫內Medoid-Shape

本文在 LSM-Tree 的 Compaction 階段預計算不同時間粒度的 Medoid 候選集,存儲為元數據,加速查詢時候選集篩選。基于時間范圍查詢條件,按層級索引快速定位相關數據分片,動態剔除不相關子序列的 Medoid 計算。

  1. 單頁元數據:每頁預計算近似聚類中心、類內平均距離、類大小。不存儲和矩陣,節省空間。

  2. 多頁聚合:相鄰/互補頁:按距離合并相似聚類中心,加權更新類內距離。重疊頁:直接更新沖突子序列所屬的聚類中心。

  3. 最終聚類:將所有頁的近似中心作為候選,運行貪心算法選出最終 Medoids。

在這里插入圖片描述

?

實驗驗證

不同數據負載下的可擴展性

在這里插入圖片描述 子序列數量的可擴展性。上圖展示了在不同子序列數量 N 下的時間成本。在所有數據規 模下,本文的數據庫內方法表現最佳。

在這里插入圖片描述 子序列長度的可擴展性。上圖展示了不同子序列長度下的時間成本。隨著子序列長度的增加,K-Shape 和基于數據庫的 K-Shape 的時間成本迅速增加,這是由于形狀提取過程耗時。然而,Medoid-Shape 和基于數據庫的 Medoid-Shape 在子序列長度較大時,分別表現出高達 1 個和 2 個數量級的改進,所需的時間顯著減少。

不同配置下的效率

在這里插入圖片描述 隨著補充頁面數量的增加,數據庫內方法的時間成本略有增加,因為需要額外處理新形成的子序列。然而,這些方法仍然優于傳統方法。

在這里插入圖片描述 in-database K-Shape 的時間成本隨著重疊頁面數量的增加而迅速增加,因為每次處理重疊頁面都需要進行形狀提取。相比之下,in-database Medoid-Shape 的時間成本增加較少,因為它可以在線性時間內處理重疊頁面。

在這里插入圖片描述 隨著重疊長度的增加,數據庫內方法的時間成本略有增加,因為需要更多時間來處理重疊部分。即使在極端情況下(所有頁面都重疊,且重疊長度達到10,000個數據點),數據庫內方法仍然優于傳統方法。

總結

在本文中,我們研究了數據庫內的時間序列聚類,以支持在基于 LSM 樹的時間序列數據庫中對不同時間范圍的時間序列進行反復聚類。現有的數據庫外方法在處理大量物聯網數據以及頻繁的具有不同時間過濾器的聚類查詢時,效率低下。因此,我們提出利用數據庫特性在數據庫內高效地對時間序列進行聚類。具體而言,我們設計了一種基于數據庫的 SOTA 時間序列聚類方法 K-Shape 的適應版本。為了解決 K-Shape 在處理長子序列時效率低下的問題,我們提出了 Medoid-Shape 以及相應的數據庫內 Medoid-Shape 適應版本以進一步加速。我們推導了幾個命題以確保在數據庫內提議的多頁聚合。我們還證明了 Medoid-Shape 的有保證的誤差界限,以確保其有效性。值得注意的是,我們在 Apache IoTDB(一個開源的商品化基于 LSM 樹的時間序列數據庫)中實現了并部署了所有提議。大量的實驗表明,我們的提議具有更高的效率,且有效性相當。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/81292.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/81292.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/81292.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【阿里云大模型高級工程師ACP學習筆記】2.8 部署模型

一、學習目標 特別說明:這一章節是2025年3月官方重點更新的部分,幾乎對內容重新翻新改造了一遍,重點突出了對于如何結合不同的阿里云產品來部署大模型進行了更加詳細的介紹和對比,這里整理給大家,方便大家參考。 在備考阿里云大模型高級工程師ACP認證的過程中,學習《2.8 …

第T10周:數據增強

🍨 本文為🔗365天深度學習訓練營 中的學習記錄博客🍖 原作者:K同學啊 從 tensorflow.keras 中導入 layers 模塊,包含了常用的神經網絡層,用來搭建模型結構。 檢查并列出系統中可用的物理 GPU 設備&#xff…

uniapp 支付寶小程序自定義 navbar 無效解決方案

如圖: uniapp編譯到支付寶小程序隱藏默認的導航欄失效了 解決方案: 在 pages.json 文件中找到 globalStyle 中加入以下代碼: "mp-alipay": {"transparentTitle": "always","titlePenetrate":…

vue2 el-element中el-select選中值,數據已經改變但選擇框中不顯示值,需要其他輸入框輸入值才顯示這個選擇框才會顯示剛才選中的值

項目場景&#xff1a; <el-table-column label"稅率" prop"TaxRate" width"180" align"center" show-overflow-tooltip><template slot-scope"{row, $index}"><el-form-item :prop"InquiryItemList. …

centos7 離線安裝python3 保留python2

一、事前準備&#xff1a; &#xff08;1&#xff09;查看centos具體版本 cat /etc/redhat-releaseCentOS Linux release 7.4.1708 (Core) &#xff08;2&#xff09;查看linux中當前python版本 centos7 默認安裝python2.7.5 &#xff08;3&#xff09;查看python3的依賴&#…

十三種通信接口芯片——《器件手冊--通信接口芯片》

目錄 通信接口芯片 簡述 基本功能 常見類型 應用場景 詳盡闡述 1 RS485/RS422芯片 1. RS485和RS422標準 2. 芯片功能 3. 典型芯片及特點 4. 應用場景 5. 設計注意事項 6. 選型建議 2 RS232芯片 1. RS232標準 2. 芯片功能 3. 典型芯片及特點 4. 應用場景 5. 設計注意事項 6…

2025年RAG技術發展現狀分析

2025年&#xff0c;大模型RAG&#xff08;檢索增強生成&#xff09;技術經歷了快速迭代與深度應用&#xff0c;逐漸從技術探索走向行業落地&#xff0c;同時也面臨安全性和實用性的新挑戰。以下是其發展現狀的綜合分析&#xff1a; 一、技術架構的持續演進 從單一到模塊化架構 …

case和字符串操作

使用if選擇結構 if [];then elif [];then #注意這個地方,java是else if else ; fi 使用for循環結構 使用for循環&#xff0c;語法結構如下所示&#xff1a; for 變量名 in 值1 值2 值3 #值的數量決定循環任務的次數 do命令序列 done#循環輸出1到10 for i in {1..10} #注…

Stm32 燒錄 Micropython

目錄 前言 準備工作 開始操作 問題回顧 后記 前言 去年曾經嘗試Pico制作openmv固件&#xff0c;由于知識儲備不夠最后失敗了&#xff0c;留了一個大坑&#xff0c;有了前幾天的基礎&#xff0c;慢慢補齊知識&#xff0c;最近這一周一直在學習如何編譯Stm固件并燒錄到單片機…

鹽化行業數字化轉型規劃詳細方案(124頁PPT)(文末有下載方式)

資料解讀&#xff1a;《鹽化行業數字化轉型規劃詳細解決方案》 詳細資料請看本解讀文章的最后內容。 該文檔聚焦鹽化行業數字化轉型&#xff0c;全面闡述了鹽化企業信息化建設的規劃方案&#xff0c;涵蓋戰略、架構、實施計劃、風險及效益等多個方面&#xff0c;旨在通過數字化…

2025年人工智能火爆技術總結

2025年人工智能火爆技術總結&#xff1a; 生成式人工智能 生成式人工智能可生成高質量的圖像、視頻、音頻和文本等多種內容。如昆侖萬維的SkyReels-V2能生成無限時長電影&#xff0c;其基于擴散強迫框架&#xff0c;結合多模態大語言模型和強化學習等技術&#xff0c;在運動動…

邊緣計算革命:大模型輕量化部署全棧實戰指南

當ResNet-152模型能在樹莓派4B上實現每秒27幀實時推理時&#xff0c;邊緣智能時代真正到來。本文解析從模型壓縮到硬件加速的完整技術棧&#xff0c;實測Transformer類模型在移動端的部署時延可壓縮至16ms&#xff0c;揭示ARM芯片實現INT4量化的工程秘訣與十種典型場景優化方案…

邊緣計算:數字世界的”末梢神經系統”解析-優雅草卓伊凡

邊緣計算&#xff1a;數字世界的”末梢神經系統”解析-優雅草卓伊凡 一、邊緣計算深度解析 1.1 邊緣計算的定義與架構 邊緣計算&#xff08;Edge Computing&#xff09;是一種分布式計算范式&#xff0c;它將數據處理能力從傳統的集中式云數據中心推向網絡邊緣&#xff0c;更…

面試手撕——迭代法中序遍歷二叉樹

思路 訪問順序和處理順序不一致導致迭代法難寫&#xff0c;體現在總要先遍歷根節點&#xff0c;才能訪問左右孩子&#xff0c;用null標記&#xff0c;null標記的節點表示已經訪問過了&#xff0c;下一次可以處理&#xff0c;所以在當前棧頂節點不是null的時候&#xff0c;都要…

AD系列:Windows Server 2025 安裝AD CS角色和頒發證書

什么是 Active Directory 證書服務&#xff1f; Active Directory 證書服務 (AD CS) 是一個 Windows Server 角色&#xff0c;負責頒發和管理在安全通信和身份驗證協議中使用的公鑰基礎結構 (PKI) 證書。 頒發和管理證書 數字證書可用于對電子文檔和消息進行加密和數字簽名&…

kubernetes》》k8s》》Service 、Ingress 區別

K8S>>Service 資料 K8S >>Ingress 資料 Ingress VS Service 物理層數據鏈路層網絡層傳輸層會話層表示層應用層 Ingress是一種用于暴露HTTP和HTTPS路由的資源&#xff0c;它提供了七層&#xff08;應用層&#xff09;的負載均衡功能。Ingress可以根據主機名、…

【java WEB】恢復補充說明

Server 出現javax.servlet.http.HttpServlet", according to the project’s Dynamic Web Module facet version (3.0), was not found on the Java Build Path. 右鍵項目 > Properties > Project Facets。Dynamic Web Module facet version選4.0即可 還需要在serv…

VMware 創建虛擬機+簡易安裝Ubuntu的詳細操作步驟

VMware 創建虛擬機安裝Ubuntu的詳細操作步驟 一、創建虛擬機1.1 點擊創建新的虛擬機1.2 選擇自定義創建虛擬機1.3 選擇虛擬機的硬件兼容性1.4 安裝客戶機操作系統1.5 簡易安裝信息1.6 命名虛擬機名稱1.7 處理器配置1.8 虛擬機內核選擇1.9 網絡類型1.9 選擇I/O 控制器類型1.10 選…

GCC-C語言“自定義段”

一、起因 事情的起因是這樣的,在看別人代碼時,發現了一種很有意思的寫法,因為本人主要是以應用層開發為主,所以對這種寫法還是比較少見的,所以研究了一下,就牽扯出了一些知識點,這里先賣個關子,繼續往下看。 二、經過 發現了一串這樣的代碼 static void do_mac(mcmd_…

【信息系統項目管理師-論文真題】2021上半年論文詳解(包括解題思路和寫作要點)

更多內容請見: 備考信息系統項目管理師-專欄介紹和目錄 文章目錄 試題1:論信息系統項目的合同管理1、寫作要點2、解題思路項目合同管理的過程項目合同主要的條款內容試題2:論信息系統項目的范圍管理1、寫作要點2、解題思路項目范圍管理的過程核心范圍對應的需求跟蹤矩陣項目…