2024 年度時序數據庫 IoTDB 論文總結

論文成果總結

2024 年度，時序數據庫?IoTDB 在數據庫領域 CCF-A 類國際會議上共發表論文 8 篇，包括：SIGMOD 3 篇、VLDB 3 篇、ICDE 2 篇，涵蓋存儲、引擎、查詢、分析等方面。

2024 最后一天，我們將分類盤點 IoTDB 本年的論文成果及核心技術創新內容：

在存儲方面，Apache TsFile 作為一種專為物聯網時間序列數據設計的文件格式，通過優化數據組織和索引結構，實現了高效的數據存儲和查詢。REGER 方法通過重排序時間序列數據點來優化回歸編碼，旨在降低存儲成本。

在引擎方面，針對 Apache IoTDB 中的 LSM-tree 架構，我們提出了多列合并（MCC）策略，有效解決了空間放大問題。通過 Raft 共識協議在 Apache IoTDB 中的系統性調優，提升高吞吐量物聯網場景下的系統性能。

在查詢方面，我們提出了版本化的時間序列數據模型，以及針對版本化數據的查詢優化技術，提高了數據的查詢效率。此外，還提出了隨機摘要方法來確定精確分位數，為數據分析提供了高效解決方案。

在分析方面，LSMOD 方法優化了 Apache IoTDB 中的異常點查詢，提高了異常檢測的效率。M4-LSM 方法結合了 M4 采樣方法和 LSM-Tree 存儲結構，優化了時間序列數據的可視化性能。

這些創新技術為物聯網應用提供了強有力的支持，并有望在未來發揮更加重要的作用。

存儲

VLDB 2024: Apache TsFile: An IoT-native Time Series File Format

🎯Apache TsFile：物聯網時間序列數據的專屬文件格式

??第一作者：趙鑫

在物聯網（IoT）領域，時間序列數據扮演著至關重要的角色。這些數據記錄了設備在特定時間點的狀態或測量值，對于設備監控、預測分析以及決策支持等應用具有重要意義。然而，傳統的文件格式在處理物聯網時間序列數據時存在諸多不足，如性能瓶頸、存儲冗余等問題。為了解決這些挑戰，Apache TsFile 應運而生。

Apache TsFile 是一種專門為物聯網時間序列數據設計的文件格式。它充分考慮了物聯網數據的特性，如設備眾多、數據量大、時間戳有序等，從而實現了高效的數據組織和存儲。TsFile 將數據按照設備進行劃分，每個設備的數據被組織成一系列的數據塊（Chunk），每個數據塊包含該設備在特定時間段內的數據。這種組織方式不僅提高了數據的壓縮效率，還使得數據在設備級別和文件系統塊級別上具有良好的局部性。

除了數據組織方式的優化，TsFile 還采用了高效的索引結構來加速數據查詢。它基于 B 樹實現了索引區域，能夠快速地根據設備 ID、時間范圍或值范圍等查詢條件定位到數據區域中的具體位置。此外，TsFile 還提供了豐富的 API 接口，方便用戶進行數據的寫入、讀取和查詢等操作。

在性能評估方面，Apache TsFile 與其他常用的文件格式（如 Parquet、Arrow）進行了對比。實驗結果表明，TsFile 在存儲空間、寫入速度和查詢延遲等方面均表現出色，特別是在處理大規模物聯網時間序列數據時，其性能優勢更加顯著。

總之，Apache TsFile 是一種專為物聯網時間序列數據設計的文件格式，它通過優化數據組織和索引結構，實現了高效的數據存儲和查詢，為物聯網應用提供了強有力的支持。

🗂全文鏈接：

https://doi.org/10.14778/3685800.3685827

ICDE 2024: REGER: Reordering Time Series Data for Regression Encoding

🎯REGER：時序數據重排序編碼方法

??第一作者：肖今朝

在當今的大數據時代，時間序列數據無處不在，它們記錄著各種隨時間變化的現象，如股票價格、天氣變化、設備傳感器讀數等。然而，這些數據的存儲和傳輸成本往往很高，特別是在物聯網（IoT）場景中，時間序列數據量巨大且持續增長。為了優化這些時間序列數據的存儲效率，我們提出了一種新的方法——REGER（REGression Encoding with Reordering）。

REGER 方法的核心思想是對時間序列數據進行重排序，以改善回歸編碼的效果。傳統上，時間序列數據是按照時間順序存儲的，但這種方法可能不利于數據的壓縮，因為數據中的波動可能會使得回歸模型難以準確預測。REGER 方法則通過重新排列數據點，使得相鄰的數據點在時間和值上都更加平滑，從而降低了回歸模型預測誤差，進而降低真實值與預測值之間殘差的存儲空間。

具體來說，REGER 方法首先會根據時間序列的時間戳、值和分區進行排序，然后根據啟發式算法選擇對殘差大小影響最大的數據點進行移動，以進一步降低殘差。這個過程中，REGER 會考慮數據點的位置、相鄰數據點的關系以及回歸模型的預測能力等多個因素，以降低編碼時間。通過不斷地迭代和調整，REGER 最終能夠找到一個最優的數據點排序方式，使得編碼后的殘差序列具有更低的比特寬度，從而提高了數據的壓縮比。

總的來說，REGER 方法是一種創新的時間序列數據壓縮技術，它通過重新排序數據點來優化回歸編碼的效果，從而提高了數據的存儲效率。

🗂全文鏈接：

https://doi.org/10.1109/ICDE60146.2024.00100

引擎

VLDB 2024: On Reducing Space Amplification with Multi-Column Compaction in Apache IoTDB

🎯LSM-tree 多元時間序列合并優化

??第一作者：方晨光

在物聯網（IoT）場景中，數據插入和更新頻繁且往往無序，這給存儲系統帶來了很大的挑戰。特別是當這些數據以多列形式存儲時，問題變得更加復雜。Apache IoTDB 是一個開源的時間序列數據庫，它采用了 LSM-tree 架構并支持多列存儲。然而，在這種架構下，數據的無序插入和更新會導致鍵的重復、值的過時以及位圖的重疊，從而加劇了空間放大（SA）問題。

為了解決這個問題，我們提出了多列合并（MCC）策略。MCC 策略考慮了多列數據的獨立插入（無序數據）和更新，旨在通過優化文件選擇來減少 LSM-tree 合并過程中的空間成本。具體來說，MCC 策略會合并具有延遲和更新值的文件，從而消除重復鍵、過時值和重疊位圖所帶來的空間浪費。

在 Apache IoTDB 中，MCC 策略主要在合并選擇器（Compaction Selector）中工作。當某一層級的數據大小超過給定閾值時，就會觸發合并操作。此時，MCC 策略會選擇一定數量的文件進行合并，并將它們移動到下一層級。通過這種方式，MCC 策略能夠顯著降低存儲多列數據時的空間成本。

實驗結果顯示，與傳統的合并方法相比，MCC 策略在減少空間成本方面表現出色。此外，MCC 策略還具有很好的適用性，可以擴展到其他使用 LSM-tree 的時間序列數據庫。這不僅有助于提升存儲效率，還能優化讀取性能，從而滿足物聯網應用對存儲系統的高要求。

總的來說，多列合并技術是 Apache IoTDB 中一個重要的創新點，它有效地解決了空間放大問題，為物聯網應用提供了更加高效、可靠的存儲解決方案。

🗂全文鏈接：

https://doi.org/10.14778/3681954.3681977

ICDE 2024: On Tuning Raft for IoT Workload in Apache IoTDB

🎯Raft 共識協議在物聯網中的優化

??第一作者：江天

隨著物聯網（IoT）技術的飛速發展，IoT 數據庫的重要性日益凸顯。這類數據庫需要處理來自大量設備的數據，確保數據的可靠性和一致性至關重要。Raft 共識算法作為一種分布式一致性算法，被廣泛應用于 IoT 數據庫中以保證數據的高可用性和容錯性。

然而，直接將 Raft 算法應用于 IoT 場景會面臨諸多挑戰。IoT 工作負載具有其獨特性，如高并發性、流量波動性和固定大小的請求等。這些特點使得傳統的 Raft 算法在處理 IoT 數據時可能出現瓶頸，如同步點繁重、資源分配不合理等。

為了克服這些挑戰，我們對 Raft 算法進行了深入研究和調優。通過優化調度、持久化和內存管理等方面，可以顯著提升 Raft 算法在 IoT 數據庫中的性能。例如，在調度方面，采用基于隊列的調度方式可以減少訪問沖突，提高系統并行性；在持久化方面，利用預序列化技術可以減少內存拷貝，提高寫入速度；在內存管理方面，通過專門管理條目內存，可以減少垃圾回收器的壓力，提高內存利用率。

此外，我們還提出了自適應的調度器數量確定方法和基于樣本的壓縮算法選擇方法，以進一步優化 Raft 算法的性能。這些優化措施使得 Raft 算法能夠更好地適應 IoT 工作負載的特點，提高了系統的吞吐量和響應速度。

綜上所述，Raft 共識算法在 IoT 數據庫中的應用與調優是一個不斷發展和完善的過程。通過不斷優化算法的不同方面，我們可以更好地滿足 IoT 數據庫對高性能和高可靠性的需求。

🗂全文鏈接：

https://doi.org/10.1109/ICDE60146.2024.00399

查詢

SIGMOD 2024: Optimizing Time Series Queries with Versions

🎯使用版本標簽優化時序數據查詢

??第一作者：康瑞

在工業互聯網中，時間序列數據扮演著至關重要的角色。這些數據以極高的頻率生成，如每毫秒一次，對數據庫的持久性能提出了嚴峻挑戰。傳統的 B-tree 數據庫在處理這類數據時顯得力不從心，因此，業界引入了日志結構合并樹（LSM-tree）來應對。

LSM-tree 專為持久化鍵值對設計，通過一系列的日志和合并操作來維護數據。在物聯網（IoT）數據庫中，LSM-tree 被廣泛用于存儲 IoT 數據。然而，現實應用中的 IoT 數據往往是多版本的，這增加了 LSM-tree 的復雜性。數據包的延遲、重復以及 IoT 設備的錯誤讀取，都可能導致數據版本的出現。

為了有效管理這些版本化的時間序列數據，我們提出了版本化的時間序列數據模型。該模型通過分支來管理數據的更新，使得每個查詢都能根據查詢表達式或數據塊級別來合并版本化的數據。這不僅提高了數據的準確性，還為查詢優化提供了可能。

現有的時間序列數據庫大多依賴寫前日志（write-ahead logs）來優化查詢，但這種方法在處理版本化數據時并不總是最優的。因此，我們開發了一系列針對版本化數據的查詢優化技術，如快速點過濾、高效范圍過濾以及新的 I/O 權衡平衡策略等。

總的來說，版本化的時間序列數據管理和查詢優化是工業互聯網中的一項重要技術。它通過引入版本控制和先進的查詢優化技術，提高了數據的準確性和查詢效率，為工業物聯網的發展提供了有力支持。

🗂全文鏈接：

https://doi.org/10.1145/3654962

SIGMOD 2024: Determining Exact Quantiles with Randomized Summaries

🎯基于隨機摘要的精確分位數查詢

??第一作者：陳子陵

在數據分析中，分位數是一個非常重要的統計量，它可以幫助我們了解數據的分布情況。然而，對于大規模數據集，計算精確的分位數往往是一項耗時且資源密集的任務。為了解決這一問題，我們提出了一種創新的隨機摘要方法來確定精確分位數。

這種方法的核心在于利用隨機化技術來構建數據的摘要表示。隨機摘要方法不需要對位于外存的整個數據集進行排序或完全加載，而是通過對數據進行多次遍歷，在每次遍歷中建立隨機摘要并使用概率過濾器來逐步縮小分位數的可能范圍。

具體來說，該方法首先根據數據的分布情況，利用隨機化技術生成一個初始的摘要表示。然后，在每次數據遍歷中，它都會應用概率過濾器來更新摘要，并根據摘要中的信息來估計新的分位數可能范圍，即更新概率過濾器。由于概率過濾器的使用，該方法能夠以較高的概率在較少的遍歷次數內確定精確的分位數，這與傳統的確定性方法不同。

值得注意的是，隨機摘要方法不僅提高了計算效率，還具有良好的可擴展性和靈活性。它能在受限內存下處理大規模數據集，并且支持對多個分位數的同時查詢。此外，該方法還可以與其他優化技術相結合，如預計算和并行處理，以進一步提高性能。

總的來說，隨機摘要方法為確定精確分位數提供了一種高效且實用的解決方案。它利用隨機化技術來構建數據的摘要表示，并通過多次遍歷和概率過濾器來逐步縮小分位數的可能范圍。這種方法在數據分析、數據挖掘和機器學習等領域具有廣泛的應用前景。

🗂全文鏈接：

https://doi.org/10.1145/3639280

分析

VLDB 2024: Distance-based Outlier Query Optimization in Apache IoTDB

🎯LSMOD：數據庫原生的時序數據異常檢測

??第一作者：蘇云祥

在時間序列數據分析中，異常檢測是一個重要的任務，它能夠幫助我們識別出數據中的罕見模式或異常行為。然而，對于時間序列數據庫中的時序數據，尤其是延遲到達的時序數據，異常檢測任務變得更加復雜。

為了解決這一問題，我們提出了一種名為 LSMOD 的方法，用于優化基于 LSM-tree 的時間序列數據庫 Apache IoTDB 中的異常檢測查詢任務。Apache IoTDB 廣泛應用于物聯網（IoT）場景，其能夠支持大量數據的頻繁寫入操作。然而，這種支持頻繁寫入的存儲結構不利于處理異常檢測查詢，特別是對于延遲到達的時序數據。

LSMOD 方法考慮了時間序列數據庫中數據可能存在的延遲到達情況，即由于傳輸問題、網絡問題而導致的時序數據延遲到達，并因此被分散存儲在多個文件中，這些文件的時間范圍可能存在重疊。傳統的異常檢測方法在處理延遲到達數據時面臨限制和挑戰，因為其無法通過簡單合并每個文件中的局部異常檢測結果來得到正確的全局異常檢測結果。

基于以上限制和挑戰，LSMOD 方法提出通過桶統計信息和邊界條件來進行剪枝，從而有效處理時序數據庫情景下的異常檢測查詢任務。LSMOD 能夠在處理數據庫內的多個時間范圍重疊文件時，考慮數據延遲到達的影響，并準確地識別出原始數據中的異常數據，同時能夠保證較高的效率。

總的來說，LSMOD 方法為時間序列數據庫中的異常檢測任務提供了高效的解決方案，能夠在延遲到達的數據的情形下有效進行異常檢測，提高了時序數據庫內異常檢測的效率。該方法對于物聯網、氣候監測等需要實時分析和處理大量時間序列數據的領域具有重要的應用價值。

🗂全文鏈接：

https://doi.org/10.14778/3681954.3681962

SIGMOD 2024: Time Series Representation for Visualization in Apache IoTDB

🎯M4-LSM：面向可視化的時序數據采樣性能優化

??第一作者：芮蕾

時間序列數據，作為記錄隨時間變化而產生的數值序列，廣泛應用于各行各業，如金融、交通、氣象等領域。然而，面對海量且復雜的時間序列數據，如何高效地進行存儲、查詢和可視化成為了一個亟待解決的問題。M4-LSM，作為時間序列數據庫 Apache IoTDB 中的一種創新方法，為解決這一問題提供了有效的途徑。

M4-LSM 的核心在于結合了 M4 表示法和 LSM-Tree 存儲結構。M4 表示法是一種誤差為零的時間序列可視化方法，它能夠將時間序列數據轉化為二維雙色（黑白或藍紅等）線圖，同時保留數據的關鍵特征，如形狀和趨勢。然而，傳統的 M4 方法在處理存儲在 LSM-Tree 結構中的時間序列數據時，存在效率瓶頸，因為它需要加載并合并所有的數據塊。

為了解決這個問題，M4-LSM 應運而生。它充分利用了 LSM-Tree 存儲結構的特性，通過直接利用數據塊的元數據，避免了不必要的數據加載和合并操作。此外，M4-LSM 還引入了步長回歸和值回歸函數等創新技術，進一步提升了查詢效率和可視化性能。

具體來說，步長回歸用于快速定位包含表示點的數據塊，從而減少了需要訪問的數據量。而值回歸函數則用于進一步篩選數據點，確保只保留能夠成為頂部或底部表示點的數據，從而進一步提高了可視化的精度和效率。

實驗結果表明，M4-LSM 在處理大規模時間序列數據時表現出色，能夠顯著縮短查詢時間，同時保持完美的可視化精度。未來，隨著技術的不斷發展，M4-LSM 有望為更多領域的時間序列數據可視化提供更加高效和精確的解決方案。