es是如何處理索引數據的變動的?

1 概述

es是如何處理索引數據的變動的?

或者說索引數據變動時,es會執行哪些操作?

refresh、fsync、merge 和 flush 操作有何作用?

es是如何確保即使es發生宕機數據也不丟失的?

在回答上述問題前,可以先了解一下es處理索引數據變動的主要流程,其示意圖如下所示。

2 處理索引數據變動的過程

由示意圖可知,es處理索引數據變動的主要過程如下所述:

(1)將數據寫入內存緩沖區;

(2)生成新的segment,使數據可見-即可被搜索到;

(3)將數據存儲到磁盤。

2.1 將數據寫入內存緩沖區

當索引數據變動(插入、更新或刪除索引數據)時,首先會將變動的索引數據寫入到內存中的“索引緩沖區”,然后將索引數據變動命令寫入到內存中的“translog緩沖區”。

  • translog的作用是當es服務宕機后需要進行數據恢復時,通過translog可以恢復尚未存儲到磁盤中的es索引數據。
  • 通過每次索引變動請求完成時(默認)執行fsync操作,或者定時執行(設為異步執行時,默認為5s)fsync操作,將“translog緩沖區”中的數據添加到磁盤中的translog文件中。

New documents are added to the in-memory buffer and appended to the transaction log

2.2 使數據可見

通過定時執行refresh操作,將“索引緩沖區”的文檔生成一個新的segment(段),此時新增和修改的數據能被搜索到。

  • 默認每秒執行一次refresh操作
  • 每次refresh操作都會生成一個新的segment,隨著時間的增長segmengt會越來越多。因為每次search操作都會掃描所有的segment,因此segmengt過多將導致查詢效率變慢。為了避免該問題的發生,es會定期將segment進行merge合并操作。
  • 執行refresh操作時,磁盤中的translog文件不會被清除。

?After a refresh, the buffer is cleared but the transaction log is not

2.3 將數據存儲到磁盤

(3)通過執行flush操作(刷盤),將內存中的segment存儲到磁盤,同時刪除磁盤中的translog文件。

  • 默認每隔30min執行一次或者在磁盤中的translog文件過大時(index.translog.flush_threshold_size,默認512mb)執行一次。

After a flush, the segments are fully commited and the transaction log is cleared

3 refresh、merge 和 flush

3.1 refresh

3.1.1 定義

將“索引緩沖區”的文檔生成一個新segment(段)并清空該“索引緩沖區”,使新增或修改后的數據能被ES的api接口查詢到。

refresh_interval 控制索引refresh頻率 ,默認為1s。

3.1.2 修改執行頻率

可以通過修改 refresh_interval 來修改執行頻率

PUT /test_index/_settings
{"settings": {"refresh_interval": "2s"           }
}

3.1.3 api

refresh全部索引

POST /_refresh 

refresh指定索引

POST /test_index/_refresh

3.2 merge

將多個小segment合并成一個大segment,并刪除舊的segment。

3.3 flush

3.3.1 定義

通過執行flush操作(刷盤),將內存中的segment存儲到磁盤,同時刪除磁盤中的translog文件。

3.3.2 api

刷盤指定索引

POST /test_index/_flush

刷盤所有索引,且等刷盤結束才返回結果

POST /_flush?wait_for_ongoing

4 參考文獻

(1)理解ES的refresh、flush、merge

(2)Making Changes Persistent | Elasticsearch: The Definitive Guide [2.x] | Elastic

(3)Translog | Elasticsearch Guide [7.10] | Elastic

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/44096.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/44096.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/44096.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

文件操作和IO流

前言👀~ 上一章我們介紹了多線程進階的相關內容,今天來介紹使用java代碼對文件的一些操作 文件(file) 文件路徑(Path) 文件類型 文件操作 文件系統操作(File類) 文件內容的讀…

leetcode--恢復二叉搜索樹

leetcode地址:恢復二叉搜索樹 給你二叉搜索樹的根節點 root ,該樹中的 恰好 兩個節點的值被錯誤地交換。請在不改變其結構的情況下,恢復這棵樹 。 示例 1: 輸入:root [1,3,null,null,2] 輸出:[3,1,null…

AirPods Pro新功能前瞻:iOS 18的五大創新亮點

隨著科技的不斷進步,蘋果公司一直在探索如何通過創新提升用戶體驗。iOS 18的推出,不僅僅是iPhone的一次系統更新,更是蘋果生態鏈中重要一環——AirPods Pro的一次重大升級。 據悉,iOS 18將為AirPods Pro帶來五項新功能&#xff0…

設計模式探索:觀察者模式

1. 觀察者模式 1.1 什么是觀察者模式 觀察者模式用于建立一種對象與對象之間的依賴關系,當一個對象發生改變時將自動通知其他對象,其他對象會相應地作出反應。 在觀察者模式中有如下角色: Subject(抽象主題/被觀察者&#xf…

【大模型】大規模部署LLM:挑戰與對策

大規模部署LLM:挑戰與對策 引言一、計算資源的挑戰1.1 計算成本1.2 能源消耗與碳足跡 二、維護與更新的挑戰2.1 模型更新與版本控制2.2 知識時效性 三、數據隱私與倫理考量3.1 數據隱私保護3.2 倫理與偏見 四、可擴展性與靈活性4.1 系統架構設計4.2 多語言與地域適應…

詳細分析@FunctionalInterface的基本知識(附Demo)

目錄 前言1. 基本知識2. Demo 前言 Java的基本知識推薦閱讀: java框架 零基礎從入門到精通的學習路線 附開源項目面經等(超全)Spring框架從入門到學精(全) 1. 基本知識 FunctionalInterface 是 Java 8 引入的一個注…

外賣商城平臺小程序的設計

管理員賬戶功能包括:系統首頁,個人中心,用戶管理,商家管理,騎手管理,商品類型管理,商品信息管理,訂單信息管理 微信端賬號功能包括:系統首頁,商品信息&#…

【AI資訊早報】AI科技前沿資訊概覽:2024年7月10日早報

AI科技前沿資訊概覽,涵蓋了行業大會、技術創新、應用場景、行業動態等多個方面,全面展現了AI領域的最新發展動態和未來趨勢。 一、人工智能大模型引領新業態 在2024年(第二十三屆)中國互聯網大會上,中國工程院院士鄔賀…

模板初階詳解

目錄 泛型編程函數模板函數模板概念函數模板格式函數模板的原理函數模板的實例化隱式實例化強制類型轉換的疑惑 顯式實例化 模板參數的匹配原則 類模板類模板的定義格式類模板的實例化 感謝各位大佬對我的支持,如果我的文章對你有用,歡迎點擊以下鏈接 🐒&#x1f41…

微信小程序接口wx.getLocation違規導致封禁解決辦法

1、找到站內信的這個封禁的通知(功能封禁的通知,而不是處理警告的通知) 2、點擊通知會有申訴鏈接,點開申訴鏈接 申訴原因可參考下面的內容: 1.小程序哪些板塊已除去收集地理位置、2.哪些板塊需要收集地理位置、3.詳細…

寶塔內 計劃任務更新遠程主機的時間

很多情況下一些主機無法上網,長此以往有可能讓系統內的時間混亂 ,這是一個很愁人的事情 這里我們找了一個可以通過寶塔的計劃任務或 cron 不斷將本地時間通過ssh登錄,并在登錄狀態下設置時間的方法.找了很多方案都不行 .最終采用了私鑰登錄的方案 1 使用寶塔的計劃任務(可選): …

WindowsMac共享文件夾設置

共享文件夾設置 共享文件夾設置Windows系統設置步驟一:設置共享文件夾步驟二: 訪問共享文件夾 Mac系統中設置共享文件夾步驟一:設置共享文件夾步驟二:訪問共享文件夾 小貼士結論 共享文件夾設置 有時需要在多臺電腦之間共享文件夾&#xff0…

4.MkDocs樣式

學習 Admonitions(警告) - Material for MkDocs (wdk-docs.github.io) 提示 - Material for MkDocs 中文文檔 (llango.com) Buttons(按鈕) - Material for MkDocs (wdk-docs.github.io) 建議去看這些網站,更為詳細。 常用功能 便利貼 ?? 開啟 markdown_ex…

Linux筆記之iftop查看特定IP地址吞吐量

Linux筆記之iftop查看特定IP地址吞吐量 code review! 文章目錄 Linux筆記之iftop查看特定IP地址吞吐量一.iftop安裝與監控二.iftop 界面簡單介紹如何查看單位實時流量的顯示形式控制單位顯示示例 三.數據存儲和傳輸的單位:比特(bit)和字節&…

Gemma2——Google 新開源大型語言模型完整應用指南

0.引言 Gemma 2以前代產品為基礎,提供增強的性能和效率,以及一系列創新功能,使其在研究和實際應用中都具有特別的吸引力。Gemma 2 的與眾不同之處在于,它能夠提供與更大的專有模型相當的性能,但其軟件包專為更廣泛的可…

hdfs大規模數據存儲底層原理詳解(第31天)

系列文章目錄 一、HDFS設計原理 二、HDFS系統架構 三、HDFS關鍵技術 四、HDFS應用實例 五、解決HDFS不能處理小文件詳解問題 文章目錄 系列文章目錄前言一、設計原理二、系統架構三、關鍵技術四、應用實例五、解決HDFS不能處理小文件詳解問題1. 合并小文件2. 優化Hive配置3. 使…

DDR3 SO-DIMM 內存條硬件總結(一)

最近在使用fpga讀寫DDR3,板子上的DDR3有兩種形式與fpga相連,一種是直接用ddr3內存顆粒,另一種是通過內存條的形式與fpga相連。這里我們正好記錄下和ddr3相關的知識,先從DDR3 SO-DIMM 內存條開始。 1.先看內存條的版本 從JEDEC下載…

Mysql練習題目【7月10日更新】

七、Mysql練習題目 https://zhuanlan.zhihu.com/p/38354000 1. 創建表 創建學生表 mysql> create table if not exists student(-> student_id varchar(255) not null,-> student_name varchar(255) not null,-> birthday date not null,-> gender varchar(…

前端面試題33(實時消息傳輸)

前端實時傳輸協議主要用于實現實時數據交換,特別是在Web應用中,它們讓開發者能夠構建具有實時功能的應用,如聊天、在線協作、游戲等。以下是幾種常見的前端實時傳輸協議的講解: 1. Short Polling (短輪詢) 原理:客戶…

【1】A-Frame整體介紹

1.A-Frame是什么? A-Frame 是一個用于構建虛擬現實 (VR) 體驗的 Web 框架。 A-Frame 基于 HTML 之上,因此上手簡單。但 A-Frame 不僅僅是 3D 場景圖或標記語言;它還是一種標記語言。其核心是一個強大的實體組件框架,為 Three.js …