使用 Elasticsearch 進行集成測試初始化??數據時的注意事項

作者:來自 Elastic?piotrprz

在創建應該使用 Elasticsearch 進行搜索、數據聚合或 BM25/vector/search 的軟件時,創建至少少量的集成測試至關重要。雖然 “模擬索引” 看起來很誘人,因為測試甚至可以在幾分之一秒內運行,但它們實際測試的不是與真實 Elasticsearch 的交互,而是我們對 Elasticsearch 的想象。這可能會在生產中得到嚴格的驗證,特別是在集群更新之后 :wink:

為了減輕集成測試最明顯的缺點,至關重要的是使用數據初始化 Elasticsearch,這種方式對于日常生產場景來說可能不是最佳的,但對于測試設置來說卻非常有效。

更多有關測試的文章:

  • 使用真實 Elasticsearch 進行更快的集成測試

  • 使用模擬和真實的 Elasticsearch 來測試你的 Java 代碼

不要重新創建容器

依賴 Elasticsearch 測試你的功能可能只需要很少的時間,比如幾分之一秒。那么在測試之間重新啟動 Elasticsearch 并不是一個明智的想法,因為你將額外花費幾十秒鐘來等待 ES 啟動。

只需在測試之前啟動一次 Elasticsearch,在每次測試后進行清理,并在每次測試之前初始化數據。

提示:如果您在 Java 等語言中使用 Elasticsearch 的 Testcontainers 模塊,請確保該字段是 @Container static 或至少在 @BeforeAll 中啟動。

測試之前,cURL 是你的好朋友

在生產代碼(我們正在測試)中使用客戶端庫是一個明智的選擇。然而,在準備測試環境時,采用更為復雜的方法可能會有好處,因為生產用例和測試數據設置的需求并不 100% 相同。使用 cURL 管理 Elasticsearch 中的數據并不是什么難事,正如我們在之前的文章中看到的那樣:如何使用 cURL Elasticsearch:進入 Shell。

另一個好處是 cURL 與編程語言無關,因此來自不同技術棧的人可以更容易理解測試。
從 Testcontainers 使用 cURL 并不比 Bash 困難多少,例如,如果你需要刪除書籍索引,可以這樣做:

elasticsearch.execInContainer("curl", "https://localhost:9200/books", "-u", "elastic:changeme","--cacert", "/usr/share/elasticsearch/config/certs/http_ca.crt","-X", "DELETE"
)

盡可能批量

在很多情況下,索引單個文檔是有意義的,但加載測試數據不是其中之一。無需發出 1000 個請求來索引每個文檔,只需運行一個包含 1000 個文檔的 _bulk 請求即可。即使使用測試容器也不是什么難事:

elasticsearch.execInContainer("curl", "https://localhost:9200/_bulk?refresh=true", "-u", "elastic:changeme","--cacert", "/usr/share/elasticsearch/config/certs/http_ca.crt","-X", "POST","-H", "Content-Type: application/x-ndjson","--data-binary", "@/tmp/books.ndjson"
)

通過這種方法,您甚至可以在一次調用中將文檔添加到許多線索中!

盡量本地化

CPU緩存比內存快得多,本地存儲通常比網絡快。如果你有十個用例都依賴同一份數據集,那就沒有必要每次都把同樣的數據發送到同一個容器里(畢竟我們不會每次測試都創建新容器,對吧?)

因此,在創建容器時,加上 .withCopyToContainer(...),這樣你就可以把文件一次性復制到容器,然后像上面那樣直接用 _bulk 處理。這大概是這樣的:

static ElasticsearchContainer elasticsearch =new ElasticsearchContainer(ELASTICSEARCH_IMAGE).withCopyToContainer(MountableFile.forHostPath("src/test/resources/books.ndjson"), "/tmp/books.ndjson");

這在設置(如 CI)中尤其有意義,其中容器運行時不是本地的,而是從不同的機器注入的。

回顧

這里提出的想法提醒我們,永恒的 IT 口頭禪 “不要重復自己” 也適用于初始化測試數據。將數據批量保存在本地,這樣你就可以節省執行集成測試所需的大量時間。欲了解更多見解,請隨意探索 Github repo,其中包含更多示例和分支。

原文:Dec 8th, 2024: [EN] DOs and DON'Ts when initializing data for integration tests with Elasticsearch - Advent Calendar - Discuss the Elastic Stack

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/71612.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/71612.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/71612.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【selenium工具操作web頁面中的下拉框元素 】

使用F12定位下拉框中的元素 使用F12定位下拉框中的元素 1、有一類元素不是直接顯示的頁面上的,而是需要點擊某些其他元素后才會顯示在頁面上,比如這里的下拉框。 2、這類元素會有一個特點:鼠標如果移開(沒在元素上),這些元素就會…

C++ set map 詳解

文章目錄 1. 容器2. set和multiset2.1 set2.1.1 構造函數2.1.2 insert和erase2.1.2.1 insert2.1.2.2 erase 2.1.3 查找和訪問2.1.3.1 set迭代器相關2.1.3.2 find && count2.1.3.3 范圍查找 2.2 multiset2.2.1 insert和erase2.2.2 find和count 2.3 set和multiset的在算法…

Unity網絡開發基礎 (2) 網絡協議基礎

本文章不作任何商業用途 僅作學習與交流 部分圖片來自Unity唐老師 目錄 1.虛擬模型 2.實際模型 TCP/IP 3.傳輸層協議 TCP/UDP TCP 協議詳解 1. 核心機制 2. 頭部格式(20 字節最小) UDP 協議詳解 1. 核心特點 2. 頭部格式(固定 8 字節…

HTML label 標簽使用

點擊 <label> 標簽通常會使與之關聯的表單控件獲得焦點或被激活。 通過正確使用 <label> 標簽&#xff0c;可以使表單更加友好和易于使用&#xff0c;同時提高整體的可訪問性。 基本用法 <label> 標簽通過 for 屬性與 id 為 username 的 <input> 元素…

JDBC、MyBatis 、MyBatis-Plus面試總結(一)

以下為你整理了一些 MyBatis 和 MyBatis-Plus 中 mapper.xml 相關的常見面試問題及答案&#xff1a; 基礎概念類 問題 1&#xff1a;什么是 mapper.xml 文件&#xff0c;它在 MyBatis 中有什么作用&#xff1f; 答案&#xff1a;mapper.xml 文件是 MyBatis 中用于定義 SQL 語…

GCC RISCV 后端 -- GCC Passes 注釋

在前面文章提到&#xff0c;當GCC 前端完成對C源代碼解析完成后&#xff0c;就會使用 處理過程&#xff08;Passes&#xff09;機制&#xff0c;通過一系列的處理過程&#xff0c;將 GENERIC IR 表示的C程序 轉步轉換成 目標機器的匯編語言。過程描述如下圖所示&#xff1a; 此…

基于Python實現的智能旅游推薦系統(Django)

基于Python實現的智能旅游推薦系統(Django) 開發語言:Python 數據庫&#xff1a;MySQL所用到的知識&#xff1a;Django框架工具&#xff1a;pycharm、Navicat 系統功能實現 總體設計 系統實現 系統首頁模塊 統首頁頁面主要包括首頁&#xff0c;旅游資訊&#xff0c;景點信息…

鴻蒙全棧開發 D2

課程目標 掌握ArkTS基礎語法與核心概念理解聲明式UI開發范式能獨立開發簡單鴻蒙應用組件建立規范的代碼編寫習慣 第一部分&#xff1a;初識ArkTS 1.1 語言全景認知 #mermaid-svg-V5mnjQN3DAHkfoBo {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size…

【YashanDB認證】yashandb23.3.1 個人版單機部署安裝實踐

YCA報名鏈接如下: YashanDB|崖山數據庫系統YashanDB學習中心-YCA認證詳情 目前免費 主要參考文檔&#xff1a; 單機&#xff08;主備&#xff09;部署 | YashanDB Doc 另外還參考摩天輪文章&#xff1a; YashanDB 23.2.9.101 企業版安裝步驟搶先看&#xff01; - 墨天輪 …

【藍橋杯】每天一題,理解邏輯(3/90)【Leetcode 快樂數】

閑話系列&#xff1a;每日一題&#xff0c;禿頭有我&#xff0c;Hello&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;,我是IF‘Maxue&#xff0c;歡迎大佬們來參觀我寫的藍橋杯系列&#xff0c;我好久沒有更新博客了&#xff0c;因為up豬我寒假用自己的勞動換了…

爬蟲Incapsula reese84加密案例:Etihad航空

聲明: 該文章為學習使用,嚴禁用于商業用途和非法用途,違者后果自負,由此產生的一切后果均與作者無關 一、找出需要加密的參數 1.js運行 atob(‘aHR0cHM6Ly93d3cuZXRpaGFkLmNvbS96aC1jbi8=’) 拿到網址,F12打開調試工具,隨便搜索航班,切換到network搜索一個時間點可以找…

緩存雪崩 緩存擊穿 緩存穿透

1. redis使用場景-緩存-緩存穿透 在實際開發中&#xff0c;Redis 被廣泛應用于緩存&#xff0c;以提高系統性能和響應速度。然而&#xff0c;在使用緩存時&#xff0c;需要注意一些問題&#xff0c;其中 緩存穿透 是一個常見且需要重點關注的場景。 什么是緩存穿透 ● 緩存穿…

【YOLOv12改進trick】多尺度大核注意力機制MLKA模塊引入YOLOv12,實現多尺度目標檢測漲點,含創新點Python代碼,方便發論文

??改進模塊??:多尺度大核注意力機制(MLKA) ??解決問題??:MLKA模塊結合多尺度、門控機制和空間注意力,顯著增強卷積網絡的模型表示能力。 ??改進優勢??:超分辨的MLKA模塊對小目標和模糊目標漲點很明顯 ??適用場景??:小目標檢測、模糊目標檢測等 ??思路…

better-sqlite3之exec方法

在 better-sqlite3 中&#xff0c;.exec() 方法用于執行包含多個 SQL 語句的字符串。與預編譯語句相比&#xff0c;這種方法性能較差且安全性較低&#xff0c;但有時它是必要的&#xff0c;特別是當你需要從外部文件&#xff08;如 SQL 腳本&#xff09;中執行多個 SQL 語句時。…

電路基礎:【1】PN結二極管制作電橋點亮LED燈

第一章&#xff1a;PN結二極管制作電橋點亮LED燈 文章目錄 第一章&#xff1a;PN結二極管制作電橋點亮LED燈前言一、電路原理二、電路圖與元器件1.電路圖 做實驗總結 前言 在本章中&#xff0c;我們將探討如何通過PN結二極管制作電橋電路&#xff0c;并利用該電路點亮LED燈。L…

XHR請求解密:抓取動態生成數據的方法

在如今動態頁面大行其道的時代&#xff0c;傳統的靜態頁面爬蟲已無法滿足數據采集需求。尤其是在目標網站通過XHR&#xff08;XMLHttpRequest&#xff09;動態加載數據的情況下&#xff0c;如何精準解密XHR請求、捕獲動態生成的數據成為關鍵技術難題。本文將深入剖析XHR請求解密…

機器學習數學基礎:42.AMOS 結構方程模型(SEM)分析的系統流程

該流程圖完整呈現了 AMOS 結構方程模型&#xff08;SEM&#xff09;分析的系統流程&#xff0c;具體步驟及內涵如下&#xff1a; 1. 模型設定 基于理論基礎或研究假設&#xff0c;構建結構方程模型的初始框架&#xff0c;明確潛變量與顯變量的關系、測量模型&#xff08;因子…

以太網通訊

接口開發筆記-WebApi-CSDN博客 以太網常用通訊協議 1、modbus tcp using EasyModbus; using System;class Program {static void Main(string[] args){// 創建Modbus客戶端實例ModbusClient modbusClient new ModbusClient("192.168.1.100"); // IP地址modbusCli…

Arcgis中添加腳本工具箱

文章目錄 準備資料1、打開arcmap2、找到目錄窗口3、復制粘貼工具箱的路徑4、添加或者確認python腳本路徑準備資料 (1)工具箱 (2)python腳本 1、打開arcmap 2、找到目錄窗口 3、復制粘貼工具箱的路徑 4、添加或者確認python腳本路徑 腳本上右鍵屬性(注意:腳本內容和路徑…

TDengine SQL查詢語法

簡介 TDengine 中的查詢 SQL 基本遵循 MYSQL 的查詢語法&#xff0c;大部分查詢都是通過超級表按時間維度進行的各種查詢。 TDengine 時序數據庫以時間為主索引列進行數據組織排序及存儲&#xff0c;同時按存儲塊做了預計算&#xff0c;所以在無普通列過濾的 SQL 查詢語句中聚…