Elasticsearch 簡介入門

Elasticsearch 是一個分布式的開源搜索和分析引擎,適用于所有類型的數據,包括文本、數字、地理空間、結構化和非結構化數據。Elasticsearch 在 Apache Lucene 的基礎上開發而成,由 Elasticsearch N.V.(即現在的 Elastic)于 2010 年首次發布。Elasticsearch 以其簡單的 REST 風格 API、分布式特性、速度和可擴展性而聞名,是 Elastic Stack 的核心組件;Elastic Stack 是適用于數據采集、充實、存儲、分析和可視化的一組開源工具。人們通常將 Elastic Stack 稱為 ELK Stack(代指 Elasticsearch、Logstash 和 Kibana),目前 Elastic Stack 包括一系列豐富的輕量型數據采集代理,這些代理統稱為 Beats,可用來向 Elasticsearch 發送數據。

一、Elasticsearch是什么

Elasticsearch 是一個分布式可擴展的實時搜索和分析引擎,一個建立在全文搜索引擎 Apache Lucene? 基礎上的搜索引擎.當然 Elasticsearch 并不僅僅是 Lucene 那么簡單,它不僅包括了全文搜索功能,還可以進行以下工作:

  • 分布式實時文件存儲,并將每一個字段都編入索引,使其可以被搜索。
  • 實時分析的分布式搜索引擎。
  • 可以擴展到上百臺服務器,處理PB級別的結構化或非結構化數據。

二 Elasticsearch能干什么

  • 提供快速查詢

    試想一下,當你打開一個博客網站,搜索一篇博客的時候,等待了一分鐘才有搜索結果,那將會是一個極差的體驗。可想而知,這個博客網站肯定沒有使用搜索引擎處理搜索的請求,而是使用了傳統的關系型數據庫查詢,在龐大的數據面前,關系型數據庫的查詢就顯得力不從心,相當耗時。Elasticsearch在這個時候可以幫上忙,使用博客數據建立索引庫,依賴倒排索引的優勢,為用戶快速的呈現搜索的相關結果。

  • 確保結果的相關性

接下來有一個難題: 如何將真正描述選舉的帖子排序在前呢?有了 Elasticsearch,就可以使 用幾個算法來計算相關性的得分( relevancy score ),然后根據分數來將結果逐個排序 。

默認情況下,計算文檔相關性得分的算法是TF-IDF(term frequency-inverse document frequency),詞頻逆文檔頻率。我們將在后面討論這個概念。除了選擇算法,Elasticsearch還提供了很多其他內置的功能來計算概相關性得分,以滿足定制需求。

  • 超越精確匹配
  1. 處理錯誤的拼寫

當我們在使用搜索時,會出現英文拼寫錯誤,中文錯別字等情況時有發生。我們可以通過配置讓Elasticsearch容忍一些錯誤,而不僅僅只是查找精確匹配。如我們輸入“book”的時候由于手誤輸入了“bok”,如果搜索引擎能夠意識到這一錯誤并且在搜索時幫我們修正這個錯誤,那么搜索會更快讓人滿意。

  1. 支持變體

這個特性在英文單位搜索時,比較重要,我們搜索一個博客關鍵詞包含“bicycle”的文章,同樣可以和“bicylist”或“cycling”的查詢匹配上。并且Elasticsearch還有可以將搜索到的關鍵詞加粗上色來凸顯。

3.使用統計信息

當用戶不太清楚具體要搜索什么的時候,可以通過幾種方式來協助他們 。一種方法是聚集統計數據。 聚集是在搜索結果里得到一些統計數據,如每個分類有多少議題、每個分 類中“贊”和“分享”的平均數量。 假想一下,進入博客時,用戶會在右側看見最近流行的議題。 其中之一是自行車。 對其感興趣的讀者會點擊這個標題,進一步縮小范圍。 然后, 可能還有另外 的聚集方式 ,將自行車相關的帖子分為“ 自行車鑒賞”“自行車大事件”等。

  1. 給予自動提示

當用戶開始輸入時,你可以幫助他們發現主流的查詢和結果。 還可以通過自動提示技術預測 他們所要輸入的內容,就像 Web 上很多搜索引擎做的那樣。 你同樣可以展示主流的結果,通過 特殊的查詢類型來匹配前綴、通配符或正則表達式。

三、Elasticsearch的特點

(1)可以作為一個大型分布式集群(數百臺服務器)技術,處理PB級數據,服務大公司;也可以運行在單機上,服務小公司
(2)Elasticsearch不是什么新技術,主要是將全文檢索、數據分析以及分布式技術,合并在了一起,才形成了獨一無二的ES;lucene(全文檢索),商用的數據分析軟件(也是有的),分布式數據庫(mycat)
(3)對用戶而言,是開箱即用的,非常簡單,作為中小型的應用,直接3分鐘部署一下ES,就可以作為生產環境的系統來使用了,數據量不大,操作不是太復雜
(4)數據庫的功能面對很多領域是不夠用的(事務,還有各種聯機事務型的操作);特殊的功能,比如全文檢索,同義詞處理,相關度排名,復雜數據分析,海量數據的近實時處理;Elasticsearch作為傳統數據庫的一個補充,提供了數據庫所不能提供的很多功能

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/535686.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/535686.shtml
英文地址,請注明出處:http://en.pswp.cn/news/535686.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Elasticsearch 7.x 安裝及配置

一、下載安裝 1、下載地址:https://www.elastic.co/cn/downloads/elasticsearch 2、解壓安裝:tar -zxcf elasticsearch-7.9.0-linux-x86_64.tar.gz 二、新建es用戶 在某個版本以后,elasticsearch為了安全性,是不能用root用戶啟…

Ubuntu下面apache2安裝

Ubuntu為我們提供了 su apt-get install 命令,通過它你可以很方便地安裝一些軟件,這些軟件是放在Ubuntu放置在各個地方的服務器上面,如果你想安裝的軟件是比較常見的,一般都可以通過它來下載.當然 Apache 這個軟件服務器上面是有…

Java并發篇_樂觀鎖與悲觀鎖

樂觀鎖對應于生活中樂觀的人總是想著事情往好的方向發展,悲觀鎖對應于生活中悲觀的人總是想著事情往壞的方向發展。 一、引入概念 1、悲觀鎖 總是假設最壞的情況,每次去拿數據的時候都認為別人會修改,所以每次在拿數據的時候都會上鎖&#…

Redhat與ubuntu配置網卡

redhat linux中設置網卡固定ip之前在xwindow下的redhat-config-network 設置網卡固定ip發現不起作用,設置好后就是ping不通。就查了些資料,更改 /etc/sysconfig/network-scripts/ifcfg-eth0(第一個網卡為eth0),配置dns的文件為 /etc/resolv.c…

SSH軟件包:Sftp,scp和ssh-agent

這篇文章的中心是介紹在ssh軟件包中非常有用的程序如:sftp,scp,ssh-agent,和ssh-add。在下文中我們假設sshd2守護進程很好地被設置并且運行良好。Sftp和scp總覽讓我們把注意力集中到sftp和scp上。第一個(sftp安全文件傳…

JAVA并發篇_公平鎖與非公平鎖

簡單的來說,如果一個線程組里,能保證每個線程都能拿到鎖,那么這個鎖就是公平鎖。相反,如果保證不了每個線程都能拿到鎖,也就是存在有線程餓死,那么這個鎖就是非公平鎖。 一、引入概念 1、公平鎖&#xff1…

Java并發篇_進程線程

一個進程包括由操作系統分配的內存空間,包含一個或多個線程。一個線程不能獨立的存在,它必須是進程的一部分。一個進程一直運行,直到所有的非守護線程都結束運行后才能結束。 多線程能滿足程序員編寫高效率的程序來達到充分利用 CPU 的目的。…

Real提示“作為受限用戶,您無足夠的windows操作權限”的解決辦法

運行Regedit.exe,翻到HKEY_CLASSES_ROOT/Software,刪除Software;然后關閉注冊表,再運行Regedit.exe,翻到HKEY_CLASSES_ROOT/Software,點右鍵選擇“權限”,各個組都設置為“完全控制”和“讀取”…

Java并發篇_線程詳解

線程(thread) 是操作系統能夠進行運算調度的最小單位。它被包含在進程之中,是進程中的實際運作單位。一條線程指的是進程中一個單一順序的控制流,一個進程中可以并發多個線程,每條線程并行執行不同的任務。 一、線程的…

修改MYSQL最大連接數的3種方法

MYSQL數據庫安裝完成后,默認最大連接數是100,一般流量稍微大一點的論壇或網站這個連接數是遠遠不夠的,增加默認MYSQL連接數的方法有兩個 方法一:進入MYSQL安裝目錄 打開MYSQL配置文件 my.ini 或 my.cnf查找 max_connections100 …

可擴展的編程語言——Scala

一、Scala是什么 Scala是一種多范式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。Scala運行于Java平臺(Java虛擬機),并兼容現有的Java程序。 ? Scala語言的名稱來自于"可伸展的語言"。之所以…

ubuntu7.10 apache+php+mysql配置

本篇文章 經過許多次的測試和修改已經完成了在Ubuntu7.10 下 安裝配置 ApachePHPMySQL的所有的工作. 1、在Ubuntu7.10 下安裝 Apache2PHP5MySQL sudo apt-get install apache2 libapache2-mod-php5 php5 php5-gd mysql-server php5-mysql phpmyadmin在下載來自動安裝配置的時候…

Spark-大規模數據處理計算引擎

官網:http://spark.apache.org 一、Spark是什么 Spark是一種快速、通用、可擴展的大數據分析引擎,2009年誕生于加州大學伯克利分校AMPLab,2010年開源,2013年6月成為Apache孵化項目,2014年2月成為Apache頂級項目。項目是…

MySQL Replace INTO的使用

REPLACE的運行與INSERT很相像。只有一點除外,如果表中的一個舊記錄與一個用于PRIMARY KEY或一個UNIQUE索引的新記錄具有相同的值,則在新記錄被插入之前,舊記錄被刪除。請參見13.2.4節,“INSERT語法”。 注意,除非表有…

CentOS7下Spark集群的安裝

從物理部署層面上來看,Spark主要分為兩種類型的節點,Master節點和Worker節點,Master節點主要運行集群管理器的中心化部分,所承載的作用是分配Application到Worker節點,維護Worker節點,Driver,Ap…

Scala中class與object區別

calss scala編譯器會字段幫我們生產一個私有字段和2個公有方法get和set scala 中沒有 static 關鍵字,所以 對于一個class來說,所有的方法和成員變量在實例被 new 出來之前都是無法訪問的 因此在class中的main方法沒什么用了 scala 的object 中所有成員…

如何編寫一個shell腳本

本文結合大量實例闡述如何編寫一個shell腳本。 為什么要進行shell編程 在Linux系統中,雖然有各種各樣的圖形化接口工具,但是sell仍然是一個非常靈活的工具。Shell不僅僅是命令的收集,而且是一門非常棒的編程語言。您可以通過使用shell使大量的…

Scala變量和常用數據類型

一、 聲明值和變量 Scala聲明變量有兩種方式,一個用val,一個用var。 聲明方式:val / var 變量名 : 變量類型 變量值 val定義的值是不可變的,它不是一個常量,是不可變量,或稱之為只讀變量。 val示例&am…

ubuntu7.10下的vi用的怪怪的

到網上查了一下,原來是ubuntu7.10默認安裝的是vim-tiny.可以重新安裝vim-full #dpkg -l 如果是vim-tiny #apt-get install vim-full

(轉)JVM監控工具介紹

2008年03月04日 16:57原作者: stone2083 原文地址:http://www.blogjava.net/stone2083/archive/2008/02/25/182081.htmljstatd啟動jvm監控服務。它是一個基于rmi的應用,向遠程機器提供本機jvm應用程序的信息。默認端口1099。實例:…