在大數據時代,日志存儲與分析對于企業的運營和決策起著至關重要的作用。Elasticsearch(簡稱 ES)作為一款廣泛應用的開源分布式搜索和分析引擎,長期以來在日志管理領域占據著舉足輕重的地位。然而,隨著技術的不斷發展,新的解決方案層出不窮,其中Apache Doris 憑借其卓越特性,在日志存儲與分析領域迅速崛起,引發業界熱議:Doris 是否會成為新一代王者,取代傳統的 Elasticsearch(ES)?
1.ES在日志存儲與分析中的現狀
ES 憑借其強大的全文搜索功能、高擴展性和靈活的架構,成為了眾多企業處理日志數據的首選。它能夠快速索引海量日志,使得用戶可以通過簡單的查詢語句,在秒級甚至毫秒級內獲取到所需的日志信息。同時,ES 與 Kibana 等可視化工具的緊密集成,為用戶提供了直觀、便捷的日志分析界面,方便用戶進行數據探索、監控和告警。
例如,在互聯網公司的運維場景中,ES 可以收集來自各個服務器、應用程序的日志,運維人員通過 ES 的搜索功能,能夠迅速定位系統故障時的關鍵日志信息,從而快速解決問題,保障服務的穩定性。在金融行業,ES 用于分析交易日志,幫助金融機構監測異常交易行為,防范風險。
2.Doris的崛起與特點
Apache Doris 是一款基于 MPP(大規模并行處理)架構的高性能分析型數據庫。它專為海量數據分析場景設計,在日志存儲與分析方面展現出了諸多令人矚目的特點。
1.極速查詢性能
Doris 采用了向量化執行引擎和高效的存儲格式,能夠對大規模日志數據進行快速掃描和計算。在復雜查詢場景下,Doris 的性能優勢尤為明顯。例如,當需要對數十億條日志記錄進行多維度分析時,Doris 能夠在極短的時間內返回結果,相比傳統的數據庫和部分分析引擎,查詢速度提升了數倍甚至數十倍。這種極速的查詢性能,使得運維人員和數據分析人員能夠實時獲取日志分析結果,及時做出決策。
2.簡單易用
Doris 提供了標準的 SQL 接口,對于熟悉 SQL 語言的開發人員和數據分析師來說,幾乎沒有學習成本。用戶可以使用他們熟悉的 SQL 語法進行日志數據的查詢和分析,無需學習復雜的查詢語法和工具。同時,Doris 的部署和管理也相對簡單,降低了企業在技術運維方面的成本和難度。例如,企業只需按照簡單的安裝步驟,即可快速搭建起 Doris 集群,投入日志分析工作。
3.高擴展性
Doris 的分布式架構支持水平擴展,企業可以根據日志數據量的增長情況,靈活地添加節點來提升系統的存儲和計算能力。在面對日志數據量爆發式增長的情況下,Doris 能夠輕松應對,保障系統性能不受影響。而且,Doris 在擴展過程中,數據的均衡分布和負載均衡機制能夠自動完成,無需人工過多干預,大大提高了系統的可維護性。
3.Doris替換ES進行日志存儲與分析的優勢
1.成本效益
從硬件成本來看,ES 在處理大規模日志數據時,由于其索引結構和存儲方式的特點,往往需要較多的內存和磁盤空間來存儲索引數據。而 Doris 以其高效的存儲格式,能夠在相同的數據量下,占用更少的硬件資源,降低了企業的硬件采購成本。在運維成本方面,Doris 簡單易用的特性使得運維人員無需花費大量時間進行復雜的配置和維護工作,減少了人力成本的投入。
2.實時分析能力
日志數據的價值在于實時性,企業需要及時從日志中獲取有價值的信息,以便做出快速響應。Doris 的極速查詢性能使得它在實時分析日志數據方面表現出色。與 ES 相比,Doris 能夠更快地對新寫入的日志數據進行分析,為企業提供更及時的決策支持。例如,在電商促銷活動期間,企業可以通過 Doris 實時分析用戶行為日志,及時調整營銷策略,提高銷售轉化率。
3.數據融合與分析
在實際業務場景中,企業往往需要將日志數據與其他業務數據進行融合分析,以獲取更全面的洞察。Doris 作為一款分析型數據庫,能夠很好地與企業現有的數據倉庫、業務數據庫等進行集成,方便用戶在同一平臺上對多種類型的數據進行統一分析。而 ES 主要專注于日志搜索和簡單的分析,在數據融合方面相對較弱。
4.案例見證
騰訊音樂:存儲成本大瘦身,性能飆升
騰訊音樂擁有海量的音樂內容數據,原先采用 Elasticsearch 與 Doris 的混合架構,前者負責全文檢索和標簽圈選,后者專注 OLAP 分析。但隨著數據量增長,Elasticsearch 存儲空間占用大、寫入性能受限等問題凸顯,混合架構還導致維護成本增加與數據不一致風險。鑒于 Doris 自 2.0 版本起支持倒排索引和全文檢索,騰訊音樂將架構統一為 Doris。升級后效果立竿見影,存儲成本大幅降低 80%,如某表單日全量數據在 Elasticsearch 需 697.7GB 空間,在 Doris 僅需 195.4GB 。全量數據導入時間從超 10 小時縮至 3 小時內,寫入性能提升至 Elasticsearch 的 4 倍,還支持復雜自定義標簽計算,極大改善用戶體驗。
科大訊飛:查詢效率飛躍,成本顯著降低
科大訊飛的星跡日志中心,起初基于 Elasticsearch 搭建日志處理架構,隨著日志數據迅猛增長,CPU 占用高、存儲成本高、穩定性差等問題接踵而至。后來嘗試采用基于 Grafana Loki 的輕量化架構,依然存在 CPU 使用率高、查詢分析效率低等狀況。最終,科大訊飛引入 Apache Doris 作為可觀測性存儲底座。Doris 展現出強大實力,可支撐日均 600 億條、10TB 的寫入流量,與 Elasticsearch 相比,存儲成本降至其六分之一,查詢效率至少提升 10 倍,尤其是在聚合分析、短語模糊匹配及 topn 命中前綴索引等場景下表現卓越。借助 Doris Manager,集群管理變得便捷輕松,系統還提供 Grafana 和自研 web 查詢界面,方便用戶進行日志檢索與分析。
中信銀行:借 Doris 之力,打破 ES 日志處理困境
中信銀行信用卡中心每日新增日志達 140 億條、約 80TB,全量歸檔超 40PB。早期基于 Elasticsearch 的日志云平臺,在數據量激增時,存儲成本高、寫入慢、檢索緩,難滿足復雜業務需求。引入 Apache Doris 后,局面扭轉。Doris 每日穩定處理百 TB 級日志寫入,延遲 1 秒內,支持 PB 級存儲,較 ES 存儲成本降 60%-80%,還能將冷數據存至低成本介質。在日志檢索上,常見查詢可秒級響應,具備強大的檢索、聚合等分析能力。
5.結語
Apache Doris 憑借其在查詢性能、易用性、擴展性以及成本效益等方面的優勢,在日志存儲與分析領域展現出了強大的競爭力,為企業提供了一種替換 ES 的可行選擇。當然,ES 也在不斷發展和完善,在某些特定場景下仍然具有不可替代的價值。但無論如何,Doris 的出現為企業的日志管理帶來了新的思路和解決方案,促使我們重新審視和優化日志存儲與分析的架構。