8 月 27 日晚上八點,七牛云高級解決方案架構師程雪松在 IT 大咖說進行了題為《挖掘傳統行業日志大數據的無限價值》的直播,對傳統行業運維常見困境和統一日志管理的必要性進行了深入解析,并通過 Pandora 的一些真實用戶案例和大家詳細闡述了如何挖掘傳統行業日志大數據的無限價值。本文是對直播內容的整理。
下篇主要剖析了日志管理平臺建設關注的要點以及分享了 Pandora 的一些真實用戶案例,并針對聽眾的提問進行了解答。
監控與告警
數據分析過后,需要形成相關的數據的監控和告警。比如把一些我關心的重要的指標監控固化下來,定期地對這些數據進行監控,一旦它出現問題,我需要及時地反映出來,形成一些告警方面的通知。最好是能夠把搜索結果直接保存為告警設置。比如說我搜索出一個結果出來之后,我覺得這個結果很重要,這個分析出來的結果,我不僅只是想查這一次,需要它一直能夠被監控起來。一旦這個監控值出現問題,我就能夠報警。那么就可以另存為報警以后去設置相關的一些策略,比如說我要去監控這個指標的最大值、最小值、平均值等等,然后這個值一旦突破了某個閾值,就能夠通過短信或者郵件的方式,來進行及時的報警,這就是監控報警的一個功能,它是必須要有的。
開箱即用的報表
然后就是可視化的展現,能夠支持各種各樣的圖表,把一些比較難懂的文本型的日志,或者數據型的日志,變成更易讀更直觀的一些報表,制作成一些大家比較能夠理解的比如說餅圖,柱狀圖,折線圖,甚至你可能會遇到像中國地圖,世界地圖等等。我預先要支持這樣的圖表,能夠很方便的去定義這些報表的功能,把數據輸入進去,選擇相關的圖表的格式,自動去生成這樣的一些報表。這樣的話你就能夠很方便地去體現你的日志分析結果和相關參數的監控。
大屏展示
而且最終也能支持大屏展示,能夠投射到指揮臺或者監控大屏。讓我們的 IT 運維人員或者 IT 部門的領導,或者甚至是公司的老板,能夠方便看到信息化平臺的情況,內部系統是如何運行的,現在的狀態是什么樣,這就是一個大屏的展示。
機器學習(異常檢測)
現在對于日志分析,僅僅是對已有的數據進行固化分析或是已有的一些策略進行分析已經無法滿足運維日新月異的要求,其實很多 IT 的問題,最開始的時候都是未知的。甚至在一開始對業務進行監控的時候,我可能都很難去預想到監控策略應該怎么樣去設計,或者很難在一開始就提出來監控指標的閾值應該是多少。
歷史數據分析

所以如果說日志分析平臺能夠引入現在一些新的大數據的技術,比如說深度學習或者機器學習,就能夠很方便的去對歷史數據進行分析,告訴我中間的異常值。舉一個例子,下面的這一個截圖其實是一個企業的數據流量的變化情況,然后我們會發現,代表實際數據的藍色線其實并不是平緩的,而是呈現一個周期變化的規律。傳統的我們對于流量的監控就是畫兩條平行線,把所有的流量夾在里面,這樣的話一旦出現流量的實時值超過我的閾值的時候就會報警。然后會推送相對應的郵件或者短信的方式去告知我的運維人員。但是我們會發現,類似中間小箭頭的地方就會出現漏報,就是說,看起來它其實并沒有突破整個所有歷史周期里面的峰值和最低值,但是我們看到它其實是不符合歷史數據的變化規律的。
那么這個時候如果我們能夠基于不同時段,靈活動態的去調整閾值,這樣的話就能夠很方便的發現這些雖然沒有突破歷史閾值但是并不符合周期性變化規律的一個數據。這樣其實是能夠很方便的去找到原來可能遺漏的一些數據異常點。而且這些漏報的異常點很可能會成為未來很大的風險,那么我們如果能夠在這個時候及時地發現這些異常點,及時地去介入,把這樣的風險,甚至是未來的一些故障防患于未然。這是一個歷史數據分析的比較經典的一個場景。
預測未來
我們既然能夠基于歷史數據做全面的學習和分析,那么我們也希望能夠去配合實時數據的增量學習,去準確預測未來的趨勢,去支持更多的一些智能的特性。這個在什么場景會用到呢?
比如說我們在未來的幾天之內想做一個業務的變更或者升級,但是我不知道哪個時間點最合適影響最小,那往常可能我們都會選擇深夜例如半夜十二點來做系統交割或者新系統上線,這個對于大家來講熬夜的壓力很大。但如果我們能夠通過機器學習預測未來的整個流量變化情況,我們就能夠很方便的去找到一個流量低,又不需要給大家帶來太多身體負擔的時間點來做我們的系統變更。
極簡使用

機器學習固然好,但大家很多時候會認為機器學習是一個特別高大上的東西,覺得算法模型是個特別復雜的東西。那么會想我有沒有能力玩,能不能玩得轉,能不能很方便地去使用這樣一些機器學習的功能和特性。那能否自動化的、靈活化的、智能化的選擇算法,自動生成相關的模型,讓我們的運維人員能夠低門檻甚至零門檻來使用這個機器學習的功能就變得很重要。機器學習也是現在大家在選擇日志管理平臺的時候可能需要去考慮的一個方向。
開放性(API)
最后是開放性 api,其實很多時候運維人員在日常使用日志管理平臺的過程當中不只是簡單的登錄到平臺上面通過你的可視化界面去使用你的功能。日志分析平臺是需要和業務系統,分析系統或者用戶已有的監控平臺進行對接的。甚至很多時候對日志分析平臺的使用,并不是直接點進你的界面,而是要通過接口的方式來去使用你的能力。所以整個日志分析平臺的開放性會是大家在日常使用過程中必須要考慮的一個問題。考慮到我們會去對接非常多的,不同的應用開發商開發的不同的業務系統,甚至說不同的監控軟件,所以開放性的 api 的豐富程度其實是一個非常重要的指標。那現在基本上主流的語言包括像 Java,php,python,C,C++,JavaScript,Go 等等這樣的一些語言,最好都需要支持到。所以開放性也是大家在去對日志分析平臺進行選擇時必須考慮的一個問題。
七牛云日志分析平臺 Pandora
那么有沒有這樣一個平臺能夠解決之前提到的所有問題呢?有,就是七牛的日志分析平臺 Pandora。它能夠實現對于日志的全生命周期的智能管理,比如之前提到的數據的收集、清洗、存儲、搜索、監控告警、分析、報表、開放等等相關方面,我們都有相關的技術和產品能夠去滿足用戶的需求。Pandora 能夠實現對于日志全生命周期的智能管理,適用于像運維分析,安全審計,業務數據分析等等各種場景,針對像互聯網,智能硬件,智能制造等行業,都能夠提供良好的支撐和價值。

這張圖是現在 Pandora 能力的全景圖,對應之前提到的八個方面,能夠發現其實 Pandora 已經覆蓋了用戶對于日志分析平臺的所有要求。 logkit 是我們的數據采集平臺,能夠支持數據的采集、解析、轉換、發送,然后 pipeline 就是基于大數據的技術,能夠幫助用戶進行實時和離線分析的一個大數據平臺。insight 就是數據分析平臺,支持對日志統一的存儲,搜索,報表,監控告警,api,分析與預測,包括機器學習等等相關的功能。
總結一下 Pandora 的優勢就是六點:數據規模大,處理速度快,開放接口巧,生態支持多,用戶體驗爽,公有云經驗足。Pandora 不僅支持公有云的服務,我們也可以做私有化的部署。這個可以根據用戶實際的情況來靈活選擇。
數據規模大 Pandora 現在支持在公有云上完全橫向擴展的存儲和計算設計。現在累計在云上的存儲數據超過了 40 個 pb,累計的計算數據超過 500 個 pb,傳統的 ELK 的方式是無法滿足這么大體量的數據的要求。
處理速度快 Pandora 支持實時計算能夠做到毫秒到秒級的響應。所有的日志能夠做到入庫打點毫秒級的響應。例如說系統端或者數據源端能夠實時產生的日志,我們就能夠實時把這些日志采集到我們的平臺上來,而且保證數據不丟失不冗余。
開放接口巧 我們所有的操作都有對應的 api 的支持,能夠很容易的去跟第三方的系統進行結合,這是我們的第三個優勢叫做開放接口巧。
生態支持多 我們支持現在業界主流的絕大多數的關系型數據庫,非關系型數據庫,消息隊列及一些大數據相關組件。具體的列表大家可以在我們的官網上看到。
用戶體驗爽 比如剛剛我們提到的字段自動統計、劃詞分析、聯合搜索、機器學習等等細節功能。我們都為用戶預先考慮到了,這些所有的易用性細節我們超過 200 項,我們所有的開發的目標和要求就是降低用戶的心智負擔,不要把日志分析看成是特別復雜的一個事情,讓大家能夠低門檻甚至零門檻的來使用我們的日志分析產品。簡單的把你的日志導入平臺,然后方便的得到日志分析的結果,能夠給用戶帶來業務方面的價值和提升。這個是 Pandora 希望能夠去實現的事情。
公有云經驗足 最后一個優勢,我們通過一些數據來證明我們的能力。第一個是現在每天向公有云上流入的數據超過 250 個 tb,超過 3650 億條日志。現在我們服務的客戶超過 200 家,每天參與的日志的計算量能夠達到 3.2 個 pb。我們每天也能夠對外提供超過一萬次的有效報警,這是一個非常健壯的平臺。所有的功能我們在公有云上完全向用戶開放,而且用戶也可以選擇將我們的平臺以私有化的方式部署在你本地的機房里面。
案例分享
最后還有一些時間我給大家分享一些案例。然后再來回答剛剛大家提到的一些問題。
七牛云
第一個案例就是七牛云,七牛云所有產品線產生的日志都會導入我們的日志分析平臺里面來,統一的匯聚、清洗、存儲、搜索等等,然后支撐我們內部的不同部門去使用這些日志。比如說商業運營部會去針對用戶日常的使用消費行為,去做用戶的畫像;產品研發部用來排查線上錯誤;技術支持部用來客服;質量保障部用來做質量分析與復盤;運維部用來做運維監控告警與成本分析。
銀行
第二個是一個大型銀行,該銀行擁有多個大型數據中心,且每個數據中心既有物理機提供服務,也有虛擬機提供服務,他們碰到的痛點是針對物理機和虛擬機、不同的網絡設備、不同的操作系統及不斷增加的海量業務數據,無法做到統一的收集、存儲與分析。 該銀行最后采用 Pandora 平臺,利用 logkit 統一收集各種設備的 metric,最后在平臺上做監控告警;同時也采用 logkit 讓業務方來收集業務日志,供業務方相關人員對這些日志進行檢索與分析,從而更快的定位問題,并且持續挖掘數據價值。
制造企業
第三個是華東的一個大型制造企業,也是我們剛才提到的物聯網的一個場景代表。客戶會把很多生產線上部署的傳感器的數據導入 Pandora。客戶整個車間和廠房非常大,所有的傳感器每秒鐘能產生百萬級別的數據。這樣百萬級別的數據需要實時地傳送到我的平臺上面來,然后對數據進行實時處理,在做實時監控的同時,也會生成一些多維度的報表,方便用戶對整個生產線的實時工作情況,包括生產線一段時間內的整體表現,進行一個精確分析。
互聯網公司
第四個案例是一個大型互聯網公司,主要業務是對外提供視頻點播類的服務。他們購買了七牛云的 cdn 服務,因此產生大量的 cdn 的日志,包括用戶來源于哪個地方,他訪問了哪些資源,他的整個訪問情況,和他平均打開視頻的時長等等。這樣的一些數據其實都在我們的 cdn 日志里面并且蘊含了很大的價值。該用戶基于我們的 cdn 日志,再結合我們的日志分析平臺,能夠分析出非常多的應用質量以及運營的指標,來對后續的業務進行支撐和決策分析。
大家如果有興趣的話可以去我們的官方網站上面看我們的產品介紹。下方有兩個網站,一個是七牛云的官網,上面可以去免費申請注冊賬戶來試用我們的平臺。第二個是我們的文檔站,大家在里面可以看到所有產品的具體介紹,而且他們也會提供典型的產品的場景描述和分析,能夠幫助大家更好地去理解對我們平臺的使用。
·?免費注冊: www.qiniu.com ·?快速了解: developer.qiniu.com/insight/

最后 one more thing,我們預計會在 9 月份推出這三個功能,第一個是多維分析,我們叫它 datacube。它能夠對用戶很多日常的關鍵運營指標做預計算,當你去查詢一些你關心的關鍵指標時,能夠更快地去輸出相關的結果。第二個是針對日常的運維監控,全鏈路的監控分析解決方案。第三個是我們針對具體故障做的一個根因分析。這個我們也會都在 9 月份推出來。請大家關注七牛云的官網,我們一有相關的消息就會及時通知大家。
感謝大家來聆聽我的一個簡單的分享。
Q&A
Q 有私有化部署案例嗎? 答:私有化部署案例是有的,我們遇到的很多傳統行業的客戶都是采用私有化部署方式來使用 Pandora 平臺,包括我們一些銀行案例,也是私有化部署的。事實上從 Pandora 誕生的第一天起,私有部署場景就是我們最關注的點之一。
Q 對于容器模塊的負載,能夠定位到某一個具體的進程嗎? 答:可以的,我們現在支持針對 k8s 的容器日志采集,可以針對容器模塊進行負載監控,能夠定位到具體的進程。
Q 可以自定義日志分析規則嗎? 答:可以的,我們支持非常靈活的日志分析的規則,你可以采用劃詞的方式來做日志的解析,并且將解析結果保存為規則,后續可以方便的為日志配置這些規則。
Q 如果使用云空間,日志量又很大,如何解決流量問題? 答:一些用戶在使用日志分析平臺的時候,會遇到類似擔心,如果日常業務和日志管理分析服務不在一個云上,會不會產生很多中間的流量費用。針對性這樣的情況我們有兩種解決方案: 一、七牛 Pandora 所有的日志采集傳輸都是有壓縮加密的,壓縮率在 10 倍以上,極大降低流量負擔; 二、如果有空閑的計算資源,可以是本地虛擬機或者云主機,我們也支持將日志分析服務以私有化部署的方式部署在本地或是第三方云平臺上,這樣在一個統一平臺里面,日志傳輸流量可以變成內部流量,一般來說內部流量的成本是很低的。
Q Pandora 和 ELK 有什么區別? 答:
-
我們全托管,開箱即用,按需付費,成本低
-
Pandora 的數據收集產品 logkit 無論是從體驗還是性能看,都遠好于 logstash/filebeat
-
我們支持靈活的企業級數據總線
-
我們在 「采集」的穩定性及功能豐富性上的表現遠好于 ES
-
在大規模數據量(十億條日志以上、TB 級別以上)的情況下系統穩定性及性能的表現好于 ES
-
ES 不支持數據脫敏
-
ES 不支持多租戶
-
ES 不支持用戶權限,安全審計等關鍵功能
-
ES 無內置機器學習支持
-
ES 無各種豐富解決方案的支持
總結來說,用 ELK 的場景都可以使用 Pandora 來完成,Pandora 提供了優秀的產品體驗。 而從功能集的角度考慮,Pandora 是 ELK 的超集,如可以輕松完成流式計算與多維分析等場景。
牛人說
「牛人說」專欄致力于技術人思想的發現,其中包括技術實踐、技術干貨、技術見解、成長心得,還有一切值得被發現的內容。我們希望集合最優秀的技術人,挖掘獨到、犀利、具有時代感的聲音。