自動生成web服務器日志解析規則

自動生成web服務器日志解析規則

news/2025/7/20 20:32:55/文章來源:https://blog.csdn.net/weixin_34355715/article/details/92394467

2019獨角獸企業重金招聘Python工程師標準>>>

當前web服務器的多樣化使得訪問日志的數據清洗變得越來越復雜，企業需要投入專業的數據清洗人員編寫數據清洗規則（解析規則或者解析正則），或者需要關心web服務器訪問日志的生成規則。手寫web服務數據解析規則存在以下3個問題：（1）需要投入專業技術人才完成編寫，成本高；（2）人工書寫解析規則容易犯錯；（3）解析規則生成不可復用，新的web服務需要重新編寫。如果能自動生成web服務器的日志，將大大提高web服務器日志接入和數據可視化過程。基于此，袋鼠云技術小組自研了日志解析規則自動生成組件，適用于nginx、apcahe、iis服務器，同時兼容類似這三種服務器日志規范的其他web服務器。以下內容將詳細說明web日志解析規則自動生成的過程，關鍵步驟有圖片演示。

?

web服務器的日志往往有著一定的規范，比如nginx的日志規范如圖所示，參見這里：

WEBRESOURCE7485e808caae471fcd9d6f23e9ba8

如上設置，日志內容將嚴格按照設定的字段順序打印，缺失的字段會適用占位符，如符號‘-‘，各字段被分隔符依次分開。

以下內容的基本原理是：

（1）日志取樣，獲取行日志分割符，把日志按照分隔符拆分；

（2）依次解析分割后的字段，生成字段類型序列；

（3）按照字段類型和順序，依次給字段命名，生成解析規則；

以上過程的流程圖如圖所示：

WEBRESOURCE6e9bece187f81edcc943452f293de

樣例演示

使用如上的方法生成下圖所示的nginx樣例日志的解析規則：

WEBRESOURCEae910dd33e4c01aefa93957c3faab

?

?

首先進行字段拆分，按照字段順序生成正則序列，如下圖所示，樣例日志中依次包含IP、時間、URL，數字和用戶瀏覽器標識useragent字段；

WEBRESOURCE4392963022c11faf4cc6a29b82089

?

然后按照正則序列對字段進行映射，樣例日志是nginx日志，nginx日志的默認類型和字段映射關系如下：

IP->remoteAddr,

TIMESTAMP->timeLocal,

URL->request,

NUM1->status,

NUM2->bodybytesSend,

USERAGENT->useragent;

映射之后生成默認解析規則，結果如下圖所示，生成結束。

然后對生成的解析規則進行多輪檢驗并重復以上過程，最終生成匹配度最高的解析規則。

?

轉載于:https://my.oschina.net/u/3611008/blog/2876082

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/253031.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/253031.shtml
英文地址，請注明出處：http://en.pswp.cn/news/253031.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

mybatis一級緩存二級緩存

mybatis一級緩存二級緩存

一級緩存 Mybatis對緩存提供支持，但是在沒有配置的默認情況下，它只開啟一級緩存，一級緩存只是相對于同一個SqlSession而言。所以在參數和SQL完全一樣的情況下，我們使用同一個SqlSession對象調用一個Mapper方法，往往只執…

閱讀更多...

CMOS Sensor的調試分享

CMOS Sensor的調試分享

目前，包括移動設備在內的很多多媒體設備上都使用了攝像頭，而且還在以很快的速度更新換代。目前使用的攝像頭分為兩種：CCD(Charge Couple Device電荷偶合器件)和 CMOS(Complementary Metal Oxide Semiconductor互補金屬氧化物半導體)。這兩種各…

閱讀更多...

利用反射修改final數據域

利用反射修改final數據域

當final修飾一個數據域時，意義是聲明該數據域是最終的，不可修改的。常見的使用場景就是eclipse自動生成的serialVersionUID一般都是final的。另外還可以構造線程安全（thread safe）的immutable類，比如String&#xff0…

閱讀更多...

mysql簡單創建數據庫權限（待修改備注）

mysql簡單創建數據庫權限（待修改備注）

CREATE DATABASE web DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;一、環境：CentOS 6.8mysql 5.6二、背景給外包的工作人員提供我司某臺服務器的 mysql 中某個數據庫的訪問權限。之所以要做限制，是防止他們對我司其他的數據庫非法進行操作。三、…

閱讀更多...

Centos 能ping通域名和公網ip但是網站不能夠打開，服務器拒絕了請求。打開80端口解決。...

Centos 能ping通域名和公網ip但是網站不能夠打開，服務器拒絕了請求。打開80端口解決。...

博客搬遷，給你帶來的不便，敬請諒解！ http://www.suanliutudousi.com/2017/10/29/centos-%E8%83%BDping%E9%80%9A%E5%9F%9F%E5%90%8D%E5%92%8C%E5%85%AC%E7%BD%91ip%E4%BD%86%E6%98%AF%E7%BD%91%E7%AB%99%E4%B8%8D%E8%83%BD%E5%A4%9F%E6%89%93…

閱讀更多...

ISP 圖像傳感器camera原理

ISP 圖像傳感器camera原理

1、Color Filter Array — CFA 隨著數碼相機、手機的普及，CCD/CMOS 圖像傳感器近年來得到廣泛的關注和應用。圖像傳感器一般都采用一定的模式來采集圖像數據，常用的有 BGR 模式和 CFA 模式。BGR 模式是一種可直接進行顯示和壓縮等處理的圖像數據模式&am…

閱讀更多...

51nod 1027 大數乘法

51nod 1027 大數乘法

1027 大數乘法基準時間限制：1 秒空間限制：131072 KB 分值: 0 難度：基礎題收藏關注給出2個大整數A,B，計算A*B的結果。 Input第1行：大數A 第2行：大數B (A,B的長度 < 1000，A,B > 0&#xff…

閱讀更多...

file mmap

file mmap

do_set_pmd統計參數只會在這里設置： add_mm_counter(vma->vm_mm, MM_FILEPAGES, HPAGE_PMD_NR);但是這貌似都是處理大頁的情況哪，小頁呢？ alloc_set_pte中有函數：inc_mm_couter_fast(vma->vm_mm, mm_couter_file(page)&…

閱讀更多...

Linux鏈接庫三（C跟C++之間動態庫的相互調用）

Linux鏈接庫三（C跟C++之間動態庫的相互調用）

http://www.cppblog.com/wolf/articles/74928.html http://www.cppblog.com/wolf/articles/77828.html http://www.jb51.net/article/34990.htm C和C之間庫的互相調用 extern "C"的理解： 很多人認為"C"表示的C語言，實際并非如此&…

閱讀更多...

C#如何開發多語言支持的Winform程序

C#如何開發多語言支持的Winform程序

C# Winform項目多語言實現(支持簡/繁/英三種語言)有很多種方案實現多語言，我在這里介紹一種最簡單最容易理解的，作為教學材題應該從通俗易懂入手。在寫這篇文章之前，本來想用枚舉窗體對象成員的方式設置語言，但是找不到源代碼了&a…

閱讀更多...

Alpha 沖刺（2/10）

Alpha 沖刺（2/10）

Alpha 沖刺 （2/10） 隊名：第三視角組長博客鏈接本次作業鏈接團隊部分團隊燃盡圖工作情況匯報張揚（組長） 過去兩天完成了哪些任務： 文字/口頭描述： 1、學習qqbot庫； 2、實時保存…

閱讀更多...

Linux學習之第二課時--linux命令格式及命令概述

Linux學習之第二課時--linux命令格式及命令概述

命令概述 Linux提供了大量的命令，利用它可以有效地完成大量的工作，如磁盤管理，文件存取，目錄操作，進程管理，文件權限設定等 Linux命令格式 Linux命令的組成部分：命令字命令選項參數&#xff…

閱讀更多...

Linux C語言調用C++動態鏈接庫

Linux C語言調用C++動態鏈接庫

Linux C語言調用C動態鏈接庫標簽： C調用C庫 2014-03-10 22:56 3744人閱讀評論(0) 收藏舉報分類： 【Linux應用開發】（48） 版權聲明：本文為博主原創文章，未經博主允許不得轉載。如果你有一個c做的動態…

閱讀更多...

Android實踐 -- 對apk進行系統簽名

Android實踐 -- 對apk進行系統簽名

對apk進行系統簽名簽名工具網盤下載 ，需要Android系統的簽名的文件platform.x509.pem 和 platform.pk8 這個兩個文件在Android源碼中的 ./build/target/product/security 目錄下具體的使用方法： java -jar signapk.jar platform.x509.pem platform.…

閱讀更多...

Java編寫基于netty的RPC框架

Java編寫基于netty的RPC框架

一簡單概念RPC: ( Remote Procedure Call),遠程調用過程,是通過網絡調用遠程計算機的進程中某個方法,從而獲取到想要的數據,過程如同調用本地的方法一樣.阻塞IO :當阻塞I/O在調用InputStream.read()方法是阻塞的,一直等到數據到來時才返回,同樣ServerSocket.accept()方法時,也…

閱讀更多...

linux下c和c++互相調用

linux下c和c++互相調用

c調用cpp 創建個目錄創建4個文件 c.c--c文件 cpp.cpp--c文件 cpp.hh--c聲明文件 Makefile c.c [javascript] view plaincopy#include "cpp.hh" int main() { cpp_fun(); } cpp.cpp [cpp] view plaincopy#include "cpp.hh" #include <stdi…

閱讀更多...

Applications Manager Docker監控

Applications Manager Docker監控

Docker 是一個流行的開源容器應用程序，允許您將應用程序、應用程序的內部依賴和關聯庫打包到一個單元中。Docker 的主要優點在于單臺機器上的多個 docker 容器共享同一操作系統內核，這可以幫助提升性能和節省大量內存。監控 docker 容器會很困難&#xf…

閱讀更多...

find

find

Linux中find常見用法示例 find path -option [ -print ] [ -exec -ok command ] {} \; find命令的參數； pathname: find命令所查找的目錄路徑。例如用.來表示當前目錄，用/來表示系統根目錄。-print： find命令將匹配的文件輸出…

閱讀更多...

PHP將多個文件中的內容合并為新的文件

PHP將多個文件中的內容合并為新的文件

function test(){$hostdir iconv("utf-8","gbk","C:\Users\原萬里\Desktop\日常筆記") ; //iconv()轉換編碼方式，將UTF-8轉換為gbk，若是報錯在gbk后加//IGNORE$filesnames scandir($hostdir); …

閱讀更多...

HTTP Live Streaming直播(iOS直播)技術分析與實現

HTTP Live Streaming直播(iOS直播)技術分析與實現

不經意間發現，大半年沒寫博客了，自覺汗顏。實則2012后半年，家中的事一樣接著一樣發生，實在是沒有時間。快過年了，總算忙里偷閑，把最近的一些技術成果，總結成了文章，與大家分享。前些…

閱讀更多...

最新文章