大數據-玩轉數據-Flink網頁埋點PV統計

一、說明

衡量網站流量一個最簡單的指標,就是網站的頁面瀏覽量(Page View,PV)。用戶每次打開一個頁面便記錄1次PV,多次打開同一頁面則瀏覽量累計。
一般來說,PV與來訪者的數量成正比,但是PV并不直接決定頁面的真實來訪者數量,如同一個來訪者通過不斷的刷新頁面,也可以制造出非常高的PV。接下來我們就用Flink算子來實現PV的統計。

二、測試數據準備

把數據文件 UserBehavior 復制到project的input目錄下
用于封裝數據的JavaBean類

package com.atguigu.flink.java.chapter_6;
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;/*** @Author lizhenchao@atguigu.cn* @Date 2020/12/10 19:32*/
@Data
@NoArgsConstructor
@AllArgsConstructor
public class UserBehavior {private Long userId;private Long itemId;private Integer categoryId;private String behavior;private Long timestamp;
}

三、代碼

pv實現思路1: WordCount

package com.lyh.flink06;import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;public class PVcount {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.readTextFile("input/UserBehavior.csv").map(line -> { // 對數據切割, 然后封裝到POJO中String[] split = line.split(",");return new UserBehavior(Long.valueOf(split[0]),Long.valueOf(split[1]),Integer.valueOf(split[2]),String.valueOf(split[3]),Long.valueOf(split[4]));}).filter(behavior -> "pv".equals(behavior.getBehavior())) //過濾出pv行為.map(behavior -> Tuple2.of("pv", 1L)).returns(Types.TUPLE(Types.STRING, Types.LONG)) // 使用Tuple類型, 方便后面求和.keyBy(value -> value.f0)  // keyBy: 按照key分組.sum(1) // 求和.print();env.execute();}
}

pv實現思路2: process

package com.lyh.flink06;import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.KeyedProcessFunction;
import org.apache.flink.util.Collector;public class PVprocess {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(2);env.readTextFile("input/UserBehavior.csv").map(line -> {String[] split = line.split(",");return new UserBehavior(Long.valueOf(split[0]),Long.valueOf(split[1]),Integer.valueOf(split[2]),String.valueOf(split[3]),Long.valueOf(split[4]));}).filter(behavior -> "pv".equals(behavior.getBehavior())).keyBy(UserBehavior::getBehavior).process(new KeyedProcessFunction<String, UserBehavior, Long>() {long count = 0;@Overridepublic void processElement(UserBehavior userBehavior,Context ctx,Collector<Long> out) throws Exception {count++;out.collect(count);}}).print();env.execute();}
}

四、運行結果

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/37220.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/37220.shtml
英文地址,請注明出處:http://en.pswp.cn/news/37220.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

虹科干貨 | 化身向量數據庫的Redis Enterprise——快速、準確、高效的非結構化數據解決方案!

用戶期望在他們遇到的每一個應用程序和網站都有搜索功能。然而&#xff0c;超過80%的商業數據是非結構化的&#xff0c;以文本、圖像、音頻、視頻或其他格式存儲。Redis Enterprise如何實現矢量相似性搜索呢&#xff1f;答案是&#xff0c;將AI驅動的搜索功能集成到Redis Enter…

STABLE DIFFUSION模型及插件的存放路徑

記錄下學習SD的一些心得&#xff0c;使用的是秋葉大佬的集成webui&#xff0c;下載了之后點擊啟動器即可開啟&#xff0c;文件夾中的內容如下 主模型存放在models文件下的stable-diffusion文件夾內&#xff0c;一些擴展類的插件是存放在extensions文件夾下

【MFC】12.雙緩沖序列化機制-筆記

雙緩沖 雙緩沖在之前寫字符雨的時候&#xff0c;已經簡單介紹過&#xff0c;今天我們來寫一個簡單的程序來體會雙緩沖機制 我們實現一個在屏幕上畫直線的功能&#xff1a; 在類中添加變量&#xff0c;保存起點坐標和終點坐標&#xff1a; //定義一個容器&#xff0c;保存每…

【189】Java Spring利用HTTP輪詢遠程控制樹莓派4B繼電器開關

因為項目需求&#xff0c;要實現PC遠程控制警鈴的效果。警鈴結構簡單&#xff0c;只需要通上12V的直流電就可以報警。本文的樹莓派設備是在樹莓派4B的基礎上找硬件廠商搞的定制化產品。樹莓派4B通過4G網卡連接互聯網&#xff0c;并利用GPIO控制12V直流電的繼電器開關。樹莓派4B…

【設計模式】責任鏈模式

顧名思義&#xff0c;責任鏈模式&#xff08;Chain of Responsibility Pattern&#xff09;為請求創建了一個接收者對象的鏈。這種模式給予請求的類型&#xff0c;對請求的發送者和接收者進行解耦。這種類型的設計模式屬于行為型模式。 在這種模式中&#xff0c;通常每個接收者…

移動端預覽指定鏈接的pdf文件流

場景 直接展示外部系統返回的獲取文件流時出現了跨域問題&#xff1a; 解決辦法 1. 外部系統返回的請求頭中調整&#xff08;但是其他系統不會給你改的&#xff09; 2. 我們系統后臺獲取文件流并轉為新的文件流提供給前端 /** 獲取傳入url文件流 */ GetMapping("/get…

Java 正則表達式【非貪婪匹配、格式驗證、反向引用、API】

非貪婪匹配 非貪婪匹配的元字符是問號 ? 當此字符跟在任何其他限定符&#xff08;*、、&#xff1f;、{n}、{m}、{n,m}&#xff09;之后&#xff0c;匹配模式是 "非貪心的"。非貪心的意思就是每次匹配搜索到的盡可能短的字符串&#xff0c;可以是0個。 案例 對…

30 | 中國高校數據分析

一、數據源 本項目使用了兩個csv的數據文件,一個是中國高校(大學)的數據,一個是中國高校專業設置的數據 數據基本欄位:高校(大學)的數據高校專業設置的數據學校學校省份專業類別城市專業名稱地址國家特色專業水平層次辦學類別辦學類型985211雙一流二、數據分析目標 本…

電腦打開對話框中沒有桌面這個選項解決辦法

問題描述&#xff1a; 左側欄中的桌面圖標不顯示 解決方法&#xff1a; 左側的空白處右鍵-顯示所有的文件夾 這時所有的文件夾都顯示了&#xff01;

從魯大師十五年,尋找軟件的生存法則

千禧之年&#xff0c;國內互聯網用戶數量首次突破1000萬大關&#xff0c;互聯網的騰飛正式拉開序幕。 從彼時算起&#xff0c;中國互聯網發展也不過23年&#xff0c;而我們記憶中那個搖著蒲扇的老頭&#xff0c;卻占據了其中關鍵的十五年。 這十五年中有太多曾經為人熟知的軟件…

pointpillars怎么查看tensorboard

在PointPillars中使用TensorBoard來可視化訓練過程和模型性能是很常見的做法。TensorBoard是TensorFlow提供的一個強大的工具&#xff0c;用于可視化訓練過程、模型圖、損失曲線、準確率等。下面是在PointPillars中使用TensorBoard的一般步驟&#xff1a; 請注意&#xff0c;上…

CHATGPT源碼簡介與使用指南

CHATGPT源碼的基本介紹 CHATGPT源碼備受關注&#xff0c;它是一款基于人工智能的聊天機器人&#xff0c;旨在幫助開發者快速搭建自己的聊天機器人&#xff0c;無需編寫代碼。下面是對CHATGPT搭建源碼的詳細介紹。 CHATGPT源碼的構建和功能 CHATGPT源碼是基于Google的自然語言…

flutter開發實戰-MethodChannel實現flutter與iOS雙向通信

flutter開發實戰-MethodChannel實現flutter與iOS雙向通信 最近開發中需要iOS與flutter實現通信&#xff0c;這里使用的MethodChannel 如果需要flutter與Android實現雙向通信&#xff0c;請看 https://blog.csdn.net/gloryFlow/article/details/132218837 這部分與https://bl…

Linux——基礎IO(1)

目錄 0. 文件先前理解 1. C文件接口 1.1 寫文件 1.2 讀文件 1.3 輸出信息到顯示器 1.4 總結 and stdin & stdout & stderr 2. 系統調用文件I/O 2.1 系統接口使用示例 2.2 接口介紹 2.3 open函數返回值 3. 文件描述符fd及重定向 3.1 0 & 1 & 2 3.2…

【Spring Cloud Alibaba】RocketMQ的基礎使用,如何發送消息和消費消息

在現代分布式架構的開發中&#xff0c;消息隊列扮演著至關重要的角色&#xff0c;用于解耦系統組件、保障可靠性以及實現異步通信。RocketMQ作為一款開源的分布式消息中間件&#xff0c;憑借其高性能、高可用性和良好的擴展性&#xff0c;成為了眾多企業在構建高可靠性、高吞吐…

運維面試大全

文章目錄 第一階段平常怎么處理故障,思路是什么樣的公網和私網分類以及范圍,本機地址,網絡地址,廣播地址交換機的工作原理ICMP是什么干什么用的,它有哪些命令TCP和UDP協議的區別tcp有哪些控制位,分別是什么意思你是用過哪些Linux命令Linux 系統安全優化與內核優化經常使用…

stable diffusion 單張圖片換頭roop安裝配置

1.首先安裝秋葉大佬的webui 2.然后在拓展里面搜索roop,下載roop插件,然后重啟webui 3.重啟后,在文生圖和圖生圖的界面,就可以看到roop的入口 4.這里面,需要提前安裝Visual Studio. 勾選一些必要的選項,這里可以參照b站的視頻 # 秋葉版本Stablediffusion的Roop插件的安裝 …

JavaScript reduce深入了解

reduce() 是 JavaScript 數組的一個高階函數&#xff0c;它允許你將數組中的元素按順序依次合并為一個單一的值。reduce() 可以用于數組求和、計算平均值、連接字符串等各種情況。它的工作原理是通過迭代數組的每個元素&#xff0c;然后將元素和累加器進行某種操作&#xff0c;…

使用 Python 在 NLP 中進行文本預處理

一、說明 自然語言處理 &#xff08;NLP&#xff09; 是人工智能 &#xff08;AI&#xff09; 和計算語言學的一個子領域&#xff0c;專注于使計算機能夠理解、解釋和生成人類語言。它涉及計算機和自然語言之間的交互&#xff0c;允許機器以對人類有意義和有用的方式處理、分析…

Java # JVM內存管理

一、運行時數據區域 程序計數器、Java虛擬機棧、本地方法棧、Java堆、方法區、運行時常量池、直接內存 二、HotSpot虛擬機對象 對象創建&#xff1a; 引用檢查類加載檢查分配內存空間&#xff1a;指針碰撞、空閑列表分配空間初始化對象信息設置&#xff08;對象頭內&#xff0…