【大數據】Flink SQL 語法篇（九）：Window TopN、Deduplication

《Flink SQL 語法篇》系列，共包含以下 10 篇文章：

Flink SQL 語法篇（一）：CREATE
Flink SQL 語法篇（二）：WITH、SELECT & WHERE、SELECT DISTINCT
Flink SQL 語法篇（三）：窗口聚合（TUMBLE、HOP、SESSION、CUMULATE）
Flink SQL 語法篇（四）：Group 聚合、Over 聚合
Flink SQL 語法篇（五）：Regular Join、Interval Join
Flink SQL 語法篇（六）：Temporal Join
Flink SQL 語法篇（七）：Lookup Join、Array Expansion、Table Function
Flink SQL 語法篇（八）：集合、Order By、Limit、TopN
Flink SQL 語法篇（九）：Window TopN、Deduplication
Flink SQL 語法篇（十）：EXPLAIN、USE、LOAD、SET、SQL Hints

😊 如果您覺得這篇文章有用 ?? 的話，請給博主一個一鍵三連 🚀🚀🚀 吧（點贊 🧡、關注 💛、收藏 💚）！！！您的支持 💖💖💖 將激勵 🔥 博主輸出更多優質內容！！！

Flink SQL 語法篇（九）：Window TopN、Deduplication

1.Window TopN
2.Deduplication
- 2.1 案例 1（事件時間）
- 2.2 案例 2（處理時間）

1.Window TopN

Window TopN 定義（支持 Streaming）：Window TopN 是一種特殊的 TopN，它的返回結果是每一個窗口內的 N 個最小值或者最大值。

應用場景：小伙伴萌會問了，我有了 TopN 為啥還需要 Window TopN 呢？還記得上一篇博客介紹 TopN 說道的 TopN 時會出現中間結果，從而出現回撤數據的嘛？Window TopN 不會出現回撤數據，因為 Window TopN 實現是在窗口結束時輸出最終結果，不會產生中間結果。而且注意，因為是窗口上面的操作，Window TopN 在窗口結束時，會自動把 State 給清除。

SQL 語法標準：

SELECT [column_list]
FROM (SELECT [column_list],ROW_NUMBER() OVER (PARTITION BY window_start, window_end [, col_key1...]ORDER BY col1 [asc|desc][, col2 [asc|desc]...]) AS rownumFROM table_name) -- windowing TVF
WHERE rownum <= N [AND conditions]

實際案例：取當前這一分鐘的搜索關鍵詞下的搜索熱度前 10 名的詞條數據。

-- 輸入表字段：
-- 字段名         備注
-- key              搜索關鍵詞
-- name             搜索熱度名稱
-- search_cnt       熱搜消費熱度（比如 3000）
-- timestamp        消費詞條時間戳CREATE TABLE source_table (name BIGINT NOT NULL,search_cnt BIGINT NOT NULL,key BIGINT NOT NULL,row_time AS cast(CURRENT_TIMESTAMP as timestamp(3)),WATERMARK FOR row_time AS row_time
) WITH (...
);-- 輸出表字段：
-- 字段名         備注
-- key              搜索關鍵詞
-- name             搜索熱度名稱
-- search_cnt       熱搜消費熱度（比如 3000）
-- window_start     窗口開始時間戳
-- window_end       窗口結束時間戳CREATE TABLE sink_table (key BIGINT,name BIGINT,search_cnt BIGINT,window_start TIMESTAMP(3),window_end TIMESTAMP(3)
) WITH (...
);-- 處理 sql：INSERT INTO sink_table
SELECT key, name, search_cnt, window_start, window_end
FROM (SELECT key, name, search_cnt, window_start, window_end, ROW_NUMBER() OVER (PARTITION BY window_start, window_end, keyORDER BY search_cnt desc) AS rownumFROM (SELECT window_start, window_end, key, name, max(search_cnt) as search_cnt-- window tvf 寫法FROM TABLE(TUMBLE(TABLE source_table, DESCRIPTOR(row_time), INTERVAL '1' MINUTES))GROUP BY window_start, window_end, key, name)
)
WHERE rownum <= 100

輸出結果：

+I[關鍵詞1, 詞條1, 8670, 2021-1-28T22:34, 2021-1-28T22:35]
+I[關鍵詞1, 詞條2, 6928, 2021-1-28T22:34, 2021-1-28T22:35]
+I[關鍵詞1, 詞條3, 1735, 2021-1-28T22:34, 2021-1-28T22:35]
+I[關鍵詞1, 詞條4, 7287, 2021-1-28T22:34, 2021-1-28T22:35]
...

SQL 語義：

數據源：數據源即最新的詞條下面的搜索詞的搜索熱度數據，消費到 Kafka 中數據后，將數據按照窗口聚合的 Key 通過 Hash 分發策略發送到下游窗口聚合算子。
窗口聚合算子：進行窗口聚合計算，隨著時間的推進，將窗口聚合結果計算完成發往下游窗口排序算子。
窗口排序算子：這個算子其實也是一個窗口算子，只不過這個窗口算子為每個 Key 維護了一個 TopN 的榜單數據，接受到上游發送的窗口結果數據進行排序，隨著時間的推進，窗口的結束，將排序的結果輸出到下游數據匯算子。
數據匯：接收到上游的數據之后，然后輸出到外部存儲引擎中。

2.Deduplication

Deduplication 定義（支持 Batch / Streaming）：Deduplication 其實就是去重，也即上文介紹到的 TopN 中 row_number = 1 的場景，但是這里有一點不一樣在于其 排序字段 一定是 時間屬性列，不能是其他非時間屬性的普通列。在 row_number = 1 時，如果排序字段是普通列 Planner 會翻譯成 TopN 算子，如果是時間屬性列 Planner 會翻譯成 Deduplication，這兩者最終的執行算子是不一樣的，Deduplication 相比 TopN 算子專門做了對應的優化，性能會有很大提升。

應用場景：比如上游數據發重了，或者計算 DAU 明細數據等場景，都可以使用 Deduplication 語法去做去重。

SQL 語法標準：

SELECT [column_list]
FROM (SELECT [column_list],ROW_NUMBER() OVER ([PARTITION BY col1[, col2...]]ORDER BY time_attr [asc|desc]) AS rownumFROM table_name)
WHERE rownum = 1

ROW_NUMBER()：標識當前數據的排序值。
PARTITION BY col1[, col2...]：標識分區字段，代表按照這個 col 字段作為分區粒度對數據進行排序。
ORDER BY time_attr [asc|desc]：標識排序規則，必須為時間戳列，當前 Flink SQL 支持處理時間、事件時間，ASC 代表保留第一行，DESC 代表保留最后一行。
WHERE rownum = 1：這個子句是一定需要的，而且必須為 rownum = 1。

2.1 案例 1（事件時間）

某一游戲用戶等級的場景，每一個用戶都有一個用戶等級，需要求出當前用戶等級在星星?，月亮🌙，太陽🌞 的用戶數分別有多少。

-- 數據源：當每一個用戶的等級初始化及后續變化的時候的數據，即用戶等級變化明細數據。
CREATE TABLE source_table (user_id BIGINT COMMENT '用戶 id',level STRING COMMENT '用戶等級',row_time AS cast(CURRENT_TIMESTAMP as timestamp(3)) COMMENT '事件時間戳',WATERMARK FOR row_time AS row_time
) WITH ('connector' = 'datagen','rows-per-second' = '1','fields.level.length' = '1','fields.user_id.min' = '1','fields.user_id.max' = '1000000'
);-- 數據匯：輸出即每一個等級的用戶數
CREATE TABLE sink_table (level STRING COMMENT '等級',uv BIGINT COMMENT '當前等級用戶數',row_time timestamp(3) COMMENT '時間戳'
) WITH ('connector' = 'print'
);-- 處理邏輯：
INSERT INTO sink_table
select level, count(1) as uv, max(row_time) as row_time
from (SELECTuser_id,level,row_time,row_number() over(partition by user_id order by row_time) as rnFROM source_table
)
where rn = 1
group by level

輸出結果：

+I[等級 1, 6928, 2021-1-28T22:34]
-I[等級 1, 6928, 2021-1-28T22:34]
+I[等級 1, 8670, 2021-1-28T22:34]
-I[等級 1, 8670, 2021-1-28T22:34]
+I[等級 1, 77287, 2021-1-28T22:34]
...

可以看到其有回撤數據。

其對應的 SQL 語義如下：

數據源：消費到 Kafka 中數據后，將數據按照 partition by 的 Key 通過 Hash 分發策略發送到下游去重算子。
Deduplication 去重算子：接受到上游數據之后，根據 order by 中的條件判斷當前的這條數據和之前數據時間戳大小，以上面案例來說，如果當前數據時間戳大于之前數據時間戳，則撤回之前向下游發的中間結果，然后將最新的結果發向下游（發送策略也為 Hash，具體的 Hash 策略為按照 group by 中 Key 進行發送），如果當前數據時間戳小于之前數據時間戳，則不做操作。此算子產出的結果就是每一個用戶的對應的最新等級信息。
Group by 聚合算子：接受到上游數據之后，根據 Group by 聚合粒度對數據進行聚合計算結果（每一個等級的用戶數），發往下游數據匯算子。
數據匯：接收到上游的數據之后，然后輸出到外部存儲引擎中。

2.2 案例 2（處理時間）

最原始的日志是明細數據，需要我們根據用戶 id 篩選出這個用戶當天的第一條數據，發往下游，下游可以據此計算分各種維度的 DAU。

-- 數據源：原始日志明細數據
CREATE TABLE source_table (user_id BIGINT COMMENT '用戶 id',name STRING COMMENT '用戶姓名',server_timestamp BIGINT COMMENT '用戶訪問時間戳',proctime AS PROCTIME()
) WITH ('connector' = 'datagen','rows-per-second' = '1','fields.name.length' = '1','fields.user_id.min' = '1','fields.user_id.max' = '10','fields.server_timestamp.min' = '1','fields.server_timestamp.max' = '100000'
);-- 數據匯：根據 user_id 去重的第一條數據
CREATE TABLE sink_table (user_id BIGINT,name STRING,server_timestamp BIGINT
) WITH ('connector' = 'print'
);-- 處理邏輯：
INSERT INTO sink_table
select user_id,name,server_timestamp
from (SELECTuser_id,name,server_timestamp,row_number() over(partition by user_id order by proctime) as rnFROM source_table
)
where rn = 1

輸出結果：

+I[1, 用戶 1, 2021-1-28T22:34]
+I[2, 用戶 2, 2021-1-28T22:34]
+I[3, 用戶 3, 2021-1-28T22:34]
...

可以看到這個處理邏輯是沒有回撤數據的。其對應的 SQL 語義如下：

數據源：消費到 Kafka 中數據后，將數據按照 partition by 的 Key 通過 Hash 分發策略發送到下游去重算子。
Deduplication 去重算子：處理時間語義下，如果是當前 Key 的第一條數據，則直接發往下游，如果判斷（根據 State 中是否存儲過該 Key）不是第一條，則直接丟棄。
數據匯：接收到上游的數據之后，然后輸出到外部存儲引擎中。

? 在 Deduplication 關于是否會出現回撤流，博主總結如下：