Hive的窗口函數

定義：
聚合函數是針對定義的行集(組)執行聚集,每組只返回一個值.如sum()、avg()、max()
窗口函數也是針對定義的行集(組)執行聚集,可為每組返回多個值.如既要顯示聚集前的數據,又要顯示聚集后的數據.步驟：
1.將記錄分割成多個分區.
2.在各個分區上調用窗口函數.  語法：
--先執行over后面的部分,再執行over前面的部分.  
function() over (PARTITION BY(col1,col2...) ORDER BY(col3,col4...))
--函數       over  根據某條件分組,形成一個小組   再組內進行排序

--現有一張表wt1，字段有id、name、age，數據如下
--數據
1   a1  10
2   a2  10
3   a3  10
4   a4  20
5   a5  20
6   a6  20
7   a7  20
8   a8  30

統計函數

不分區只排序

-- 窗口范圍是整個表
-- 按照age排序,每階段的age數據進行統計求和.
select id,name,age,count() over (order by age) as n from wt1;

在這里插入圖片描述

相同字段分區、排序

-- 窗口范圍是表下按照age進行分區
-- 在分區里面,再按照age進行排序
select id,name,age,count() over (partition by age order by age) as n from wt1;  
-- 若分區和排序是同一字段時,可以省略order by語句.

在這里插入圖片描述

不同字段分區、排序

-- 窗口范圍是表下按照age進行分區
-- 在分區里面,再按照id進行排序
select id,name,age,count() over (partition by age order by id) as n from wt1;  
-- 可以根據需要對order by進行asc,desc

在這里插入圖片描述

序列函數

rank

會對相同數值,輸出相同的序號,而且下一個序號間斷,  如:1、1、3、3、5. rank(等級)

dense_rank

會對相同數值,輸出相同的序號,而且下一個序號不間斷,如:1、1、2、2、3. dense(稠密的)

row_number

會對所有數值,輸出不同的序號,序號唯一且連續,如:1、2、3、4、5.

select id,name,age,sex,
rank() over(partition by sex order by age desc) as rk,
dense_rank() over(partition by sex  order by age desc) as drk,
row_number() over(partition by sex order by age desc) as rn
from stu;

在這里插入圖片描述

行選擇函數

-- 語法
over (rows between num 函數 and 函數)-- 關鍵詞釋義
:'
following
在后N行; following--(時間上)接著的,下述的,下列的.
preceding
在前N行; preceding--在…之前發生(或出現),先于,走在…前面.
unbounded
不限行數; unbounded--無窮的,無盡的,無限的.  
current row
當前行; current--現時發生的,當前的,現在的,通用的,流通的,流行的.
'-- 窗口中的整個范圍
rows between unbounded preceding and unbouned following
-- 從窗口的前無限行到當前行
rows between unbounded preceding and current row
-- 從窗口的當前行的前2行到當前行
rows between 2 preceding and current row
-- 從窗口的當前行到當前行的后2行
rows between current row and 2 following

-- 現有一張表sale、有y、m、rmb三個字段，數據如下
-- 數據
年份  月份  銷售額
2017    01  1000
2017    02  1000
2017    03  3000
2017    04  3000
2017    05  5000
2017    06  5000
2017    07  1000
2017    08  1000
2017    09  3000
2017    10  3000
2017    11  5000
2017    12  5000
2018    01  1000
2018    02  2000
2018    03  3000
2018    04  4000
2018    05  5000
2018    06  6000

-- 查詢當月銷售額和近三個月的銷售額
select y,m,rmb,
sum(rmb) over(order by y,m rows between 2 preceding and current row) as s
from sale;
-- 從結果可以看出,窗口函數的結果是包括本行在內的前三月的總和.

在這里插入圖片描述

-- 查詢當月銷售額和今年年初到當月的銷售額
SELECT y,m,rmb,
sum(rmb) over(partition by y order by m rows between unbounded preceding and current row) as s
from sale;

在這里插入圖片描述

值選擇函數

-- 上面知道了行選擇函數的寫法是：
sum() over(partition by xx order by xx rows between xx and xx)
-- 相類似的，值選擇函數的寫法就是：
sum() over(partition by xx order by xx range between xx and xx)? rows是物理窗口，是哪一行就是哪一行，與當前行的值（order by key的key的值）無關，只與排序后的行號相關，就是我們常規理解的那樣。
? range是邏輯窗口，與當前行的值有關（order by key的key的值）,在key上操作range范圍。

切片函數

-- ntile(n),用于將數據按照排序規則切分成n片,返回當前切片的序號,ntile不支持 rows between.

select y,m,rmb,ntile(2) over (partition by y order by m desc) as n from sale;

在這里插入圖片描述

-- 如果切片不均勻,默認增加第一個切片的分布.  
select y,m,rmb,ntile(5) over (order by y,m) as n from sale;

在這里插入圖片描述

lag、lead分析函數

-- lag和lead分析函數可以在同一次查詢中取出同一字段的前N行的數據(Lag)和后N行的數據(Lead)作為獨立的列。
-- 這種操作可以代替表的自聯接，并且LAG和LEAD有更高的效率，其中over()表示當前查詢的結果集對象，括號里面的語句則表示對這個結果集進行處理.-- 函數介紹
LAG
LAG(col,n,DEFAULT) 用于統計窗口內往上第n行值
參數1為列名，參數2為往上第n行（可選，默認為1），參數3為默認值（當往上第n行為NULL時候，取默認值，如不指定，則為NULL）LEAD
與LAG相反
LEAD(col,n,DEFAULT) 用于統計窗口內往下第n行值
參數1為列名，參數2為往下第n行（可選，默認為1），參數3為默認值（當往下第n行為NULL時候，取默認值，如不指定，則為NULL).

select y,m,rmb,
lag(rmb,1) over(partition by y order by m) as lag_rmb,
lead(rmb,1) over(partition by y order by m) as lead_rmb
from sale;

first_value()、last_value()取值函數

-- first_value() 的結果容易理解，直接在結果的所有行記錄中輸出同一個滿足條件的首個記錄；-- last_value() 默認統計范圍: rows between unbounded preceding and current row，也就是取當前行數據與當前行之前的數據的比較，如果需要在結果的所有行記錄中輸出同一個滿足條件的最后一個記錄，在order by 條件的后面加上語句：rows between unbounded preceding and unbounded following。

select y,m,rmb,
first_value(rmb) over(partition by y order by rmb desc) as rmb_first,
last_value(rmb) over(partition by y order by rmb desc rows between unbounded preceding and unbounded following) as rmb_last
from sale;

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/13723.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/13723.shtml
英文地址，請注明出處：http://en.pswp.cn/web/13723.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！