sql中的多行合併函數collect_set、collect_list 、concat_ws

從資料庫取N個字段，然後組合到一起用“，”分割顯示，起初想到用CONCAT()來處理，好是麻煩，沒想到在手冊裡居然有提到CONCAT_WS()，非常好用。

CONCAT_WS(separator, str1, str2,...)

它是一個特殊形式的CONCAT()，第一個參數剩餘參數間的分隔符，分隔符可以是與剩餘參數一樣的字串，如果分隔符號是NULL，則回傳值也會為NULL，這個函數會跳過分隔符號參數後的任何NULL 和空字串，分隔符號將會被加到被連接的字串之間。

簡單例子如下：

mysql> SELECT CONCAT_WS(",","First name","Second name","Last Name");
       -> 'First name,Second name,Last Name'
mysql> SELECT CONCAT_WS(",","First name",NULL,"Last Name");
       -> 'First name,Last Name'

Hive中collect相關的函數有collect_list和collect_set。

它們都是將分組中的某列轉為一個陣列傳回，不同的是collect_list不去重而collect_set去重。

做簡單的實驗加深理解，創建一張實驗用表，存放用戶每天點播影片的記錄：

create table t_visit_video (
    username string,
    video_name string
) partitioned by (day string)
row format delimited fields terminated by ',';

在本機檔案系統建立測試資料檔：

张三,大唐双龙传
李四,天下无贼
张三,神探狄仁杰
李四,霸王别姬
李四,霸王别姬
王五,机器人总动员
王五,放牛班的春天
王五,盗梦空间

將資料載入到Hive表：

load data local inpath '/root/hive/visit.data' into table t_visit_video partition (day='20180516');

按用戶分組，取出每位用戶每天看過的所有影片的名字：

select username, collect_list(video_name) from t_visit_video group by username ;

张三  ["大唐双龙传","神探狄仁杰"]
李四  ["天下无贼","霸王别姬","霸王别姬"]
…………

但上面的查詢結果有點問題，因為霸王別姬實在太好看了，所以李四這傢伙看了兩遍，這直接就導致得到的觀看過視頻列表有重複的，所以應該增加去重，使用collect_set，其與collect_list的差別就是會去重：

select username, collect_set(video_name) from t_visit_video group by username;

张三  ["大唐双龙传","神探狄仁杰"]
李四  ["天下无贼","霸王别姬"]
…………

李四的觀看紀錄中霸王別姬只出現了一次，實現了去重效果。

突破group by限制

也可以利用collect來突破group by的限制，Hive中在group by查詢的時候要求出現在select後面的列都必須是出現在group by後面的，即select列必須是作為分組依據的列，但是有的時候我們想根據A進行分組然後隨便取出每個分組中的一個B，代入到這個實驗中就是按照用戶進行分組，然後隨便拿出一個他看過的視頻名稱即可：

select username, collect_list(video_name)[0] from t_visit_video group by username;

张三  大唐双龙传
李四 天下无贼
…………

video_name不是分組列，依然能夠取出這列中的資料。

摘錄彙整於：

HTTPS://嗚嗚嗚.cn blog上.com/loco有/archive/2006/10/28/542751.HTML

HTTPS://嗚嗚嗚.cn blog上.com/曹操11001100/怕/9043946.HTML

sql中的多行合併函數collect_set、collect_list 、concat_ws

發表評論

Categories

Tags