WD1X.COM - 问答一下,轻松解决,电脑应用解决专家
主板显卡CPU内存显示器
硬盘维修显卡维修显示器维修
注册表系统命令DOS命令Win8
存储光存储鼠标键盘
内存维修打印机维修
WinXPWin7Win11Linux
硬件综合机箱电源散热器手机数码
主板维修CPU维修键盘鼠标维修
Word教程Excel教程PowerPointWPS
网络工具系统工具图像工具
数据库javascript服务器
PHP教程CSS教程XML教程

Hive:解析复杂json格式字段

更新时间:2021-07-02 18:27 作者:eiyouwangding点击:

一. 问题背景

  1. 数据源

    hive数据表结构如下

    在这里插入图片描述

    其中info字段的数据类型为string格式的复杂json结构,例如:
    [{“name”:“Tom”, “city”:“Beijing”},{“name”:“Jack”, “city”:“Shanghai”},{“name”:“Bill”, “city”:“Tianjin”}]

  2. 需求

    现在需要统计每个id 中info字段所对应的用户数量,而最关键的一步就是将数据解析为如下类型:

在这里插入图片描述

二. 解决方法

  1. HQL代码

    先把代码放上来

SELECT
	`id`,
	get_json_object(concat('{',names,'}'),'$.name') as passengername
FROM test 
LATERAL VIEW explode(split(regexp_replace(regexp_replace(info,'\\[\\{',''),'}]',''),'},\\{'))names as names
WHERE day>'2020-05-01'
GROUP BY id;
  1. 相关函数

    • REGEXP_REPLACE(string INITIAL_STRING, string PATTERN, string REPLACEMENT)
      这个函数的作用为将某一字段中具有某种格式的文本替换为另一种文本。
      其中第一个参数为字段,第二个参数为要替换的文本格式,第三个参数为替换后的目标格式,第二第三个参数均使用正则表达。
    • SPLIT(string str, string pat)
      这个函数的用来将字符串分割,第一个参数为操作的字符串,第二个参数为分割符。
    • LATERAL VIEW EXPLODE()
      行转列,将一个字段内的内容拆成多行
    • CONCAT()
      将多个字符串合并为一个
    • get_jason_object(column, "$.parameter")
      用于解析json类型的数据,第一个参数是选择的字段,第二个参数是json数据中选择的参数
  2. 代码解析

    regexp_replace(regexp_replace(info,'\\[\\{',''),'}]','')
    

    通过两层嵌套去掉了最外层的[ { } ] 括号

    split(regexp_replace(regexp_replace(info,'\\[\\{',''),'}]',''),'},\\{')
    

    通过‘{’ ‘}’将几个json数据分开

    LATERAL VIEW explode(split(regexp_replace(regexp_replace(info,'\\[\\{',''),'}]',''),'},\\{'))names as names
    

    将几个json文本拆分成多行

    get_json_object(concat('{',names,'}'),'$.name') as passengername
    

    由于字符串切割的时候把每个json的大括号去了,所以使用get_json_object()时要先再加上两个大括号

  3. 容易踩的坑

    当我把代码写好运行之后发现有报错,我猜测是lateral view explode()这一行的问题,后来一排查发现果然是这儿的问题,我一开始的代码是

    LATERAL VIEW explode()as names
    

    正确的语法应该是

    LATERAL VIEW explode()names as names
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
你可能感兴趣的内容