hive正则表达式

时间：2014-08-05 19:20:30 阅读：277 评论：0 收藏：0 [点我收藏+]

hive中实现正则表达式，与java中的正则表达式有所区别：

这里经过探索总结了一些：

hive中的正则可以用，但是有所区别，区别在于原来的‘\’ 转义，这里变成了双斜杠了‘\\’

hive中的正则解析函数：regexp_extract; 例如：‘匹配 10.122.248’

select regexp_extract(host,‘(^[\\w]+)\\.([\\w]+)\\.([\\w]+)‘,0) aa from browsewebpagelog where dt like ‘20140630%‘;

第一参数：要处理的字段，第二参数需要匹配的正则表达式，第三个参数:0是显示与之匹配的整个字符串，1,是显示第一个括号里面的，2是显示第二个括号里面的字段...

语法: regexp_extract(string subject, string pattern, int index)

返回值: string

说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。注意，在有些情况下要使用转义字符

举例：

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 1) from dual;

the

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 2) from dual;

bar

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 0) from dual;

foothebar

注：有些博客上用 rlike匹配正则，我试过它的含义是只要出现你所制定的正则时，都给你匹配上，你必须添加开始‘^’的符号，否则匹配的结果绝对不是所期望的。

hive正则表达式,布布扣,bubuko.com

hive正则表达式

标签：hive 正则

原文地址：http://blog.csdn.net/u014078192/article/details/38388943

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行