返回类型
|
|
|
|
|
|
|
|
|
|
concat(string A, string B…)
|
连接多个字符串,合并为一个字符串,可以接受任意数量的输入字符串
|
|
concat_ws(string SEP, string A, string B…)
|
|
|
substr(string A, int start) substring(string A, int start)
|
|
|
substr(string A, int start, int len) substring(string A, int start, int len)
|
|
|
upper(string A) ucase(string A)
|
|
|
lower(string A) lcase(string A)
|
|
|
|
|
|
|
|
|
|
|
|
regexp_replace(string A, string B, string C)
|
|
|
regexp_extract(string subject, string pattern, int index)
|
通过下标返回正则表达式指定的部分。regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 2) returns ‘bar.’
|
|
parse_url(string urlString, string partToExtract [, string keyToExtract])
|
|
|
get_json_object(string json_string, string path)
|
select a.timestamp, get_json_object(a.appevents, ‘$.eventid’), get_json_object(a.appenvets, ‘$.eventname’) from log a;
|
|
|
|
|
repeat(string str, int n)
|
|
|
|
|
|
lpad(string str, int len, string pad)
|
返回指定长度的字符串,给定字符串长度小于指定长度时,由指定字符从左侧填补。
|
|
rpad(string str, int len, string pad)
|
返回指定长度的字符串,给定字符串长度小于指定长度时,由指定字符从右侧填补。
|
|
split(string str, string pat)
|
|
|
find_in_set(string str, string strList)
|
返回字符串str第一次在strlist出现的位置。如果任一参数为NULL,返回NULL;如果第一个参数包含逗号,返回0。
|
|
sentences(string str, string lang, string locale)
|
将字符串中内容按语句分组,每个单词间以逗号分隔,最后返回数组。 例如sentences(‘Hello there! How are you?’) 返回:( (“Hello”, “there”), (“How”, “are”, “you”) )
|
array<struct<string,double>>
|
ngrams(array<array<string>>, int N, int K, int pf)
|
SELECT ngrams(sentences(lower(tweet)), 2, 100 [, 1000]) FROM twitter;
|
array<struct<string,double>>
|
context_ngrams(array<array<string>>, array<string>, int K, int pf)
|
SELECT context_ngrams(sentences(lower(tweet)), array(null,null), 100, [, 1000]) FROM twitter;
|