SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用SparkSQL在特征变换主要有一下几类1.多表场景,用于表之间拼接操作,比如交易信息表去拼接账户表2.使用udf进行简单的特征变换,比如对时间戳进行hour函数处理3.使用时间窗口和udaf
分类:
数据库 时间:
2020-07-09 17:54:20
阅读次数:
99
Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。 HBase是一个开源的,基于列存储模型的分布式数据库 HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序 MapR ...
分类:
其他好文 时间:
2020-07-06 15:47:59
阅读次数:
67
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.q... ...
分类:
编程语言 时间:
2020-07-05 23:03:01
阅读次数:
289
4、行转列 1.相关函数说明 CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔 ...
分类:
其他好文 时间:
2020-07-05 21:37:44
阅读次数:
56
reflect函数可以支持在sql中调用java中的自带函数,秒杀一切udf函数。 使用java.lang.Math当中的Max求两列中最大值 创建hive表 create table test_udf(col1 int,col2 int) row format delimited fields t ...
分类:
其他好文 时间:
2020-07-05 21:00:30
阅读次数:
253
1、使用explode函数将hive表中的Map和Array字段数据进行拆分 lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一 ...
分类:
其他好文 时间:
2020-07-05 21:00:05
阅读次数:
80
hive当中也带有很多的窗口函数以及分析函数,主要用于以下这些场景 (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询 1、创建hive表并加载数据 创建表 hive (hive_explode)> create table order_detail( ...
分类:
其他好文 时间:
2020-07-05 20:55:24
阅读次数:
60
1、If函数: if *** 语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull) 返回值: T 说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull hive> ...
分类:
其他好文 时间:
2020-07-05 19:44:47
阅读次数:
119
1、字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 hive> select length('abcedfg') from tableName; 7 2、字符串反转函数:reverse 语法: reverse(string A) 返 ...
分类:
其他好文 时间:
2020-07-05 19:32:00
阅读次数:
71
1、UNIX时间戳转日期函数: from_unixtime *** 语法: from_unixtime(bigint unixtime[, string format]) 返回值: string 说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区 ...
分类:
其他好文 时间:
2020-07-05 19:29:26
阅读次数:
65