码迷,mamicode.com
首页 >  
搜索关键字:scala spark    ( 10387个结果
kafka集群管理工具kafka-manager部署安装
kafka集群管理工具kafka manager部署安装 kafka manager 是雅虎开源的apache kafka管理工具,是用Scala写,所以在web页面进行操作即可。 github地址:https://github.com/yahoo/CMAK 安装步骤 下载并编译源码 注意:编译需要 ...
分类:其他好文   时间:2020-04-27 17:55:05    阅读次数:127
Hive的基本理论知识
Hive是什么? 个人理解是把存储在hdfs上的数据映射位一张数据库表,提供类sql(HQL)语句的查询,方便数据的分析,查询。另外一点就是自动的把HQL转化为MapRudecu、Tez、Spark执行。 Hive的架构 用户接口:可以是hive shell,jdbc(java 访问hive),we ...
分类:其他好文   时间:2020-04-27 15:21:33    阅读次数:59
spark 数据分析 之数据清理
//清理格式不匹配的数据 //此代码可以实现自动滤除掉无法转化为double类型的数据 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.j ...
分类:其他好文   时间:2020-04-26 21:00:10    阅读次数:120
spark中的pair rdd,看这一篇就够了
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是spark专题的第四篇文章,我们一起来看下Pair RDD。 定义 在之前的文章当中,我们已经熟悉了RDD的相关概念,也了解了RDD基本的转化操作和行动操作。今天我们来看一下RDD当中非常常见的PairRDD,也叫做键值对RDD, ...
分类:其他好文   时间:2020-04-26 20:51:45    阅读次数:83
spark_sql
1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...
分类:数据库   时间:2020-04-26 18:43:28    阅读次数:81
每日一题 为了工作 2020 0426 第五十五题
// hadoop+spark二次排序代码 package com.swust.hadoop; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spa ...
分类:其他好文   时间:2020-04-26 16:43:00    阅读次数:64
地图获取坐标 腾讯地图批量转坐标
腾讯地图批量转坐标-demo <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta name="viewport" content="widt ...
分类:其他好文   时间:2020-04-26 13:44:21    阅读次数:165
4、flink自定义source、sink
一、Source 代码地址:https://gitee.com/nltxwz_xxd/abc_bigdata 1.1、flink内置数据源 1、基于文件 env.readTextFile("file://path") env.readFile(inputFormat, "file://path"); ...
分类:其他好文   时间:2020-04-24 21:42:02    阅读次数:85
scala中的类和对象
1.scala中定义在object中的变量,方法都是静态的,object叫对象,相当于java中的单例对象。object不可以传参,Trait也不可传参。2.scala 中一行代码后可以写“;”也可以不写,会有分号推断机制。多行代码写在一行要用分号隔开。3.定义变量用var,定义常量用val , a ...
分类:其他好文   时间:2020-04-24 17:27:02    阅读次数:84
Spark中自定义累加器
通过继承AccumulatorV2可以实现自定义累加器。 官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html#accumulators 下面是我自己写的一个统计卡种数量的案例。 package com.shua ...
分类:其他好文   时间:2020-04-24 00:55:29    阅读次数:84
10387条   上一页 1 ... 55 56 57 58 59 ... 1039 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!