本文参考 在阅读了《Spark快速大数据分析》动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api详细的案例,而且现在spark的最新版本已经上升到了2.4.5,动物书中的spark版本还停留在1.2.0版本,所以就有了这篇文章,在最新的2.4.5版本下测试常用的api 由于s... ...
一、介绍 Flink分层组件栈 API支持 对Streaming数据类应用,提供DataStream API 对批处理类应用,提供DataSet API(支持Java/Scala) Libraries支持 支持机器学习(FlinkML) 支持图分析(Gelly) 支持关系数据处理(Table) 支持 ...
分类:
其他好文 时间:
2020-03-22 13:36:23
阅读次数:
79
背景 我用VMWare搭建了一个Hadoop集群,Spark与Hive等组件都已经安装完毕。现在我希望在我的开发机上使用IDEA连接到集群上的Hive进行相关操作。 进行配置修改 修改Hive中的hive site.xml 在hive site.xml中找到这个配置,将改成如下形式 在hive si ...
分类:
其他好文 时间:
2020-03-21 18:02:12
阅读次数:
144
上篇谈到:elasticsearch本身是一个完整的后台系统,对其的操作使用是通过终端api进行的。elasticsearch本身提供了多种编程语言的api,包括java的esjava。而elastic4s是一套基于esjava之上的scala api。 先看看scala 终端 ElasticCli ...
分类:
其他好文 时间:
2020-03-21 13:02:54
阅读次数:
72
kafka分区,excutor,task,RDD分区的关系: 数据的流:数据流向从kafka>sparkStreaming>RDD 1 kafka中的 topic 的 patition 分区的设置,kafka 的 partition 分区数 ,sparkStreaming 直连方式从kafka中拉数 ...
分类:
其他好文 时间:
2020-03-20 12:30:57
阅读次数:
108
使用idea开发flink报错,就是普通的读取文本内容,进行单词计数。scala版本是2.11.12,flink是1.8.1报错信息如下:Exceptioninthread“main”java.lang.NoSuchMethodError:akka.actor.ActorSystemImpl.(Ljava/lang/String;Lcom/typesafe/config/Config;Ljava/
分类:
其他好文 时间:
2020-03-20 11:07:36
阅读次数:
189
在window下通过idea开发,在代码中需要spark,使用loacl模式,生成一些数据存放到hive中,使用的也是spark自带的hive库。在idea运行时报错:Errorwhileinstantiating‘org.apache.spark.sql.hive.HiveSessionState‘:java.lang.RuntimeException:Therootscratc
分类:
其他好文 时间:
2020-03-20 11:05:34
阅读次数:
59
1. scala 编程虽然类似于 python ,但也严格遵守Java的相关准则 .如导入类 , 依赖等 .并且可通用类库 . 其最好用的一点事对数据的类型转换更方便 结果是3600 , 转无数次也一样 ,虽然没必要 .但是在数据编程方面 , 会更方便. 这也是为什么Spark是用scala 开发. ...
分类:
其他好文 时间:
2020-03-20 09:13:28
阅读次数:
60
启动报错提示如图: localhost: failed to launch: nice -n 0 /home/chan/spark/spark-2.4.3-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --we ...
分类:
Web程序 时间:
2020-03-18 20:21:37
阅读次数:
223
服务器运行环境:spark 2.4.4 + scall 2.11.12 + kafka 2.2.2 由于业务相对简单,kafka只有固定topics,所以一直使用下面脚本执行实时流计算 spark-submit --packages org.apache.spark:spark-streaming- ...
分类:
其他好文 时间:
2020-03-18 11:45:06
阅读次数:
53