1.问题 最近发现SparkStreaming提交的job经常在半夜挂掉,于是写了个定时任务监控SparkStreaming的运行状态,保证其不挂掉 2.shell脚本 ~~~ touch /opt/module/jobs/monitorlog.txt vim /opt/module/jobs/mo ...
分类:
其他好文 时间:
2019-11-14 23:54:59
阅读次数:
162
题目描述PESTC,即 Park of Electronic Science and Technology of China,电子科技公园,更确切地称作沙河人民公园。每节课下课都会有很多学生从教学楼出来,去下一个教学楼上课,他们和逛公园的人混在一起,给校园内交通造成一定的拥堵。整个公园可以抽象成一张 ...
分类:
编程语言 时间:
2019-11-12 09:16:19
阅读次数:
101
问题描述: 在一段spark机器学习的程序中,同时用到了Filter算子和StringIndexer算子,其中StringIndexer在前,filter在后,并且filter是对stringindexer的输出列设置了过滤条件,filter算子之后将数据集灌到随机森林中(试过决策树分类和逻辑回归同 ...
分类:
其他好文 时间:
2019-11-05 13:16:49
阅读次数:
96
Thread Dump日志的线程信息 以上依次是: "resin-22129"线程名称:如果使用 java.lang.Thread 类生成一个线程的时候,线程名称为 Thread-(数字) 的形式,这里是resin生成的线程; daemon线程类型:线程分为守护线程 (daemon) 和非守护线程 ...
分类:
其他好文 时间:
2019-11-01 14:42:53
阅读次数:
72
(手机横屏看源码更方便) 引子 大家知道,我最近在招人,今天遇到个同学,他的源码看过一些,然后我就开始了AQS连环问。 我:说说AQS的大致流程? 他:AQS包含一个状态变量,一个同步队列……balabala……互斥锁balabala,共享锁balabala…… 我:AQS中除了同步队列,还有什么队 ...
分类:
其他好文 时间:
2019-10-31 00:18:07
阅读次数:
95
本文出自:http://blog.chinaunix.net/uid/28311809/abstract/1.html 在这篇博客中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker ...
分类:
其他好文 时间:
2019-10-29 09:40:09
阅读次数:
70
package Eva.homework import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructTy... ...
分类:
其他好文 时间:
2019-10-23 22:01:27
阅读次数:
159
集成Zeppelin和Spark Big Data Tools是IntelliJ IDEA Ultimate的新插件,是为使用 Zeppelin 和 Spark 的数据工程师和其他专业人员所量身定做的一款软件。 Zeppelin notebooks with IntelliJ IDEA 该插件可在笔 ...
分类:
其他好文 时间:
2019-10-17 13:31:21
阅读次数:
376
Flume配置文件: 但是在启动Flume时,报以下错误: 解决方案: 由于用到了agent的sink是 org.apache.spark.streaming.flume.sink.SparkSink类型,需要把spark streaming flume sink_2.11 2.4.3.jar复制到 ...
分类:
Web程序 时间:
2019-10-16 13:43:59
阅读次数:
98
以前公司用的是spark-core,但是换工作后用的多是spark-sql。最近学习了很多spark-sql,在此做一个有spark经验的sparksql快速入门的教程。 JDK安装包 1.8版本:https://pan.baidu.com/s/1pLW3jyKv3N_FhQ7vvE4U2g SCA ...
分类:
数据库 时间:
2019-10-13 20:59:48
阅读次数:
154