Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apache flink。 Apache Spark简介 Apache Spark是为快速计算而设计的开源,闪电般快速的集群计算框架。Apache Spa ...
分类:
Web程序 时间:
2020-06-11 19:59:25
阅读次数:
79
本地scala version为2.11.8,spark为2.4.0版本 于是修改dr-elephant/build.sbt scalaVersion := "2.11.8" 修改dr-elephant/compile.conf hadoop_version=2.8.4 spark_version= ...
分类:
其他好文 时间:
2020-06-11 13:42:28
阅读次数:
100
第0章-课程介绍 第1章-大数据技术概述 第2章-Scala语言基础 第3章-Spark的设计与运行原理 第4章-Spark环境搭建和使用方法 第5章-RDD编程 第6章-Spark-SQL 第7章-Spark-Streaming 第8章-Spark-MLlib ...
分类:
其他好文 时间:
2020-06-10 23:09:12
阅读次数:
145
亚马逊AWS官方博客 使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能 by AWS Localization | on 26 NOV 2019 | in AWS Big Data | Permalink | Share Ori ...
分类:
Web程序 时间:
2020-06-10 22:57:35
阅读次数:
109
一、概述 在调试Spark项目的时候报了一个包冲突异常,找了好长时间,最后发现是包冲突了;特此记录一下,原始报错找不到了。一般包冲突有个明显的特征就是报类找不到异常,可以根据提示把Spark冲突的包排除掉,然后再把其他的把单独加上去,就可以解决了。 Caused by: java.lang.Numb ...
分类:
其他好文 时间:
2020-06-10 10:57:05
阅读次数:
65
/** * 模拟数据 数据格式如下: * * 日期 卡口ID 摄像头编号 车牌号 拍摄时间 车速 道路ID 区域ID * date monitor_id camera_id car action_time speed road_id area_id * * monitor_flow_action * ...
分类:
其他好文 时间:
2020-06-09 20:34:37
阅读次数:
71
jar包:是用java写的一些类 用的话直接用就不用再写了 。直接用jar包方便许多。 maven:是用jar包的时候只用下载一次就行了 ,下次再用就不用再下载一遍了。 编程似乎在不断完善 ,没有人知道未来是啥。 我在 写spark:是hadoop的完善。因为map和reduce不够用 。 spar ...
分类:
其他好文 时间:
2020-06-08 20:48:36
阅读次数:
46
恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
分类:
其他好文 时间:
2020-06-08 19:17:29
阅读次数:
88
轉自 https://cloud.tencent.com/developer/article/1512622 ES的常用查询与聚合 2019-09-242019-09-24 18:02:41阅读 1.1K0 0 说明 基于es 5.4和es 5.6,列举的是个人工作中经常用到的查询(只是工作中使用的 ...
分类:
编程语言 时间:
2020-06-06 18:43:32
阅读次数:
54
案例 POM文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc ...
分类:
其他好文 时间:
2020-06-06 11:19:08
阅读次数:
48