一、案例引入 这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactI ...
分类:
其他好文 时间:
2020-06-27 00:14:44
阅读次数:
62
Arctern基于开源大数据生态,构建灵活、强大、高性能的时空数据分析平台,帮助用户应对5G/IoT带来的新型数据挑战,加速时空数据的处理、分析、模型预测与呈现。本文中将会介绍Arctern Spark单机可视化安装和简单使用 安装和验证 参考单机安装arctern和在线安装单机spark 一:要注 ...
分类:
其他好文 时间:
2020-06-26 22:01:05
阅读次数:
47
单机版系统 一台服务器,应用程序、数据库、文件等所有资源都在一台服务器上。 单机版系统的承载能力只能大概预估。 随着业务的发展,一台服务器逐渐不能满足需求,因此要将应用程序和数据分离,应用和数据分离后使用三台服务器:应用程序服务器、文件服务器和数据库服务器。 业务进一步发展,数据库压力太大导致访问延 ...
分类:
其他好文 时间:
2020-06-26 20:31:31
阅读次数:
55
一、流处理 1.1 静态数据处理 在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 1.2 流 ...
分类:
其他好文 时间:
2020-06-26 20:02:43
阅读次数:
49
一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从 ...
分类:
数据库 时间:
2020-06-26 18:39:56
阅读次数:
61
一、 数据准备 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSession.builder().appName("aggregations").master("local[ ...
分类:
数据库 时间:
2020-06-26 18:28:15
阅读次数:
72
0.如果遇到相等的值不进行交换,那这种排序方式是稳定的排序方式。 1.原理:比较两个相邻的元素,将值大的元素交换到右边 2.思路:依次比较相邻的两个数,将比较小的数放在前面,比较大的数放在后面。 (1)第一次比较:首先比较第一和第二个数,将小数放在前面,将大数放在后面。 (2)比较第2和第3个数,将 ...
分类:
编程语言 时间:
2020-06-26 18:23:45
阅读次数:
54
一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo ...
分类:
数据库 时间:
2020-06-26 18:03:35
阅读次数:
58
想了解大数据量的运维能力。 解答:索引数据的规划,应在前期做好规划,正所谓“设计先行,编码在后”, 这样才能有效的避免突如其来的数据激增导致集群处理能力不足引发的线上客户 检索或者其他业务受到影响。 如何调优,正如问题 1 所说,这里细化一下: 3.1 动态索引层面 基于模板+时间+rollover ...
分类:
其他好文 时间:
2020-06-26 14:21:51
阅读次数:
73
作者|Frank: Frank, 爱奇艺云平台科学家, 目前是爱奇艺安全云负责人, 日常主导安全云在业务安全, 云安全, 数据安全, 安全攻防, 移动安全等各领域的技术创新和项目实施, 特别是将大数据风控引入到了爱奇艺业务安全保障中, 实现数据驱动安全和安全智能化。 01普遍业务风险行业的共同的问题 ...
分类:
其他好文 时间:
2020-06-26 13:09:29
阅读次数:
428