搜索关键字：scala spark，搜索到10387个结果！码迷,mamicode.com！

入门大数据---Spark_Streaming基本操作

一、案例引入这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactI ...

分类：其他好文时间：2020-06-27 00:14:44 阅读次数：62

Arctern Spark单机可视化入门

Arctern基于开源大数据生态，构建灵活、强大、高性能的时空数据分析平台，帮助用户应对5G/IoT带来的新型数据挑战,加速时空数据的处理、分析、模型预测与呈现。本文中将会介绍Arctern Spark单机可视化安装和简单使用安装和验证参考单机安装arctern和在线安装单机spark 一：要注 ...

分类：其他好文时间：2020-06-26 22:01:05 阅读次数：47

标识符

package chapter01 object test05 { def main(args:Array[String]):Unit={ //标识符 //scala中可以使用特殊符号作为标识符，其实是将特殊符号在编译时进行了转换 //操作符不能在标识符的中间和最后 var ++ ="123" pr ...

分类：其他好文时间：2020-06-26 21:55:34 阅读次数：66

入门大数据---Spark_Streaming与流处理

一、流处理 1.1 静态数据处理在流处理之前，数据通常存储在数据库，文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储，采用 MapReduce 进行数据查询或分析，这就是典型的静态数据处理架构。 1.2 流 ...

分类：其他好文时间：2020-06-26 20:02:43 阅读次数：49

入门大数据---SparkSQL外部数据源

一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源，同时 Spark 社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注：以下所有测试文件均可从 ...

分类：数据库时间：2020-06-26 18:39:56 阅读次数：61

入门大数据---SparkSQL联结操作

一、数据准备本文主要介绍 Spark SQL 的多表连接，需要预先准备测试数据。分别创建员工和部门的 Datafame，并注册为临时视图，代码如下： val spark = SparkSession.builder().appName("aggregations").master("local[ ...

分类：数据库时间：2020-06-26 18:28:15 阅读次数：72

入门大数据---SparkSQL常用聚合函数

一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo ...

分类：数据库时间：2020-06-26 18:03:35 阅读次数：58

memcached 和 MySQL 的 query ？

cache 相比，有什么优缺点？把 memcached 引入应用中，还是需要不少工作量的。MySQL 有个使用方便的 query cache，可以自动地缓存 SQL 查询的结果，被缓存的 SQL 查询可以被反复地快速执行。Memcached 与之相比，怎么样呢？MySQL 的 query cac ...

分类：数据库时间：2020-06-26 11:12:42 阅读次数：75

入门大数据---Spark累加器与广播变量

一、简介在 Spark 中，提供了两种类型的共享变量：累加器 (accumulator) 与广播变量 (broadcast variable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量：主要用于在节点间高效分发大对象。二、累加器这里先看一个具体的场景，对于正常的累计求和 ...

分类：其他好文时间：2020-06-26 10:59:41 阅读次数：50

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

特性如下：可线性伸缩至超过数百个节点；实现亚秒级延迟处理；可与Spark批处理和交互式处理无缝集成；提供简单的API实现复杂算法；更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。原理 Spark在接收到实时输入数据流后，将数据划分成批次（di ...

分类：Web程序时间：2020-06-26 01:31:54 阅读次数：136

共10387条上一页 1 ... 35 36 37 38 39 ... 1039 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)