搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

Flink之流式框架的对比

Flink的优势和特点：一、同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。Apache Spark也只能兼顾高吞吐和高性能特点，主要是因为Spark Streaming流式计算中无法做到低延迟保障；而流式计算框架Apa ...

分类：其他好文时间：2020-12-03 11:33:38 阅读次数：5

zookeeper技术介绍[python书籍福利]

zookeeper技术介绍[python书籍福利]Zookeeper技术介绍ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和

分类：编程语言时间：2020-12-02 11:57:17 阅读次数：3

Cloudera Manager的基本使用

>.ClouderaManager功能 1.1>.管理监控集群主机（主要监控硬件和软件的信息）； 1.2>.同一管理配置（主要是针对服务，比如hdfs，hbase等等）； 1.3>.管理维护Hadoop平台系统； 2>.ClouderaManager的一些常见名词 2.1>.主机-host 2.2> ...

分类：其他好文时间：2020-12-01 11:54:36 阅读次数：3

kakafka - 为CQRS而生fka - 为CQRS而生

前段时间跟一个朋友聊起kafka,flint,spark这些是不是某种分布式运算框架。我自认为的分布式运算框架最基础条件是能够把多个集群节点当作一个完整的系统，然后程序好像是在同一台机器的内存里运行一样。当然，这种集成实现方式有赖于底层的一套消息系统。这套消息系统可以把消息随意在集群各节点之间自由传 ...

分类：其他好文时间：2020-11-30 16:09:25 阅读次数：9

Spark开发_Spark的UDF开发

###Spark中的UDF Spark1.6只能创建临时UDF，不支持创建持久化的UDF。从Spark-2.0开始，SparkSQL支持持久化的UDF，目前看来是支持UDAF ###Spark中的UDF 过程 (1)自定义UDF类，实现UDF1/2/3....22中的接口之一，其中UDF后跟的数字 ...

分类：其他好文时间：2020-11-26 15:06:55 阅读次数：6

Hadoop框架：MapReduce基本原理和入门案例

MapReduce既是一个编程模型，也是一个计算组件，处理的过程分为两个阶段，Map阶段：负责把任务分解为多个小任务，Reduce负责把多个小任务的处理结果进行汇总。其中Map阶段主要输入是一对Key-Value，经过map计算后输出一对Key-Value值；然后将相同Key合并，形成Key-Value集合；再将这个Key-Value集合转入Reduce阶段，经过计算输出最终Key-Value结果集。

分类：其他好文时间：2020-11-26 14:53:23 阅读次数：6

计数器

package com.atguigu.etl; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; impo ...

分类：其他好文时间：2020-11-25 13:04:03 阅读次数：26

大数据组件

1.大数据架构图谱文件系统 HDFS Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 GlusterFS 是一个集群的文件系统 ...

分类：其他好文时间：2020-11-25 12:06:50 阅读次数：8

Hadoop全分布模式启动集群

一、初始化工作： 1. 准备三台机器 hostanme IP 用途 master 192.168.0.10 namenode node1 192.168.0.11 datenode node2 192.168.0.12 datenode 在三台机器上做下面的动作 2. 编辑/etc/hosts 1 ...

分类：其他好文时间：2020-11-23 12:38:36 阅读次数：12

重要 | Spark分区并行度决定机制

最近经常有小伙伴留言，核心问题都比较类似，就是虽然接触Spark有一段时间了，但是搞不明白一个问题，为什么我从HDFS上加载不同的文件时，打印的分区数不一样，并且好像spark.default.parallelism这个参数时不是一直起作用？其实笔者之前的文章已有相关介绍，想知道为什么，就必须了解S... ...

分类：其他好文时间：2020-11-23 12:25:04 阅读次数：5

共19831条上一页 1 ... 26 27 28 29 30 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)