第一阶段:linux 系统 这章是基础课程,帮大家进入大数据领域打好 Linux 基础,以便更好地学习 Hadoop, NOSQL, Oracle, MYSQL, Spark, Storm 等众多课程。因为企业中 无一例外的是使用 Linux 来搭建或部署项目。 第二阶段:大型网站高并发处理 通过本 ...
分类:
其他好文 时间:
2019-08-25 14:19:03
阅读次数:
82
Python 标准库、第三方库 Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器 ...
分类:
编程语言 时间:
2019-08-23 10:49:32
阅读次数:
126
安装Storm之前,需要先安装好Java与ZooKeeper,Java与ZooKeeper的安装此处不做过多讲解,Storm的安装步骤如下: 1.下载Storm 要在您的计算机上安装Storm框架,请访问以下链接并下载最新版本的Storm http://storm.apache.org/downlo ...
分类:
其他好文 时间:
2019-08-22 10:55:26
阅读次数:
97
1. 新建一个Maven项目,pom.xml代码如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio ...
分类:
其他好文 时间:
2019-08-22 10:51:51
阅读次数:
79
大数据追求相关性,不追求因果性。 一、Spark目的 map reuce:先写入磁盘,再从网络读取磁盘数据,mapreduce只适合处理对速度不敏感的离线批量处理。 spark:在一个物理节点,用内存完成各种各样的计算。(有时也用磁盘) storm:流式,纯粹实时计算框架,吞吐量不高,每条数据过来直 ...
分类:
其他好文 时间:
2019-08-16 18:47:51
阅读次数:
87
https://www.cnblogs.com/bluestorm/p/4574688.html https://blog.csdn.net/wangbin_0729/article/details/82109693 (包括了负载均衡的配置) ...
分类:
其他好文 时间:
2019-08-11 11:04:49
阅读次数:
101
一、Kafka介绍 kafka是消息中间件的一种,一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spar ...
分类:
其他好文 时间:
2019-08-08 18:48:51
阅读次数:
112
大数据平台是为了满足企业对于数据的各种要求而产生的。大数据平台:是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。大数据平台的功能:1、容纳海量数据利用计算机群集的存储和计算能
分类:
其他好文 时间:
2019-08-08 16:04:32
阅读次数:
108
==目的== 想把zookeeper、hadoop、hbase、storm等大数据组件 设置为开机启动,并且进程挂掉之后,可以自动重启,以减少运维压力。 ==service文件== 路径:/usr/lib/systemd/system 文件名:train-zookeeper.service 样例: ...
分类:
系统相关 时间:
2019-08-08 13:32:27
阅读次数:
170
1.什么是浅拷贝,什么是深拷贝? 2.storm的并行度问题,需要使用全局变量static ConcorrentHashMap,因为加了static,所有的线程只能拷贝该全局变量的一个唯一的副本,进行操作,其他线程只能等待该线程操作完成才能处理该副本,即实现了单线程操作该副本,线程是安全的;不加st ...
分类:
编程语言 时间:
2019-07-29 00:49:27
阅读次数:
139