本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建。 1 环境介绍 一台阿里云ECS服务器:master 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar. ...
分类:
Web程序 时间:
2019-11-23 12:53:35
阅读次数:
85
1、Flume简介 ? (1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ? (2) Flume基于流式架构,容错性强,也很灵活简单。 ? (3) Flume、Kafka用来实时进行数据收集,Spark、Flink用来实 ...
分类:
Web程序 时间:
2019-11-22 12:11:59
阅读次数:
201
数据源Source RPC异构流数据交换 Avro Source Thrift Source 文件或目录变化监听 Exec Source Spooling Directory Source Taildir Source MQ或队列订阅数据持续监听 JMS Source SSL and JMS Sou ...
分类:
Web程序 时间:
2019-11-22 10:48:12
阅读次数:
84
ELK日志分析及操作步骤: 一般我们需要进行日志分析场景:直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景 中,此方法效率低下,面临问题包括日志量太大如何归档、文本 搜索太慢怎么办、如何多维度查询。需要集中化的日志管理,所 有服务器上的日志收集汇总。常见解决思路是建立 ...
分类:
其他好文 时间:
2019-11-22 10:34:33
阅读次数:
93
Sqoop简介 Sqoop是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具 原理: 将导入或导出命令翻译成Mapreduce程序来实现。 在翻译出的Mapreduce中主要是对InputFormat和OutputFormat进行定制 RDBMS到HD ...
分类:
Web程序 时间:
2019-11-21 21:27:34
阅读次数:
113
什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理 Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的T ...
分类:
其他好文 时间:
2019-11-21 13:56:11
阅读次数:
103
大数据从入门到入土 语言基础:java(Java se,javaweb) Linux 基础:Linux(shell,高并发架构,lucene,solr) 框架学习:Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) ...
分类:
其他好文 时间:
2019-11-16 21:47:53
阅读次数:
107
https://www.cnblogs.com/qingyunzong/p/8994494.html ...
分类:
Web程序 时间:
2019-11-16 10:34:01
阅读次数:
56
目前我们使用的一个 b 端软件的报错日志分散在集群各处,现在想把它收集到一个地方然后统一丢进 Kafka 提供给下游业务进行消费。 我想到了 flume,之前让同事搭建的这次自己想多了解一些细节于是就开搞了。 首先还是下载 flume 的客户端,这里我使用最新版本 1.9.0 设置需要的 java ...
分类:
Web程序 时间:
2019-11-15 18:26:10
阅读次数:
89
IDEA查看源码 IDEA快捷键 1 查看接口的实现类:Ctrl+Alt+B 选中按快捷键,然后跳到实现类的地方去 2 切换页面:Alt+<- 和 Alt+-> Alt+-> 3 查看Java方法调用树(被调/主调):Ctrl+Alt+H 分为调用当前方法的树、当前方法调用的下级方法 4 查看类继承 ...
分类:
Web程序 时间:
2019-11-15 12:15:04
阅读次数:
91