数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上 消息系统:可以加入Kafka防止数据丢失 实时计算:实时计算使用Spark Streaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中 机器学习:使用了Spark MLlib ...
分类:
其他好文 时间:
2019-01-04 14:49:53
阅读次数:
154
1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定制开发web程序或使用kettle ...
分类:
其他好文 时间:
2019-01-02 23:28:02
阅读次数:
243
flume flume 简介及核心概念 什么是flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前是Apache的顶级项目。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据 ...
分类:
其他好文 时间:
2019-01-02 19:08:54
阅读次数:
262
2018-12-31 15:29:44 Flume 百度百科: flume(日志收集系统) Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种 ...
分类:
Web程序 时间:
2018-12-31 19:17:11
阅读次数:
187
步骤: 1.在Linux下安装netcat工具,用户开启socket客户端: a.切换至root下 $>su root b.执行安装命令 $>yum install -y nc c.切换至Alex_lei用户下,模拟聊天室: $>nc 开启服务端 $>nc -l 55555 开启客户端 $>nc l ...
分类:
Web程序 时间:
2018-12-31 14:43:05
阅读次数:
279
一:介绍 (1)日志采集系统 (2)是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。 (3)具有基于流数据流的简单灵活的架构。 (4)具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力。 二:flume的三个组件:【Source,Channel,Sink】构成A ...
分类:
Web程序 时间:
2018-12-31 13:51:24
阅读次数:
211
一、Flume是什么 Flume是一个数据,日志收集的一个组件,可以用于对程序,nginx等日志的收集,而且非常简单,省时的做完收集的工作。Flume是一个分布式、可靠、和高可用的海量日志采集聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集日志,同时Flume对日志做简单的处理。 Fl ...
分类:
Web程序 时间:
2018-12-30 13:59:48
阅读次数:
189
#!/bin/bash #echo "begin start flume..." path=/sysware/apache-flume-1.8.0-bin echo "flume home is :$path" process=$2 AgentName=$3 JAR="flume" Flumecon... ...
分类:
Web程序 时间:
2018-12-29 16:00:44
阅读次数:
1849
一、什么是大数据 四个特性(4个V) 数据量大(Volume) 大数据摩尔定律:IDC估测数据一直以50%的速度增长,到2020年,全球将拥有35ZB的数据量。(GB>TB>PB>EB>ZB) 快速化(Velocity) 处理速度快,1秒级决策 多样化(Varity) 数据类型繁多,大部分为非结构化 ...
分类:
其他好文 时间:
2018-12-24 22:35:05
阅读次数:
411