1. 作用 简单概述就是CDC(change data capture),实时数据分析领域用的比较多 2. 简单使用(基于官网的docker 说明) 备注: 测试没有使用守护进程模式为了方便测试 a. zookeeper docker run -it --rm --name zookeeper -p ...
分类:
其他好文 时间:
2017-10-01 12:21:30
阅读次数:
291
大数据量存储:分布式存储 日志处理: Hadoop擅长这个 海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统 机器学习: 比如Apache ...
分类:
其他好文 时间:
2017-07-18 18:44:06
阅读次数:
148
ElasticSearch是开源搜索平台的新成员,实时数据分析的神器。可以理解为作为搜索的数据库,可以提供搜索功能。对比关系型数据库,具有以下的相似关系: 一个ES集群可以包含多个索引(数据库),每个索引又包含了很多类型(表),类型中包含了很多文档(行),每个文档又包含了很多字段(列)。 如果要实现 ...
分类:
其他好文 时间:
2017-05-07 19:50:33
阅读次数:
2008
Logstash是一款开源日志收集处理框架,logstash-output-datahub插件,实现将数据导入DataHub的功能。通过简单的配置即可完成数据采集和向DataHub的传输,结合MaxCompute/StreamCompute可以轻松构建流式数据从采集到分析的一站式解决方案。 ...
分类:
其他好文 时间:
2017-03-17 16:19:51
阅读次数:
293
本周PSP 会议分工 任务(数据分析) 何为数据分析? 答 1.按照数据分析的实时性,分为实时数据分析和离线数据分析 2.按照大数据的数据量,分为内存及别,BI级别,海量级别三种 ——————摘自人月神话的《大数据分析的分类》 本周总结: 通过这周软件工程课程的学习 ,让我认识到了大数据的实用性,以 ...
分类:
其他好文 时间:
2016-12-10 00:25:16
阅读次数:
174
为了和qq空间同步,也写的第四天,前面几天明天会发布,本来打算把每天学的东西记录下来,通过朋友给的建议要发的话稍微系统化下,从大数据需要的linux基础,到离线数据分析包括hadoop、hive、flume、hbase等,再到实时数据分析包括storm、kafka、redias等,最后的内存计算部分 ...
分类:
系统相关 时间:
2016-11-10 03:13:34
阅读次数:
347
今天,对照晚上的kafka+Sparkstreaming+Redis实时数据分析系统实战(https://www.iteblog.com/archives/1378主要目的是整合kafka和Spark,Redis。Redis一直没用过,所以比较犯难,果然,在前面都没什么问题,后面的redis部分,遇到了一个问题:没有发现GenericObjectPoolConfig..
分类:
Web程序 时间:
2016-10-05 01:16:22
阅读次数:
262
ElasticSearch 是一个采用Restful API标准同时具有高扩展性和高可用性的实时数据分析全文搜索工具 Node(节点):单个的装有ElasticSearch服务并且提供故障转移和扩展的服务器 Cluster(集群):一个集群就是由一个或多个node组织在一起,共同工作,共同分享整个数 ...
分类:
其他好文 时间:
2016-07-19 09:10:41
阅读次数:
385
关于大数据的实时流处理,AWS提供了传统方案和完全host方案
传统方案是EC2上面部署flume (采集)、kafka(数据转存)、storam(流处理)完全host方案是Kinesis。使用Kinesis还是需要用户通过API来将手机、网站点击、IoT、传感器等各类数据源的数据接入,并允许用户编写Kinesis的Worker来处理...
分类:
其他好文 时间:
2016-06-12 02:57:31
阅读次数:
847
大数据量存储:分布式存储 日志处理: Hadoop擅长这个 海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统 机器学习: 比如Apache ...
分类:
其他好文 时间:
2016-04-18 11:23:50
阅读次数:
129