Kylin系列之二:原理介绍 2018年4月15日 15:52 因何而生 Kylin和hive的区别 1. hive主要是离线分析平台,适用于已经有成熟的报表体系,每天只要定时运行即可。 2. Kylin主要是MLOAP(多维在线分析平台)。在线意味着提供快速的相应速度。主要适用于分析师不知道自己需 ...
分类:
其他好文 时间:
2018-04-20 22:10:35
阅读次数:
273
Jmap:可以获得运行中的jvm的堆的快照,从而可以离线分析堆,以检查内存泄漏,检查一些严重影响性能的大对象的创建,检查系统中什么对象最多,各种对象所占内存的大小等等 Jmap是一个可以输出所有内存中对象的工具,甚至可以将VM 中的heap,以二进制输出成文本。打印出某个java进程(使用pid)内 ...
分类:
编程语言 时间:
2018-03-21 15:03:05
阅读次数:
223
前言 使用Hadoop进行离线分析或者数据挖掘的project师,常常会须要对Hadoop集群或者mapreduce作业进行性能调优。或许你知道通过浏览器訪问http://master:18088/conf来查看配置信息。例如以下图所看到的: 但是当Linuxproject师们仅仅面对命令行时,怎样 ...
分类:
其他好文 时间:
2018-02-09 20:43:36
阅读次数:
169
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统, ...
分类:
其他好文 时间:
2017-12-13 14:42:39
阅读次数:
103
针对每天TB级的数据采集,一般而言,这些系统需要具有以下特征: 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 从设计架构,负载均衡,可扩展性和容错性等方面对 ...
分类:
Web程序 时间:
2017-10-12 10:18:10
阅读次数:
305
SparkSQL结合SparkStreaming的使用 Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括SparkStreaming。然而,在Sp ...
分类:
数据库 时间:
2017-10-11 17:18:41
阅读次数:
1282
作为一个理工男。用过了形形色色能够用于科学作图/数据可视化软件:从大学时做实验课推荐用于分析简单採集数据的 Origin; 毕业论文时用来呈现实验时序信号和离线分析脑电信号的 MATLAB。后面还发现了 Octave 以及 Gnuplot ; 以及实验室师兄推荐用的 Matplotlib 软件; 工 ...
分类:
其他好文 时间:
2017-06-27 20:00:02
阅读次数:
203
项目的开发流程:(最耗时间的是 项目需求分析、方案设计两个阶段) 项目介绍 项目调研:了解一下相关行业的信息,常用的技术的信息 项目需求分析:需求人员(项目经理) 决定了后面项目的主体方向 方案设计: 概要设计 详细设计:技术负责人,架构师 编码实现: 集成测试 用户测试 项目上线--》试运行--》 ...
分类:
其他好文 时间:
2017-04-10 12:34:36
阅读次数:
385
可用性分析: 场景设想:由于同时登陆淘宝网的人数过多造成登陆响应超时。 刺激源:淘宝网用户。 刺激:淘宝网服务器崩溃。 制品:淘宝网的处理器和服务器。 环境:正常的登陆操作。 响应:显示登陆过程的进度条或登陆超时提醒或网络环境异常。 响应度量:系统服务器后台启用降级模式,并且在30分钟内进行快速修复 ...
分类:
其他好文 时间:
2017-03-16 17:31:02
阅读次数:
160