近些年,大数据流式处理的讨论热了起来,就在去年,阿里巴巴想apache基金会贡献了java语言版的Jstorm,那么?为什么现在企业会越来越关注大数据的流式处理呢?仅仅对大容量的离线数据分析挖掘,已经...
分类:
其他好文 时间:
2017-01-28 11:30:35
阅读次数:
262
本周PSP 会议分工 任务(数据分析) 何为数据分析? 答 1.按照数据分析的实时性,分为实时数据分析和离线数据分析 2.按照大数据的数据量,分为内存及别,BI级别,海量级别三种 ——————摘自人月神话的《大数据分析的分类》 本周总结: 通过这周软件工程课程的学习 ,让我认识到了大数据的实用性,以 ...
分类:
其他好文 时间:
2016-12-10 00:25:16
阅读次数:
174
为了和qq空间同步,也写的第四天,前面几天明天会发布,本来打算把每天学的东西记录下来,通过朋友给的建议要发的话稍微系统化下,从大数据需要的linux基础,到离线数据分析包括hadoop、hive、flume、hbase等,再到实时数据分析包括storm、kafka、redias等,最后的内存计算部分 ...
分类:
系统相关 时间:
2016-11-10 03:13:34
阅读次数:
347
Flume:Flume是一个分布式,可依赖的,用于高效率的收集、聚类、移动大量数据的服务。Flume使用基于流数据的简单而且可扩展的架构。由于拥有可调的依赖机制和许多故障恢复机制,Flume是健壮而且容错的。Flume使用简单的可扩展的数据模型,能够用于在线数据分析。 官网:http://flume ...
分类:
Web程序 时间:
2016-06-23 16:05:34
阅读次数:
172
最近利用闲暇时间,又重新研读了一下Storm。认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算。对于Hadoop,本身不擅长实时的数据分析处理。两者的共同点都是分布式的架构,而且,都类似有主/从关系的概念。本文中我 ...
分类:
其他好文 时间:
2016-04-24 00:40:40
阅读次数:
298
最近利用闲暇时间,又重新研读了一下Storm。认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算。对于Hadoop,本身不擅长实时的数据分析处理。两者的共同点都是分布式的架构,而且,都类似有主/从关系的概念。本文中我 ...
分类:
其他好文 时间:
2016-04-23 01:25:37
阅读次数:
127
OLTP:在线业务处理里系统(如银行前台,存数据,读数据跟数据库交互操作)OLAP:在线数据分析系统(只能读数据出来,不能写.如数据仓库,源数据是在OLTP上通过ETL抽取出来)操作系统块ext3为4koracle块为系统块的整数倍默认8k查看系统块大小[oracle@sq~]$getconfPAGESIZE4096查看数据库..
分类:
其他好文 时间:
2016-01-22 03:27:31
阅读次数:
213
前面我们说的都是点数据的分析,今天来说说一个用于分析线要素的算法(工具),就是线性方向平均值(LinearDirectional Mean )。
总所周知,线要素只有两个属性,一个是长度,第二个就是方向,而对于人类的认知来说,对方向的重要性丝毫不亚于位置的重要性。
对线数据进行统计的时候,首先就是了解他们的方向,如果只有一条线段,那么方向当然就不用统计了。但是如果线段数据非常多的时...
分类:
其他好文 时间:
2015-08-21 13:34:27
阅读次数:
739
HIVE学习总结
Hive只需要装载一台机器上,可以通过webui,console,thrift接口访问(jdbc,odbc),仅适合离线数据分析,降低数据分析成本(不用编写mapreduce)。
Hive优势
1. 简单易上手,类sql的hql、
2. 有大数据集的计算和扩展能力,mr作为计算引擎,hdfs作为存储系统
3. 统一的...
分类:
数据库 时间:
2015-02-24 17:32:33
阅读次数:
506