超大规模数据中心TCO(总拥有成本)优化是另一个重要驱动因素。“横向扩展”的概念基本上是在一个集群中采用一系列统一的硬件元件,将应用负载分解成具有相同处理功能的子任务,然后在基础的硬件元件上执行这些功能。通过复制统一的硬件元素,即可为持续增加的应用负载如系统吞吐量、相关数据组大小等等几乎所有与基础设施资源扩展相关的方方面面提供支持。横向扩展的架构...
分类:
其他好文 时间:
2014-05-13 06:39:55
阅读次数:
365
商业智能(BI,Business Intelligence),它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。本文分析了BI系统与大数据分析结合的趋势和软件架构方案。...
分类:
其他好文 时间:
2014-05-12 23:53:15
阅读次数:
463
学习大数据的处理,有必要读一下有关大数据的书籍。这里,我列举了几本书,仅供参考。
1 ZooKeeper: Distributed Process Coordination
这本书针对的是初级或者高级的开发,面向Zookeeper编程的工程师们。如果你的工程中(如HBase)涉及到Zookeeper的应用,有必要了解一下Zookeeper的管理知识和一些基本解...
分类:
其他好文 时间:
2014-05-12 22:46:32
阅读次数:
662
Thrift 是什么?
Thrift源于大名鼎鼎的facebook之手,在2007年facebook提交Apache基金会将Thrift作为一个开源项目,对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传
输通信以及系统之间语言环境不同需要跨平台的特性...
分类:
其他好文 时间:
2014-05-12 20:35:23
阅读次数:
296
架 构 描 述
01、数据层,数据源,有形资源入库,无形资源整理,对外搜索引擎,对内平台搜索,数据类型(文字、图片、声音、视频、组合),数据时空优化,数据安全方案(数据进站关卡,数据出战关卡),数据并发方案,大数据分...
分类:
其他好文 时间:
2014-05-12 05:14:11
阅读次数:
413
Hadoop集群(第9期)_MapReduce初级案例1、数据去重
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1
实例描述 对数.....
分类:
其他好文 时间:
2014-05-11 16:02:24
阅读次数:
538
#pragma pack (n) /*指定按n字节对齐*/ 不写这句默认n =8
设真正的对齐长度为m字节
如果n>结构体中数据类型(包括类类型)长度最大的数据类型长度,m = 结构体中最大数据类型长度
否则 m = n
总之,真正的对齐长度m为指定对齐长度n与结构体中最大类型长度中的较小值。
规则:
1. 结构体变量的首地址能够被m所整除;
2. 结构体每个...
分类:
其他好文 时间:
2014-05-11 13:32:36
阅读次数:
299
1 Lambda架构介绍
Lambda架构划分为三层,分别是批处理层,服务层,和加速层。最终实现的效果,可以使用下面的表达式来说明。
query = function(alldata)
1.1 批处理层
批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据。计算视图数据是一个联系操作,因此,当新数据到达时,使用MapReduce迭代地将数据聚集到视图中。 从整个数据集中计算...
分类:
其他好文 时间:
2014-05-11 07:29:44
阅读次数:
419
作者余凯,百度技术副总监,千人计划国家特聘专家。贾磊,百度主任架构师,语音技术负责人。陈雨强,百度商务搜索部资深研发工程师,负责搜索广告 CTR 预估
摘要:深度学习带来了机器学习的新浪潮,推动“大数据+深度模型”时代的来临,以及人工智能和人机交互大踏步前进。如果我们能在理论、建模和工程方面突破深度...
分类:
其他好文 时间:
2014-05-11 07:27:45
阅读次数:
389
技术能力到业务价值的转化,是当今大数据传统行业实践面临的首要问题,经过这些年的发展大数据平台本身已经相对成熟,已经基本具备生产应用的可能。从实际项目的实践情况来看,成熟的也仅限平台框架本身,应用支撑实施工具层面的匮乏,使得大数据技术的企业应用很难做到如传统SQL技术一样的工程化,易用化。目前大部分厂...
分类:
其他好文 时间:
2014-05-10 18:07:06
阅读次数:
398