Hadoop的核心处理模块是MapReduce,也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中,使得它在操作上足够简单,功能上足够强大。MapReduce已经解决很多实际问题(从日志分析,到数据排序,到文本操作,到基于模式的搜索,到图像处理,到机器学习等等)...
分类:
其他好文 时间:
2014-05-27 00:14:28
阅读次数:
449
NoSQL,指的是非关系型的数据库。NoSQL,意即反SQL运动,是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储,相对于目前铺天盖地的关系型数据库运用,这一概念NoSQL,指的是非关系型的数据库。NoSQL,意即反SQL运动...
分类:
数据库 时间:
2014-05-26 09:01:10
阅读次数:
406
本文节选于机械工业出版社推出的《Android应用开发揭秘》一
书,作者为杨丰盛。本书内容全面,详细讲解了Android框架、Android组件、用户界面开发、游戏开发、数据存储、多媒体开发和网络开发等基础知
识,而且还深入阐述了传感器、语音识别、桌面组件开发、Android游戏引擎设计、Andro...
分类:
移动开发 时间:
2014-05-26 08:17:40
阅读次数:
480
目前存储网络技术领域中的两个主旋律是SAN(存储区域网络)和NAS(网络连接区域存储),两者都宣称是解决现代企业高容量数据存储需求的最佳选择。正如在餐厅就餐时大厨不会为您传菜,跑堂不会为您烹制鲜橙烩鸭,您必须确保选用的存储技术能充分发挥其优势,而不是越俎代庖。下面我们就好好比较一下双方的特长和适用的...
分类:
其他好文 时间:
2014-05-26 07:50:55
阅读次数:
241
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
最近项目在做网站用户数据新访客统计,数据存储在MongoDB中,统计的数据其实也并不是很大,1000W上下,但是公司只配给我4G内存的电脑,让我程序跑起来气喘吁吁...很是疲惫不堪。
最常见的问题莫过于查询MongoDB内存溢出,没办法只能分页查询。这种思想大家可能都会想到,但是如何分页,确实多有门道!
网上用的最多的,也是最常见的分页采用的是skip+limit这种组合方式,...
分类:
数据库 时间:
2014-05-26 04:13:29
阅读次数:
399
如今Bigtable型(列族)数据库应用越来越广,功能也很强大。但是很多人还是把它当做关系型数据库在使用,用原来关系型数据库的思维建表、存储、查询。本文以hbase举例讲述数据模式的变化。
传统关系型数据库(mysql,oracle)数据存储方式主要如下:
图一
上图是个很典型的数据储存方式,我把每条记录分成3部分:主键、记录属性、索引字段。我们会对索引字段建立索引,达到二级索引...
分类:
数据库 时间:
2014-05-23 00:19:11
阅读次数:
301
概述VMwareHorizonView5.3.1是全面支持VMwareVirtualSAN功能的维护版本。在ViewAdministrator中创建池时,现在您可以选择VirtualSAN数据存储来存储桌面虚拟机。此功能需要使用vSphere5.5Update1或更高版本。相对于HorizonView5.3,VirtualSAN支持是HorizonView5.3.1中的唯一新..
分类:
其他好文 时间:
2014-05-22 18:07:20
阅读次数:
390
数据流图是结构化分析方法的重要模型,用于描述系统的功能、输入、输出和数据存储等。绘制数据流图的时候必须遵守以下一些规则:1、每条数据流的起点或者终点必须是加工,即至少有一端是加工。2、在分层数据流图中,必须要保持父图与子图平衡。3、每个加工必须既有输入数据流又有输出数据流。4、必须要保持数据守恒。
分类:
其他好文 时间:
2014-05-21 19:16:32
阅读次数:
246
最近几天都在搞数据库,特别是今天,因为需要,自己写了一个自动生成同步数据存储过程的存储过程。。。废话不多少,直接上代码: --开始 --create proc
exec_copy --as --begin --因为同步的表是内网表,基本不做业务逻辑处理,所以所有的表都没有标示列,故我也就没做标示列....
分类:
其他好文 时间:
2014-05-21 04:00:28
阅读次数:
330