转自 http://www.cstor.cn/textdetail_6531.html
分类:
其他好文 时间:
2014-05-09 03:37:49
阅读次数:
201
1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,...
分类:
其他好文 时间:
2014-05-09 03:03:39
阅读次数:
347
接到阿里电话说实习和竞赛智能二选一, 真伤心, 在实习前发挥余热吧.
总结一下在ODPS下 编写map / reduce 和进行购买预测的过程.
首先这里的hadoop输入输出都是表的形式, 我们需要一张输入表和一张输出表.
输入表为 提供的 t_alibaba_bigdata_user_brand_total_1 输出表为自定义的wc_out
w...
分类:
其他好文 时间:
2014-05-09 02:33:28
阅读次数:
418
本人BZOJ的处女作。这题题面还是蛮有趣的吧。然后三个问题都蛮有意思的。要保证正确性,出数据还是异常蛋疼啊。本来各出三题的。但是考虑到是OJ上的题,就搞在一起了。这样代码量就会比较大。
分类:
其他好文 时间:
2014-05-08 23:47:58
阅读次数:
846
http://blog.csdn.net/wangloveall/article/details/20767161摘要:介绍Hadoop全分布模式操作,实现真正意义上的集群架构。关键词:Hadoop
全分布模式 文件配置利用Hadoop解决大数据问题时,我们是用全分布模式来操作Hadoop。如何基于...
分类:
其他好文 时间:
2014-05-08 23:44:04
阅读次数:
354
摘要:介绍Hadoop生态系统,从Hadoop生态系统有什么成员,成员能做什么和Hadoop生态系统能够提供大数据问题解决方案两方面来认识。关键词:Hadoop
HDFS MapReduce HBase Hive PigHadoop生态图,通俗地说,就是Hadoop核心模块和衍生的子项目。一幅Ha....
分类:
其他好文 时间:
2014-05-08 23:16:24
阅读次数:
387
大数据是一个体量特别大,数据类别特别大的数据集。也就是说“大数据”本身并不是一种新的技术,也不是一种新的产品,
而是我们这个时代出现的一种现象。而这个“大”达到了一种什么样的程度呢?可以说他即将突破现有常规软件所能提供的能力极限。
综上所述,我们觉得使用麦肯锡的定义可能会更为简洁明了:大数据是指无法...
分类:
其他好文 时间:
2014-05-08 12:30:00
阅读次数:
301
参考自《大型网站技术架构》第1~3章
1、大型网站架构演化发展历程
(1)初始阶段的网站架构:一台服务器分别作为应用、数据、文件服务器
(2)应用服务和数据服务分离:三台服务器分别承担上述三项工作,其中应用服务器要求CPU强大、数据库服务器需求更快的硬盘和内存,文件服务器需要较大的硬盘。
(3)使用缓存改善网站性能:分为本地缓存以及缓存在专门的分布式服务器上的远程缓存。
(4)使...
分类:
Web程序 时间:
2014-05-08 04:42:48
阅读次数:
430
高精度之大数的除法,大数据计算c语言一样强大...
分类:
其他好文 时间:
2014-05-08 04:27:19
阅读次数:
281
大数据量引起的高并发处理:
1、数据量超过百万时增加集群服务器,比如使查询和操作分别在不同服务器上执行,如果数据量超过千万时这样会增加服务器间相互复制数据的资源开销,这时考虑把数据资源比如用户表根据ID放在不同的数据库集群中。
2、是页面静态化,因为html比jsp更节省资源和性能,考虑将页面做成html返回给客户,比如用freemarker工具
3、缓存技术,集群中采用memcached...
分类:
其他好文 时间:
2014-05-08 04:18:07
阅读次数:
361