http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别。这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系...
分类:
数据库 时间:
2014-06-29 06:09:08
阅读次数:
298
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写...
分类:
其他好文 时间:
2014-06-29 00:17:14
阅读次数:
369
现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;5)。。。。。。导致:维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷,使用spar...
分类:
其他好文 时间:
2014-06-28 14:08:46
阅读次数:
306
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、map的数量,通常情...
分类:
其他好文 时间:
2014-06-23 07:48:43
阅读次数:
288
鉴于hadoop的需要。。。但是并不限于此。。。有时候闲输入密码麻烦,也可以用这种办法从一个节点通过ssh进入另一个节点。。。设要使master进入slave是免密码的,则可以在master(ip为192.168.169.9)中如下操作:命令:ssh-keygen -t rsa 然后一路回车(该命令...
分类:
其他好文 时间:
2014-06-22 23:31:51
阅读次数:
332
hadoop 0.18文档(详细介绍Hadoop,MapReduce,FS Shell,Streaming等)hadoop资料汇总(XX搜集的,还没看)streaming(非java程序员的福音)Hadoop Streaming编程实例Hadoop Streaming编程Hadoop Streami...
分类:
其他好文 时间:
2014-06-20 18:33:43
阅读次数:
160
hadoop 1.0 mapreduce过程主要问题:JobTracker 是 Map-reduce 的集中处理点,存在单点故障。JobTracker 完成了太多的任务,造成了过多的资源消耗,当 map-reduce job 非常多的时候,会造成很大的内存开销,潜在来说,也增加了 JobTracke...
分类:
其他好文 时间:
2014-06-18 20:00:19
阅读次数:
377
期间遇到了无法转value的值为int型,我採用try catch解决str2 2str1 1str3 3str1 4str4 7str2 5str3 9用的\t隔开,得到结果str1 1,4str2 2,5str3 3,9str4 7我这里map,reduce都是单独出来的类,用了自己定义的key...
分类:
其他好文 时间:
2014-06-18 18:35:21
阅读次数:
184
运行mahout in action上的cluster示例时报错:Error: Found interface org.apache.hadoop.mapreduce.Counter, but class was expected 确定是版本问题,我的hadoop版本是2.4,但mahout目...
分类:
其他好文 时间:
2014-06-18 11:07:10
阅读次数:
394
1,商城:是单商家,多买家的商城系统。数据库是mysql,语言java。
2,sqoop1.9.33:在mysql和hadoop中交换数据。
3,hadoop2.2.0:这里用于练习的是伪分布模式。
4,完成内容:喜欢该商品的人还喜欢,相同购物喜好的好友推荐。
步骤:
1,通过sqoop从mysql中将 “用户收藏商品” (这里用的是用户收藏商品信息表作为推荐系统业务上的依据,业务依...
分类:
其他好文 时间:
2014-06-18 07:14:43
阅读次数:
230