x86台式机,window7 64位系统
wmware虚拟机(x86的台式机至少是4G内存,才能开2台虚机)
centos6.4操作系统
hadoop-2.2.0.tar.gz
jdk-6u24-linux-i586.bin
WinScp 远程文件传输工具,很好用。可以用于windows和虚拟机Linux之间文件相互拷贝。...
分类:
其他好文 时间:
2014-06-02 02:23:23
阅读次数:
315
环境说明
1、硬件说明
使用三台PC机,角色分配如下
2、软件说明
约定所有软件都放在/usr/local/路径下
准备工作
1、安装jdk
2、配置SSH
Storm集群安装
安装流程图
1、安装Zookeeper集群
2、安装Storm依赖
zeromq、jzmq、pytho...
分类:
其他好文 时间:
2014-05-13 05:44:31
阅读次数:
345
声明: 若要转载, 请标明出处.
前提: 在对于大量的数据导入到HBase中, 如果一条一条进行插入, 则太耗时了, 所以可以先采用MapReduce生成HFile文件, 然后使用BulkLoad导入HBase中.
引用:
一、这种方式有很多的优点:
1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk...
分类:
其他好文 时间:
2014-05-10 04:33:38
阅读次数:
513
http://blog.csdn.net/wangloveall/article/details/20767161摘要:介绍Hadoop全分布模式操作,实现真正意义上的集群架构。关键词:Hadoop
全分布模式 文件配置利用Hadoop解决大数据问题时,我们是用全分布模式来操作Hadoop。如何基于...
分类:
其他好文 时间:
2014-05-08 23:44:04
阅读次数:
354
能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。
现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。
项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-...
分类:
其他好文 时间:
2014-05-04 00:22:05
阅读次数:
476
前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对“伪分布式”说声
呵呵吧。
前期的jdk环境、SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配...
分类:
其他好文 时间:
2014-05-03 21:51:45
阅读次数:
344