简介
本文档对从 Apache Hadoop 1.x 迁移他们的Apache Hadoop MapReduce 应用到
Apache Hadoop 2.x 的用户提供了一些信息。
在 Apache Hadoop 2.x 中,我们已经把资源管理功能放入 分布式应用管理框架 的Apache
Hadoop YARN,而 Apache Hadoop MapReduce (亦称 MRv2) 保持...
分类:
其他好文 时间:
2014-05-14 00:55:11
阅读次数:
294
百度蜘蛛的更新策略:我们知道蜘蛛并不是只抓取我们网站一次,而是按一定的更新频率来抓取我们的网站,在本地进行一个“镜像”从而保证被抓取的网页参与排名时呈现给用户的是最新的(咳咳,不新也要保证差不多嘛!毕竟资源有限)。那么这个更新策略跟什么有关呢?
1.用户体验:用户一般在搜索一个关键词的时候,顶多看两三页左右,基本很少看后面的页面,而搜索引擎本着优先更新大部分客户所需要内容的原则,所以搜索引擎...
分类:
其他好文 时间:
2014-05-13 08:18:25
阅读次数:
286
lk@lk-virtual-machine:~/hadoop-1.0.1/bin$ ./hadoop dfs -rmr output
Deleted hdfs://localhost:9000/user/lk/output
lk@lk-virtual-machine:~/hadoop-1.0.1/bin$ ./hadoop jar ~/mytopk.jar top.Top input out...
分类:
其他好文 时间:
2014-05-13 06:53:12
阅读次数:
448
UC正式推广官方技术博客,隐藏多年的浏览器技术开始陆续对外发布。...
分类:
其他好文 时间:
2014-05-13 06:49:04
阅读次数:
199
hbase shell命令的使用
再使用hbase 命令之前先检查一下hbase是否运行正常
hadoop@Master:/usr/hbase/bin$ jps
2640 HMaster
27170 NameNode
27533 SecondaryNameNode
3038 Jps
27795 TaskTracker
27351 DataNode
2574 HQuorumPeer
...
分类:
其他好文 时间:
2014-05-13 05:40:21
阅读次数:
460
下面是瑞雪整理的关于搜索引擎优化重要性及有效seo策略报告。
某数据搜集机构最近进行的一个市场营销结果调查显示,超过半数的市场营销人员认为在过去的几年来,SEO营销方法变得对他们越来越有效。你们老板知道这事吗?
最有效seo策略
首先,57%的受访者认为高质量的站内内容建设是他们最有效的seo策略。任何的seo手段都是建立在是否能真正为用户提供帮助和价值的基础之上,说...
分类:
其他好文 时间:
2014-05-12 23:54:19
阅读次数:
391
在我们选择硬件的时候,往往需要考虑应用得到的性能和经费开支。为此,我们必须在满足实际需要和经济可行上找到一个完美的平衡。下面,以Hadoop集群应用为了例子,说明需要考虑的要素。
1. I/O绑定的工作负荷。
Hadoop涉及到的I/O操作,主要包括下列几项:
索引(Indexing)
群化(Grouping)
数据导入和导出(Data importing...
分类:
其他好文 时间:
2014-05-12 23:47:04
阅读次数:
536
学习大数据的处理,有必要读一下有关大数据的书籍。这里,我列举了几本书,仅供参考。
1 ZooKeeper: Distributed Process Coordination
这本书针对的是初级或者高级的开发,面向Zookeeper编程的工程师们。如果你的工程中(如HBase)涉及到Zookeeper的应用,有必要了解一下Zookeeper的管理知识和一些基本解...
分类:
其他好文 时间:
2014-05-12 22:46:32
阅读次数:
662
安装HBase 0.94.6-cdh4.3.0
设定HBase的配置文件,由于安装的是cdh版,各版本直接匹配,互相依赖的jar包也都正确,只需要配置下hbase的环境变量和配置文件即可。
1.配置hbase-env.sh,添加JAVA_HOME环境变量
[html] view
plaincopy
export JAVA_HOME=/us...
分类:
其他好文 时间:
2014-05-12 22:36:14
阅读次数:
504