码迷,mamicode.com
首页 >  
搜索关键字:hadoop hdfs命令    ( 13969个结果
Hive架构层面优化之二合理利用中间结果集(单Job)
是针对单个作业,针对本job再怎么优化也不会影响到其他job;Hadoop的负载主要有两部分:CPU负载和IO负载;问题:机器io开销很大,但是机器的cpu开销较小,另外map输出文件也较大,怎么办?解决办法:通过设置map的中间输出进行压缩就可以了,这个不会影响最终reduce的输出。集群中的机器...
分类:其他好文   时间:2014-07-18 20:29:09    阅读次数:384
eclipse导入hadoop 2.4
使用以下命令安装Elicpse插件hadoop-maven-plugins:$ cd ${HADOOP_HOME}/hadoop-maven-plugins$ mvn install然后生成Eclipse工程文件:$ cd ${HADOOP_HOME}$ mvn eclipse:eclipse -D...
分类:系统相关   时间:2014-07-18 16:37:24    阅读次数:302
递归遍历目录拷贝cdh下的lib到一个目录
destpath='/home/hadoop/soft/hadoop-2.0.0-cdh4.5.0/cdhlib/'jarpath='/home/hadoop/soft/hadoop-2.0.0-cdh4.5.0/share/hadoop/'search='jar'iterdir(){ cd $1 ...
分类:其他好文   时间:2014-07-18 16:35:53    阅读次数:225
Hive架构层面优化之六分布式缓存
案例:Hadoop jar引用:hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs,然后分发到每个datanode假设有20个jar文件,每天jar文件被上传上万次,分发达上万次(百G级),造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存,...
分类:其他好文   时间:2014-07-18 00:23:59    阅读次数:265
centos安装hadoop(伪分布式)
在本机上装的CentOS 5.5 虚拟机, 软件准备:jdk 1.6 U26 hadoop:hadoop-0.20.203.tar.gzssh检查配置Linux代码 [root@localhost~]#ssh-keygen-trsaGeneratingpublic/privatersakeypair...
分类:其他好文   时间:2014-07-17 21:39:54    阅读次数:551
日志分析方法概述
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。 另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:其他好文   时间:2014-07-17 20:15:30    阅读次数:301
zookeeper分布式安装
今天研究了下zookeeper,先跟大家分项下部署过程~~相对于hadoop其他软件来说,zookeeper的安装还是很简单的环境说明:虚拟机3台IP地址hostname192.168.192.136namenode192.168.192.137datanode1192.168.192.138datanode2zookeeper-3.4.6.tar准备。在每个虚拟机上配置host:192.1..
分类:其他好文   时间:2014-07-17 15:30:20    阅读次数:259
hadoop编程小技巧(3)---自定义分区类Partitioner
Hadoop代码测试环境:Hadoop2.4原理:在Hadoop的MapReduce过程中,Mapper读取处理完成数据后,会把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:/** Use {@link Object#hashCode()} to partition. */ p...
分类:其他好文   时间:2014-07-17 15:06:56    阅读次数:315
Hive优化策略介绍
作为企业Hadoop应用的核心产品之一,Hive承载着公司95%以上的离线统计,甚至很多企业里的离线统计全由Hive完成;Hive在企业云计算平台发挥的作用和影响越来越大,如何优化提速已经显得至关重要;Hive作业的规模决定着优化层级,一个Hive作业的优化和一万个Hive作业的优化截然不同;后续文...
分类:其他好文   时间:2014-07-17 13:13:40    阅读次数:266
手把手教你hadoop安装
<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xml...
分类:其他好文   时间:2014-07-17 11:02:01    阅读次数:298
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!