摘要 研究背景: 1. 互联网的图片数据急剧膨胀 2. Hadoop平台下的Hdfs分布式文件系统能够很好的处理海量数据 研究内容: 1. Hadoop平台工作原理 2. Hadoop平台下图片存储系统的设计与实现 3. Hadoop平台与Web的整合 创新点: ...
分类:
其他好文 时间:
2014-11-26 20:41:31
阅读次数:
286
最近工作需要,看了HDFS读写数据块这部分。不过可能跟网上大部分帖子不一样,主要写了${dfs.data.dir}的选择策略,也就是block的放置策略。我主要是从我们工作需要的角度来读这部分代码的。 创建文件总共有两步: 1、在写block之前,需要与NameNode通信来生成文件(INo...
分类:
其他好文 时间:
2014-11-26 20:33:43
阅读次数:
367
1数据导入--------------
CREATE EXTERNAL TABLE wizad_mdm_dev_lmj_edition_20141120 (
cookie_id STRING,
guid STRING
) ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
stored a...
分类:
其他好文 时间:
2014-11-26 18:54:52
阅读次数:
272
Hadoop典型应用有:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等Hadoop的核心是HDFS和mapreduce,两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。mapr...
分类:
其他好文 时间:
2014-11-26 13:48:30
阅读次数:
195
ConfiguringHBasetoUseHDFSHAnothingtodoUpgradingtheHiveMetastoretoUseHDFSHAConfiguringHuetoWorkwithHDFSHAaddHttpFSroleinstanceunderHDFSRestarttheHueserviceConfiguringImpalatoWorkwithHDFSHAimpala-shell-iimpala-daemon-host[impala-daemon-host:21000]>INVALIDA..
分类:
其他好文 时间:
2014-11-26 11:39:39
阅读次数:
161
环境配置首先需要在hadoop-env.sh中配置HADOOP_CLASSPATH变量..exportHADOOP_CLASSPATH=/home/hadoop/hadoop-1.2.1/myclass在.bash_profile中配置JAVA_HOME,并且生效测试程序URLCat.java
importorg.apache.hadoop.fs.FsUrlStreamHandlerFactory;
importorg.apache.hadoop.io.IO..
分类:
编程语言 时间:
2014-11-26 06:50:59
阅读次数:
176
HDFS提供分布式存储机制,提供可线性增长的海量存储能力自动数据冗余,无须使用Raid,无须另行备份为进一步分析计算提供数据基础HDFS设计基础与目标硬件错误是常态,因此需要冗余流式数据访问.即数据批量读取而非随机读写,hadoop擅长做的是数据分析而不是事务处理大规模数据集简单..
分类:
其他好文 时间:
2014-11-26 06:49:42
阅读次数:
223
HDFS联邦HDFSHAHDFS快照回顾:HDFS两层模型Namespace:包括目录,文件和块.它支持所有命名空间相关的文件操作,如创建,删除,修改,查看所有文件和目录BlockStorageService(块存储服务)包括两部分1.在namenode中的块的管理提供datanode集群的注册,心跳检测等功能.处理块的报告信息和..
分类:
其他好文 时间:
2014-11-26 06:48:59
阅读次数:
140
配置HDFS联邦配置etc/hadoop/hdfs-site.xml<configuration>
<property>
<name>dfs.nameservices</name>
<value>ns1,ns2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1</name>
<value&g..
分类:
其他好文 时间:
2014-11-26 06:48:49
阅读次数:
155