码迷,mamicode.com
首页 >  
搜索关键字:HDFS    ( 4980个结果
Hadoop的数据管理
Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。
分类:其他好文   时间:2014-07-22 22:54:13    阅读次数:243
HDFS文件内容追加(Append) hdfs2.x版支持
HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HD...
分类:移动开发   时间:2014-07-22 08:13:34    阅读次数:257
Hadoop命令参数说明
namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一...
分类:其他好文   时间:2014-07-21 10:21:00    阅读次数:327
lab-bill-hadoop-ha-davidey
Hadoop2.2.0版本HDFS的HA配置注:以下配置描述的是HDFS的QJM方式的HA配置。1.1zookeeper集群配置这里我使用了4台机器部署zookeeper集群,机器IP分别是:10.0.0.131Namenode1-v210.0.0.132Namenode2-v210.0.0.133Datanode1-v210.0.0.134Datanode2-v2首先建立zookeeper的数据目录..
分类:其他好文   时间:2014-07-20 15:22:31    阅读次数:363
学习Hadoop不错的系列文章
1)Hadoop学习总结 (1)HDFS简介 (2)HDFS读写过程解析 (3)Map-Reduce入门 (4)Map-Reduce的过程解析 (5)Hadoop的运行痕迹 (6)Apache Hadoop 版本2)Hadoop-0.20.0源代码分析 (1)Hadoop-0.20.0...
分类:其他好文   时间:2014-07-19 23:14:35    阅读次数:208
解析Hadoop 2.3.0版本的新特性
2014年2月20日,Hadoop 2.3.0版本发布,这是apache 在2014年发布的第一个Hadoop版本,揭开了Hadoop 2014发展的序幕。该版本引入了很多大家期待已久的特性,包括HDFS 的异构层次化存储架构、DataNode Cache,YARN的单点故障解决方案,以及MapRe...
分类:其他好文   时间:2014-07-19 18:04:01    阅读次数:239
Hadoop 入门二、简要介绍Hadoop的各个主要模块(概念层次)
一、Hadoop构造模块      运行Hadoop的意思其实就是运行一组守护进程(daemons),每个进程都有各自的角色,有的仅运行在单个服务器上,有的则运行在集群多个服务器上,它们包括: NameNodeSecondary NameNodeDataNodeJobTrackerTaskTracker      Hadoop是一个分布式存储与计算系统,分布式存储部分是HDFS,分布...
分类:其他好文   时间:2014-07-19 02:31:56    阅读次数:188
从hive将数据导出到mysql(转)
从hive将数据导出到mysqlhttp://abloz.com2012.7.20author:周海汉在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中,提到sqoop可以让RDBMS和HDFS之间互导数据,并且也支持从mysql中导入到HBase,但从HBase直接导入mysq...
分类:数据库   时间:2014-07-18 20:00:07    阅读次数:482
data audit on hadoop fs
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确...
分类:其他好文   时间:2014-07-18 17:33:40    阅读次数:246
Hive架构层面优化之六分布式缓存
案例:Hadoop jar引用:hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs,然后分发到每个datanode假设有20个jar文件,每天jar文件被上传上万次,分发达上万次(百G级),造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存,...
分类:其他好文   时间:2014-07-18 00:23:59    阅读次数:265
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!