hadoop是有apache基金会所开发的分布式系统基础架构,其主要提供了两方面的功能:分布式存储和分布式计算。 其中分布式存储是分布式计算的基础,在hadoop的实现里面,提供了分布式存储的接口,并自己实现了一个分布式存储的实现即HDFS,但并不代表 hadoop只支持HDFS这一中实现,其同时支...
分类:
其他好文 时间:
2014-12-22 10:47:29
阅读次数:
164
Spark 1.2.0是在1.X线的第三个版本。此版本带来了Spark的核心引擎性能和可用性方面的改进,一个重要的MLlib新API,Python的扩展ML支持,一个完全高可用的Spark流模式,等等。 GraphX已经看到主要性能和API改进,已经从alpha组件毕业。Spark 1.2代表来自60多个机构的172贡献者的1000个补丁的工作。...
分类:
数据库 时间:
2014-12-20 14:17:05
阅读次数:
304
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序渐进的掌握Hadoop是本课程的核心。云计算学习者的心声:如何从企业级开发的角度,不断动手实际操作,循序...
分类:
其他好文 时间:
2014-12-20 02:05:45
阅读次数:
209
文章来自http://www.cnblogs.com/hark0623/p/4174641.html 转发请注明有时候执行表联查的时候总会出现没有权限写文件的情况。这个时候使用sudo -H hive hive -e "select * from tbl1 join tbl2 on tbl1.fie...
分类:
其他好文 时间:
2014-12-19 20:36:08
阅读次数:
211
在hive的源码中经常可以看到Context类和DriverContext类,咋一看感觉这两个意思差不多,其实其作用区别还是蛮大的:org.apache.hadoop.hive.ql.Context类存储job的上下文信息,一个job创建一个Context对象,job运行完后,调用clear方法进行清除1)初始化/创建/删除中间目录中间..
分类:
其他好文 时间:
2014-12-19 02:00:51
阅读次数:
998
hive创建目录时相关的几个hdfs中的类:org.apache.hadoop.hdfs.DistributedFileSystem,FileSystem的具体实现类
org.apache.hadoop.hdfs.DFSClient,client操作hdfs文件系统的类
org.apache.hadoop.fs.permission.FsPermission文件权限相关类,主要的方法有getUMask和applyUMask..
分类:
其他好文 时间:
2014-12-19 01:58:23
阅读次数:
149
1.安装mysql
sudo apt-get install mysql-server mysql-client
2.使用root账户登录mysql数据库,新建存放hive元数据的数据库,假设叫hiveDB.
a) mysql -uroot -proot
b) create database hiveDB;
3.使用root账户登录mysql,新建hive连接mysql的账号并授予权限...
分类:
其他好文 时间:
2014-12-18 22:18:45
阅读次数:
233
Hive中文乱码问题众所周知,我们都是使用mysql存储hive的元数据,可以执行带有中文注释的建表文件,解决中文乱码的问题:要把元数据库设定为latin1而把存储中文的数据表的编码设定为utf-8格式,即存储在hive里的表是utf-8的。以下几种是不可行的: 1. 将meta database....
分类:
数据库 时间:
2014-12-18 10:22:23
阅读次数:
284
1.Hive中合并小文件的map only JOB,此JOB只会有一个或很少的几个map。2.输入文件格式为压缩的Text File,因为压缩的文本格式不知道如何拆分,所以也只能用一个map
分类:
其他好文 时间:
2014-12-16 18:52:50
阅读次数:
180