Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构
化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需
要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言...
分类:
数据库 时间:
2014-06-22 22:41:52
阅读次数:
342
存储能力是提供给上层业务系统以实现文件存取服务,这个存储能力为XDFS,即可扩展的分布式文件系统,实现的原理是封装了第三方的分布式存储系统实现的。目前封装的第三方分布式系统包括FastDFS、Hadoop的HDFS,所提供的存储接口如下: 1 文件上传 2 文件断点上传 3 文件...
分类:
其他好文 时间:
2014-06-20 21:21:55
阅读次数:
470
摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式。本文介绍如何利用这两种方式对HDFS文件进行操作。...
分类:
其他好文 时间:
2014-06-20 13:33:46
阅读次数:
151
??
什么是分布式系统
分布式系统有多个含义:
1)表示计算机科学的一个研究领域,研究方向。这个层面的分布式系统比较学术,不是本文讨论的对象。
2)工程领域的实际使用的分布式系统。分布式系统是互联网应用的基石,是底层的支撑平台。本文讲的分布式系统指这个层面。
互联网应用的特点是:高并发,海量数据。互联网应用的用户数是没有上限的(取决于其开放特性),这也是和传统应用的本质区别。高并...
分类:
其他好文 时间:
2014-06-19 10:08:44
阅读次数:
399
核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统。GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务。1.一系列前提GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下...
分类:
其他好文 时间:
2014-06-19 08:44:16
阅读次数:
261
??
本文讲的分布式文件系统,是通过集群来实现的,因此也是集群文件系统。本文介绍下分布式文件系统中的常见问题及GFS中给出的解决方法。
设计要点:
性能
提高性能的方法就是并行,讲一个任务分解成多个任务,同时执行。
GFS中的思路是将文件分块,每个块是一个chunk,每个chunk单独保存,保存chunk的节点叫chunkserver。对文件的读写,可以转成对chun...
分类:
其他好文 时间:
2014-06-17 23:00:34
阅读次数:
268
NFS服务器的配置1.1NFS概述NFS是一种分布式文件系统允许网络中的安装不同的操作系统的计算机之间共享文件。我的安装环境:redhat5.9NFS服务器的主要软件包:nfs-utils-1.0.9-66.el5portmap-4.0-65.2.2.1系统服务脚本:NFSportmap主配置文件:/etc/exports、/etc/exports配置解析..
分类:
其他好文 时间:
2014-06-17 18:13:48
阅读次数:
275
Sun's Network File System...
分类:
其他好文 时间:
2014-06-08 15:21:30
阅读次数:
308
运行HBase时常会遇到个错误,我就有这样的经历。
ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times
检查日志:org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientPr...
分类:
其他好文 时间:
2014-06-08 03:02:50
阅读次数:
395