http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别。这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系...
分类:
数据库 时间:
2014-06-29 06:09:08
阅读次数:
298
在2014年4月7日,Apache公布了Hadoop 2.4.0 。相比于hadoop 2.3.0,这个版本号有了一定的改进,突出的变化能够总结为下列几点(官方文档说明):1 支持HDFS訪问控制列表(ACL,Access Control Lists) 这个特性攻克了在一定情况下,文件权限訪...
分类:
其他好文 时间:
2014-06-29 06:07:36
阅读次数:
299
最近,由于工作的需要,学习了基于Hadoop的一个数据仓库工具hive。遇到并解决了一些问题,但是有个select语句的细微差别值得注意。 首先来看两条hql语句: SELECT * FROM MY_TABLE where dt=2014031205 limit 10 SELECT ID,NAM.....
分类:
其他好文 时间:
2014-06-28 23:54:20
阅读次数:
400
Hadoop给我们提供了使用c语言访问hdfs的API,下面进行简要介绍:环境:ubuntu14.04hadoop1.0.1jdk1.7.0_51访问hdfs的函数主要定义在hdfs.h文件中,该文件位于hadoop-1.0.1/src/c++/libhdfs/文件夹下,而相应的库文件是位于hado...
一、在Ubuntu下创建hadoop组和hadoop用户增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户。1、创建hadoop用户组2、创建hadoop用户 sudo adduser -ingroup hadoop hadoop回车后会提示输入...
分类:
其他好文 时间:
2014-06-28 21:59:24
阅读次数:
257
安装环境为 CentOS 64位系统,大概分下面几个步奏,0. 安装JDK1. 配置SSH2. 配置/etc/hosts3. 拷贝hadoop包到没台机器上4. 修改hadoop配置文件5. 关闭每台机器的防火墙6. 格式化namenode7. 运行hadoop详细说每个步奏,0. 安装jdk下载J...
分类:
其他好文 时间:
2014-06-21 12:37:47
阅读次数:
272
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些...
分类:
其他好文 时间:
2014-06-21 08:57:48
阅读次数:
430
5、多表关联 多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。下面进入这个实例。5.1 实例描述 输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地...
分类:
其他好文 时间:
2014-06-21 06:29:10
阅读次数:
221
6、倒排索引 "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted In...
分类:
其他好文 时间:
2014-06-21 00:35:21
阅读次数:
371
本文所有涉及的内容均为2.2.0版本中呈现。 概述: Job在创建Job并且提交的人的眼中,可以在创建的时候通过配置Job的内容,控制Job的执行,以及查询Job的运行状态。一旦Job提交以后,将不能对其进行配置,否则将会出现IllegalStateException异常。 正常情况下用户...
分类:
其他好文 时间:
2014-06-20 23:46:15
阅读次数:
374