在2014年4月7日,Apache公布了Hadoop 2.4.0 。相比于hadoop 2.3.0,这个版本号有了一定的改进,突出的变化能够总结为下列几点(官方文档说明):1 支持HDFS訪问控制列表(ACL,Access Control Lists) 这个特性攻克了在一定情况下,文件权限訪...
分类:
其他好文 时间:
2014-06-29 06:07:36
阅读次数:
299
1、练习 首先编写两个数据文件A: 0,1,2 1,3,4 数据文件B: 0,5,2 1,7,8 上传到HDFS对应目录/input目录下2、运行pig ,加载A和B 加载数据A:使用指定的分隔符, grunt> a = load '/input/A' using PigStora...
分类:
其他好文 时间:
2014-06-19 00:27:03
阅读次数:
354
nutch,solr集成在hadoop上 nutch是一个应用程序,在我的这个项目里主要是做爬虫用,爬取后的内容寄存在hdfs上,所以在hdfs结合模块现已结合上去了。 solr: 在eclipse新建动态页面项目,删去WebContent的一切内容。 在solr/dist下(或许/solr3.6....
分类:
其他好文 时间:
2014-06-18 10:30:02
阅读次数:
223
参考链接:http://blog.csdn.net/zolalad/article/details/11470449环境:ubuntu14.04 hadoop1.0.1下面以3台机器为例,讲解安装过程1)准备3台机器,一台作为nameNode,命名为master,两台作为dataNode,命名为sl...
分类:
其他好文 时间:
2014-06-18 00:06:18
阅读次数:
243
二、Hadoop目录结构这里重点介绍几个目录bin、conf及lib目录。1、$HADOOP_HOME/bin目录文件名称说明hadoop用于执行hadoop脚本命令,被hadoop-daemon.sh调用执行,也可以单独执行,一切命令的核心hadoop-config.shHadoop的配置文件hadoop-daemon.sh通过执行hadoop命令来启动/停止一个守护进程(daemon)。该命令...
分类:
其他好文 时间:
2014-06-16 23:13:29
阅读次数:
338
前言Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System);从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计算的时间。Hadoop适合于:1、超大数据的计算;2、一次写入、多次读取的模式;3、可以跑在普通的硬件...
分类:
其他好文 时间:
2014-06-16 22:58:13
阅读次数:
250
三、配置Hadoop1、设置$HADOOP_HOME/conf/hadoop-env.sh这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称默认值说明JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如:/usr/local/jdk1.6.0_33HADOOP_CLASSPATH空这个用以设置用户的类路径,也可以在...
分类:
其他好文 时间:
2014-06-16 19:59:35
阅读次数:
380
1. Impala架构
Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS...
分类:
其他好文 时间:
2014-06-16 14:42:11
阅读次数:
251
一、项目要求
本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、nginx、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。
二、需求分析: KPI指标设计
PV(PageView): 页面访问量统计
IP: 页面独立IP的访问量统计
...
分类:
其他好文 时间:
2014-06-15 10:25:49
阅读次数:
395
1、pig安装 1)解压,重命名、设置环境变量,同hadoop 2)编辑文件$PIG_HOME/conf/pig.properties,增加两行如下内容 fs.default.name=hdfs://hadoop:9000 mapred.job.tracker=hadoop:9001...
分类:
其他好文 时间:
2014-06-14 11:40:40
阅读次数:
205