码迷,mamicode.com
首页 >  
搜索关键字:初识appache hadoop    ( 13955个结果
在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数
最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理,这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了。 本文以一个简单的应用场景为例:对按照二进制格式存储的整数做频数统计。以此来说明如何重写FileInputFormat来实现对非文本数据的处理。...
分类:其他好文   时间:2014-06-04 21:53:46    阅读次数:341
/bin/bash: line 0: fg: no job control一般解决方法
测试版本:CDH5.0,(Hadoop2.3)在使用windows调用Hadoop yarn平台的时候,一般都会遇到如下的错误:2014-05-28 17:32:19,761 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exception from container-launch with co...
分类:其他好文   时间:2014-06-03 06:26:17    阅读次数:277
Hadoop与HBase中遇到的问题(续)java.io.IOException: Non-increasing Bloom keys异常
在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了下面的异常: java.io.IOException: Non-increasing Bloom keys: 201301025200000000000003520000000000000500 after 20131119510000000000000001...
分类:编程语言   时间:2014-06-03 05:55:44    阅读次数:359
浅谈hadoop中mapreduce的文件分发
DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)...
分类:其他好文   时间:2014-06-03 02:18:37    阅读次数:332
Hbase在数据统计中的应用心得
1. 数据统计的需求 互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。 网站站点统计工具无外乎有以下一些功能: 1)网站流量统计:包括PV、UV、IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周、最近一个月等。 2)IP来源信息统计:记录各个来源IP下的访问PV...
分类:其他好文   时间:2014-06-03 01:33:36    阅读次数:226
Spark 1.0.0版本发布
前言 今天Spark终于跨出了里程碑的一步,1.0.0版本的发布标志着Spark已经进入1.0时代。1.0.0版本不仅加入了很多新特性,并且提供了更好的API支持。Spark SQL作为一个新的组件加入,支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大程度上的增强,对Spark和Python的接口也变得更稳定。以下是几个主要的改进点...
分类:其他好文   时间:2014-06-03 00:43:41    阅读次数:269
HP Vertica Analytics Platform 评测
1.vertica概念 面向数据分析的数据仓库系统解决方案 2.vertica关键特性 Ø  标准的SQL接口:可以利用已有的BI、ETL、Hadoop/MapReduce和OLTP环境 Ø  高可用:内置的冗余也提升了查询速度 Ø  自动化数据库设计:数据库自动安装、优化、管理 Ø  高级压缩:十多种压缩算法最多可节省90%的空间 Ø  大规模并行处理:运行于低成本的x86型Lin...
分类:其他好文   时间:2014-06-02 23:09:24    阅读次数:483
Hadoop动态添加/删除节点(datanode和tacktracker)
总的来说,正确的做法是优先通过配置文件,再在具体机器上进行相应进程的启动/停止操作。 网上一些资料说在调整配置文件的时候,优先使用主机名而不是IP进行配置。 总的来说添加/删除DataNode和TaskTracker的方法非常相似,只是操作的配置项和使用的命令有微小差异。 1. DataNode 1.0 配置文件 在namenode下修改配置文件conf/mapred-site.xml。 关键参数dfs.hosts和dfs.hosts.exclude。 注意:不同hado...
分类:其他好文   时间:2014-06-01 10:45:08    阅读次数:340
crontab中运行newLISP脚本的环境变量设置
今天遇到一个问题,在终端里运行newLISP脚本,一切正常,移动到crontab中就不行。即便crontab -e命令运行在同一个用户下,还是有问题。由于newLISP脚本要用到hive和hadoop,估计是环境变量的问题。所以先用newLISP shell运行(env)命令,将当前环境变量记录到文件evn.lsp中。然后在newLISP脚本中加载之。下面是env.lsp文件部分内容:(set '...
分类:其他好文   时间:2014-06-01 10:26:57    阅读次数:330
Hadoop YARN资源隔离技术
YARN对内存资源和CPU资源采用了不同的资源隔离方案。对于内存资源,它是一种限制性资源,它的量的大小直接决定应用程序的死活,因为应用程序到达内存限制,会发生OOM,就会被杀死。CPU资源一般用Cgroups进行资源控制,Cgroups控制资源测试可以参见这篇博文Cgroups控制cpu,内存,io...
分类:其他好文   时间:2014-05-31 18:47:58    阅读次数:264
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!