前段时间业务系统有个模块数据没有了,在排查问题的时候发现中间处理环节出错了,错误日志为文件格式不正确,将数据导出后发现这个处理逻辑的输入文件中每一行都多了一列,而且是一个空列(列分隔符是\t)。第一次检查代码后没发现代码里多写了一列,第二次排查Reduce代码时,发现在写文件时value为空的Tex...
分类:
其他好文 时间:
2014-07-16 21:46:49
阅读次数:
200
[Spark亚太研究院 决战云计算大数据时代 100期公益大讲堂 互动问答]Q1:我想问,hdfs的namenode挂了,怎么处理? 使用ZooKeeper; 使用Mesos; 使用Yarn;Q2:用python和scala区别大吗? 就代码的风格而言是不大的; 世界上也有很多人使用python开发...
分类:
其他好文 时间:
2014-07-16 19:09:29
阅读次数:
294
HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。
分类:
其他好文 时间:
2014-07-16 16:11:21
阅读次数:
275
hadoop支持命令行操作HDFS文件系统,并且支持shell-like命令与HDFS文件系统交互,对于大多数程序猿/媛来说,shell-like命令行操作都是比较熟悉的,其实这也是Hadoop的极大便利之一,至少对于想熟悉乃至尽快熟练操作HDFS的人来说。
分类:
其他好文 时间:
2014-07-16 15:39:42
阅读次数:
485
一个问题困扰了很久,用sqoop import从mysql数据库导入到HDFS中的时候一直报错,最后才发现是一个时间日期类型的非法值导致。hive只支持timestamp类型,而mysql中的日期类型是datetime, 当datetime的值为0000-00-00 00:00:00的时候,sqoop import无法将其转换成hive, 然后报错。解决方法是在hive中使用string字段类型。...
分类:
其他好文 时间:
2014-07-15 12:58:08
阅读次数:
342
# 学习前言
框架整合中用到的所有工程代码,jar包什么的都已经上传到群214293307共享中,需要的话自己下载研究了。
# Flume的学习请参考_00016 Flume的体系结构介绍以及Flume入门案例(往HDFS上传数据)这篇博文
# Kafka的学习请参考_00017 Kafka的体系结构介绍以及Kafka入门案例(初级案例+Java API的使用)这篇博文
# Storm的学习请参考_00019 Storm的体系结构介绍以及Storm入门案例(官网上的简单Java案例)这篇博文
请学习...
分类:
其他好文 时间:
2014-07-14 18:32:41
阅读次数:
574
回 到 目 录最近要从网上抓取数据下来,然后hadoop来做存储和分析。每晚尽量更新呆毛王赛高月子酱赛高小唯酱赛高目录 安装hadoop1.0.3 HDFS wordcount mapreduce去重 mapreduce算平均分 mapreduce排序安装hadoop1.0.3 1 u...
分类:
其他好文 时间:
2014-07-14 15:14:34
阅读次数:
279
http://blog.csdn.net/greatelite/article/details/18676281遇到的问题:在连接到hdfs服务器上,一直提示unable to connect to HDFS Server解决过程中:①网上找了各种说是jar包驱动不兼容,端口号不对,最后都没解决②最...
分类:
其他好文 时间:
2014-07-13 00:38:07
阅读次数:
632
对于hadoop HDFS 中的所有命令进行解析(其中操作流程是自己的想法有不同意见欢迎大家指正)
接口名称
功能
操作流程
get
将文件复制到本地文件系统 。如果指定了多个源文件,本地目的端必须是一个目录。
(1)按照上述机制,在Config server上的存储引擎中逐层读取K-V,直到获得文件名(或大文件元数据...
分类:
其他好文 时间:
2014-07-12 22:25:59
阅读次数:
389