码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop hive parquet    ( 33788个结果
poj1019 大数据处理 分块
Number Sequence Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 33215   Accepted: 9490 Description A single positive integer i is given. Write a program to f...
分类:其他好文   时间:2014-05-01 22:06:17    阅读次数:437
spark开发环境
利用build.xml导入eclipse点击Run——Run Configurations点击“Main”Name填写:SparkProject:Spark(选择Spark工程)Main class:org.jivesoftware.launcher.Startup(启动类)勾选Stop in ma...
分类:其他好文   时间:2014-05-01 11:51:57    阅读次数:366
Hive cli源码阅读和梳理
对Cli的重新认识*). hive cli有两种模式, 本地模式: 采用持有的driver对象来处理, 远程模式: 通过连接HiveServer来实现, 由此可见之前的架构图中的描述还是模糊且带有误导性*). 支持singal的处理支持, 比如对ctrl+c中断, 需要两次才完全退出交互*). 交互...
分类:其他好文   时间:2014-05-01 08:20:07    阅读次数:415
hive如何使用中文查询条件
直接在hql中使用中文会报错:org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.lang.RuntimeException: com.sun.org.apache.xerces.internal.impl.io.Malf...
分类:其他好文   时间:2014-05-01 04:26:42    阅读次数:415
HBase伪分布式安装及简单使用
HBase是Hadoop的数据库,基于Hadoop运行,是一种NoSQL数据库。 特点:分布式、多版本、面向列的存储模型,能够大规模的数据实时随机读写,可直接使用本地文件系统。 不适合:与关系型数据库相比,模型简单,API很少;不适合小规模的数据。 数据存放的位置叫做单元(cell),其中的数据可以有多个版本,根据时间戳(timestamp)来区别。 安装: tar xfz hbase-...
分类:其他好文   时间:2014-04-29 13:27:22    阅读次数:403
hadoop生态系统默认端口集合
1 HDFS服务中,默认端口集合:  1. HDFS 端口 Service Servers Default Ports Used Protocol Description Need End User Access? Configuration Parameters NameNode WebUI Master Nodes (NameNo...
分类:其他好文   时间:2014-04-29 13:24:21    阅读次数:492
Hadoop架构设计、运行原理详解
1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 00430119...
分类:其他好文   时间:2014-04-29 13:22:20    阅读次数:309
cdh4.1.2 hadoop和oozie集成问题
安装oozie的时候,碰到了好多好多问题,都通过网上搜索找到答案解决,在这里总结一下...
分类:其他好文   时间:2014-04-29 13:17:22    阅读次数:353
创建Hive/hbase相关联的表异常
FAILED: Error in metadata: java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive.serde2.SerDeException org.apache.hadoop.hive.hbase.HBaseSerDe: columns has 3 elements while hbase.columns.mapping has 4 elements (counting the key if implic...
分类:其他好文   时间:2014-04-29 13:17:21    阅读次数:387
spark编译与onyarn的运行
Spark on yarn执行流程源代码分析 目前的分析主要基于spark0.9.0的cdh5的版本进行分析, 源代码下载地址:https://github.com/cloudera/spark.git 下载方式:gitclone url ./spark 进入spark目录,执行gitcheckout cdh5-0.9.0_5.0.0 源代码编译 使用sbt编译spa...
分类:其他好文   时间:2014-04-29 13:13:22    阅读次数:446
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!