搜索关键字：spark 大数据 hadoop，搜索到29965个结果！码迷,mamicode.com！

spark开发环境

利用build.xml导入eclipse点击Run——Run Configurations点击“Main”Name填写：SparkProject：Spark（选择Spark工程）Main class：org.jivesoftware.launcher.Startup（启动类）勾选Stop in ma...

分类：其他好文时间：2014-05-01 11:51:57 阅读次数：366

hive如何使用中文查询条件

直接在hql中使用中文会报错：org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.lang.RuntimeException: com.sun.org.apache.xerces.internal.impl.io.Malf...

分类：其他好文时间：2014-05-01 04:26:42 阅读次数：415

如何把其他数据库中AUTO_INCREMENT约束的字段（如ID）导入Vertica数据库

如果在Vertica数据库在建一张同样带AUTO_INCREMENT约束字段（ID）的表，由于AUTO_INCREMENT约束的限制，COPY导入数据时会发生冲突，导致COPY执行失败。经过分析研究及测试，先创建SEQUENCE，然后创建表并设置ID字段的缺省值为NEXTVAL('schemaname.sequencename')，就可COPY导入AUTO_INCREMENT约束字段的数据。...

分类：数据库时间：2014-04-29 13:44:21 阅读次数：409

SQL Server表分区详解

什么是表分区一般情况下，我们建立数据库表时，表数据都存放在一个文件里。但是如果是分区表的话，表数据就会按照你指定的规则分放到不同的文件里，把一个大的数据文件拆分为多个小文件，还可以把这些小文件放在不同的磁盘下由多个cpu进行处理。这样文件的大小随着拆分而减小，还得到硬件系统的加强，自然对我们操作数据是大大有利的。所以大数据量的数据表，对分区的需要还是必要的，因为它可以提高s...

分类：数据库时间：2014-04-29 13:33:20 阅读次数：544

HBase伪分布式安装及简单使用

HBase是Hadoop的数据库，基于Hadoop运行，是一种NoSQL数据库。特点：分布式、多版本、面向列的存储模型，能够大规模的数据实时随机读写，可直接使用本地文件系统。不适合：与关系型数据库相比，模型简单，API很少；不适合小规模的数据。数据存放的位置叫做单元(cell)，其中的数据可以有多个版本，根据时间戳(timestamp)来区别。安装： tar xfz hbase-...

分类：其他好文时间：2014-04-29 13:27:22 阅读次数：403

hadoop生态系统默认端口集合

1 HDFS服务中，默认端口集合： 1. HDFS 端口 Service Servers Default Ports Used Protocol Description Need End User Access? Configuration Parameters NameNode WebUI Master Nodes (NameNo...

分类：其他好文时间：2014-04-29 13:24:21 阅读次数：492

Hadoop架构设计、运行原理详解

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 00430119...

分类：其他好文时间：2014-04-29 13:22:20 阅读次数：309

cdh4.1.2 hadoop和oozie集成问题

安装oozie的时候，碰到了好多好多问题，都通过网上搜索找到答案解决，在这里总结一下...

分类：其他好文时间：2014-04-29 13:17:22 阅读次数：353

创建Hive/hbase相关联的表异常

FAILED: Error in metadata: java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive.serde2.SerDeException org.apache.hadoop.hive.hbase.HBaseSerDe: columns has 3 elements while hbase.columns.mapping has 4 elements (counting the key if implic...

分类：其他好文时间：2014-04-29 13:17:21 阅读次数：387

spark编译与onyarn的运行

Spark on yarn执行流程源代码分析目前的分析主要基于spark0.9.0的cdh5的版本进行分析，源代码下载地址：https://github.com/cloudera/spark.git 下载方式：gitclone url ./spark 进入spark目录，执行gitcheckout cdh5-0.9.0_5.0.0 源代码编译使用sbt编译spa...

分类：其他好文时间：2014-04-29 13:13:22 阅读次数：446

共29965条上一页 1 ... 2992 2993 2994 2995 2996 2997 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)