搜索关键字：sparksql，搜索到306个结果！码迷,mamicode.com！

个推 Spark实践教你绕过开发那些“坑”

Spark作为一个开源数据处理框架，它在数据计算过程中把中间数据直接缓存到内存里，能大大提高处理速度，特别是复杂的迭代计算。Spark主要包括SparkSQL，SparkStreaming，Spark MLLib以及图计算。Spark核心概念简介1、RDD即弹性分布式数据集，通过RDD可以执行各.....

分类：其他好文时间：2015-12-28 15:47:25 阅读次数：245

SparkSQL相关语句总结

1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个耗时25.766秒 ...

分类：数据库时间：2015-10-10 17:09:11 阅读次数：1677

sparksql与hive整合

hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容: <property> ??<name>hive.metastore.uris</name> ??<value>thrift://master:9083</value> ??<description>Thrift?uri?for?the?remote?met...

分类：数据库时间：2015-09-22 16:51:01 阅读次数：231

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTable注册成临时表，然后通过SQL语...

分类：数据库时间：2015-08-31 10:08:08 阅读次数：377

Spark入门实战系列--6.SparkSQL（中）--深入了解运行计划及调优

前面介绍了SparkSQL的运行过程，罗列了很多概念很抽象，比如Unresolved LogicPlan、LogicPlan、PhysicalPlan，下面介绍一个工具hive/console，来加深对SparkSQL的运行计划的理解。另外Spark是一个快速的内存计算框架，同时是一个并行运算的框架，在计算性能调优的时候，除了要考虑广为人知的木桶原理外，还要考虑平行运算的Amdahl定理。...

分类：数据库时间：2015-08-27 11:06:02 阅读次数：287

Spark入门实战系列--6.SparkSQL（中）--深入了解运行计划及调优

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1.1 运行环境说明1.1.1硬软件环境l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存l 虚拟软件：VMware® Workstation 9.0.0 build-81238...

分类：数据库时间：2015-08-27 08:15:14 阅读次数：471

Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生。但是，随着Spark的发展，对于野心勃勃的Spark团队来说，Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。...

分类：数据库时间：2015-08-26 09:30:54 阅读次数：416

Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、SparkSQL的发展历程1.1Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运...

分类：数据库时间：2015-08-26 09:26:23 阅读次数：340

sparksql链接mysql

1.在IDEA上建立一个sparksql_mysql的scala对象。2.连接mysql的代码如下import java.sql.{DriverManager, PreparedStatement, Connection}import org.apache.spark.rdd.JdbcRDDimpo...

分类：数据库时间：2015-08-19 10:46:20 阅读次数：207

Sequoiadb该如何选择合适的SQL引擎

Sequoiadb作为一个文档型NoSQL数据既可以存储结构化数据也可以存储非结构化数据，对于非结构化数据只能使用原生的API进行查询，对结构化数据我们可以选择使用原生的API和开源SQL引擎，目前PostgresSQL,Hive,SparkSQL都可以作为Sequoiadb的SQL引擎，应用中该如...

分类：数据库时间：2015-08-09 00:24:45 阅读次数：219

共306条上一页 1 ... 24 25 26 27 28 ... 31 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)