码迷,mamicode.com
首页 >  
搜索关键字:sparksql    ( 306个结果
YDB资源汇总
YDB介绍什么是延云YDB基于spark排序的一种更廉价的实现方案-附基于spark的性能测试大索引技术大数据的未来YDB技术原理YDB技术原理那些年我们在sparkSQL上踩过的坑YDB跟SolrCloud、ElasticSearch区别YDB安装部署YDB依赖的硬件环境详解YDB依赖的操作系统环境详解YDB依赖的软件环..
分类:数据库   时间:2017-03-13 00:18:58    阅读次数:183
python开发sparkSQL应用
准备条件:部署hadoop集群部署spark集群安装python(本人安装的是anaconda3,python是3.6)配置环境环境变量:vi.bashrc#添加如下内容 exportSPARK_HOME=/opt/spark/current exportPYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zipps:spark里面会自..
分类:数据库   时间:2017-03-10 19:26:13    阅读次数:1637
Spark机器学习
Spark机器学习Pipelines中的主要概念MLlib提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流。这个概念和scikit-learn里的概念类似,根据官方的说法是,此抽象概念的设计灵感来自于scikit-learn。·DataFrame:通过SparkSQL组件里的DataFram..
分类:其他好文   时间:2017-03-08 01:27:33    阅读次数:326
使用Scala基于词法单元的解析器定制EBNF范式文法解析
一、前言 近期在做Oracle迁移到Spark平台的项目上遇到了一些平台公式翻译为SparkSQL(on Hive)的需求,而Spark采用亲妈语言Scala进行开发。分析过大概需求过后,拟使用编译原理中的EBNF范式模式,进行基于词法的文法解析。于是拟采用传统的正则词法解析到EBNF文法解析的套路... ...
分类:其他好文   时间:2017-03-07 23:08:55    阅读次数:304
spark sql的简单操作
测试数据 sparkStu.text zhangxs 24 chenxy wangYr 21 teacher wangx 26 teacher sparksql { "name":"zhangxs","age":24,"job":"chengxy", "name":"li","age":21,"jo ...
分类:数据库   时间:2017-03-07 08:25:37    阅读次数:298
怎么理解impala(impala工作原理是什么)
下面给大家介绍怎么理解impala,impala工作原理是什么。 Impala是hadoop上交互式MPP SQL引擎, 也是目前性能最好的开源SQL-on-hadoop方案。 如下图所示, impala性能超过SparkSQL、 Presto、 Hive。 impala与hadoop生态结合紧密 ...
分类:其他好文   时间:2017-02-12 11:03:07    阅读次数:3110
Spark SQL下的Parquet使用最佳实践和代码实战
一:Spark SQL下的Parquet使用最佳实践 1,过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式: A)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala - ...
分类:数据库   时间:2017-01-20 16:21:10    阅读次数:465
Spark的DataFrame的窗口函数使用
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql ...
分类:其他好文   时间:2016-12-20 20:00:40    阅读次数:2515
学习Spark2.0中的Structured Streaming(一)
转载自:http://lxw1234.com/archives/2016/10/772.htm Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQ ...
分类:其他好文   时间:2016-12-15 17:34:56    阅读次数:423
SparkSQL的3种Join实现
本文简单介绍SparkSQL中的几种Join实现。SparkSQL会根据用户配置,对不同大小的表应用不同的Join策略,兼顾效率和稳定性。
分类:数据库   时间:2016-12-13 13:55:49    阅读次数:400
306条   上一页 1 ... 20 21 22 23 24 ... 31 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!