pipeline 在sklearn 和 spark 中广泛存在的高层级结构,对于的它的作用我们也要思考一下,为了更好的展开思考,首先需要问几个问题: 1. 在多种场合下,用它与不用它有什么不一样? 2. 直接去看框架源码pipeline到底干了什么,帮客户端完成了哪些工作的工作? 3. 强行使用这种 ...
分类:
其他好文 时间:
2019-01-01 18:51:19
阅读次数:
170
摘要: 1.时间总是过得很快,不经意间竟然来到了2019年,很感慨也很期待。 2.2018年总结 3.2019年展望。 2018年总结: (1)今年体重减了很多,我很满意。年初刚报健身房的时候体侧192斤,自己吓一跳,从正月十五进健身房到后面5月份体重减到144斤,自己比较满意,也积累了很多健身方面 ...
分类:
其他好文 时间:
2019-01-01 11:42:38
阅读次数:
209
入门大数据领域需要哪些技能?大数据学习之路。 大数据是当时时代下一门炙热的IT学科,行情十分火爆,不论是阿里巴巴、百度这样的大公司,还是中小企业都很重视,甚至是第一个纳入国家战略的技术,政府扶持力度大,支持甚多!面对这样的大环境下,大数据相关岗位薪水高,就业前景好。因此也吸引了一大批有志之士,想学习 ...
分类:
其他好文 时间:
2018-12-31 23:09:17
阅读次数:
173
一、关于JMS1.JMS的基础??JMS是Java提供的一套技术规范。即Java消息服务(Javamessageservice)。应用程序接口。是一个Java平台中关于面向消息中间件的API。用于在两个应用程序之间或者分布式系统中发送消息,进行异步通信。Java消息服务是一个与具体平台无关的API。??用来异构系统集成通信,缓解系统瓶颈。提高系统的伸缩性、增
分类:
其他好文 时间:
2018-12-28 22:51:53
阅读次数:
240
马云说"我们已从IT时代进入了DT时代,未来我们的汽车、电灯泡、电视机、电冰箱等将全部装上操作系统,并进行数据集成,数据将会让机器更"聪明"。大到世界500强,BAT这样的公司,小到创业公司,他们都需求数据人才。目前,大数据人才数量较少,也是学习大数据一个很好的时机! 互联网科技发展蓬勃兴起,人工智 ...
分类:
其他好文 时间:
2018-12-24 00:01:37
阅读次数:
150
注意SparkSQL JDBC和SparkSQL JDBCSever是完全两种不同的场景。 SparkSQL JDBC SparkSQL可以使用JDBC的方式访问其他数据库,和普通非spark程序访问jdbc的方式相同。只是Spark中访问jdbc提供了接口能够将得到的数据转化成DataFrame。 ...
分类:
数据库 时间:
2018-12-21 17:38:33
阅读次数:
232
什么是Map、什么是Reduce MapReduce是一个分布式编程计算模型,用于大规模数据集的分布式系统计算。 我个人理解,Map(映射、过滤)就是对一个分布式文件系统(HDFS)中的每一行(每一块文件)执行相同的函数进行处理; Reduce(规约、化简)就是对Map处理好的数据进行两两运算,因此 ...
分类:
其他好文 时间:
2018-12-20 11:54:38
阅读次数:
256
Spark2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg提取码:9n1x本门课程来源于一线生产项目,所有代码都是在现网大数据集群上稳定运行,拒绝Demo。课程涵盖了离线分析、实时分析绝大部分的场景,通过三个实际生产项目教授如何优雅地集成Hadoop、Spark、HBase、Ka
分类:
其他好文 时间:
2018-12-18 12:13:36
阅读次数:
370
一. 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL(Hive Query Language)转化成MapReduce程序 1)Hive处 ...
分类:
其他好文 时间:
2018-12-17 18:57:04
阅读次数:
217
结果: 分析:Spark读取parquet数据默认为目录,因此可以只指定到你要读取的上级目录即可(本地除外),当保存为parquet时,会自动拆分,因此只能指定为上级目录。 ...
分类:
其他好文 时间:
2018-12-12 11:48:19
阅读次数:
386