1.下载喜欢的电子书或大量文本数据,并保存在本地文件夹中 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 ...
分类:
其他好文 时间:
2020-11-07 16:32:22
阅读次数:
17
1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 2编写map与reduce函数 3本地测试map与reduce 4将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 ...
分类:
其他好文 时间:
2020-11-07 16:17:20
阅读次数:
18
CitrixXenDesktopAgent在Windows7/XP安装了5.6版本的XenDesktop之后,默认增加一个开机弹出窗口“欢迎使用CitrixXenDesktop”如果桌面是Pool(池)/Streaming(pvs推送)类型的,即使勾上了“以后不再显示欢迎界面”的复选框,因为池桌面“关机即还原”的作用,每次用户登录windows7/XP的VDI,仍然会弹出欢迎界面。所以需要在模板w
分类:
其他好文 时间:
2020-11-06 02:22:57
阅读次数:
25
别只会一股脑的String -> POJO了,Jackson优雅灵活的树模型你值得拥有
分类:
Web程序 时间:
2020-08-31 13:27:52
阅读次数:
81
1.mapReduce 的shuffle 过程 : https://www.iteye.com/blog/langyu-992916 2.spark streaming : https://www.jianshu.com/p/0691204282ab CAS的理解? https://www.jian ...
分类:
其他好文 时间:
2020-08-13 12:10:50
阅读次数:
53
数据处理的工作时间占整个数据分析项目的70%以上,因此,数据的质量直接决定了分析模型的准确性。那么,数据预处理的方法是什么呢?例如数据清理、数据集成、数据规范、数据转换等,其中最常用的是数据清理和数据集成,下面中琛魔方将来详细介绍一下这2种方法。 数据预处理的方法 1、数据清洗 数据清洗是通过填补缺失值,平滑或删除离群点,纠正数据的不一致来达到清洗的目的。简单来说,就是把数据里面哪些缺胳
分类:
其他好文 时间:
2020-08-13 11:52:24
阅读次数:
51
数据准备是机器学习中一项非常重要的环节,本文主要对数据准备流程进行简单的梳理:数据清理、数据转换、特征选择 ...
分类:
其他好文 时间:
2020-08-11 11:51:06
阅读次数:
75
1、JedisConnectionPool.scala package sparkstreaming import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig} object JedisConnectionPool{ val conf ...
分类:
其他好文 时间:
2020-08-07 18:03:42
阅读次数:
62
Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树,当RDD的一个分区丢失,可以根据祖先树重建该分区。 RDD有两组操作,转换(transformation)和行动(actio ...
分类:
其他好文 时间:
2020-07-28 22:37:30
阅读次数:
72
一.DStream的两类操作 DStream内部其实是RDD序列,所有的DStream操作最终都转换为RDD操作。通过分析源码,可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性: 依赖的其它DStream列表。 生成RDD的时间间隔。 一个名为compute的计算函数 ...
分类:
其他好文 时间:
2020-07-20 13:13:18
阅读次数:
64