Spark提供了交互式shell,交互式shell让我们能够点对点(原文:ad hoc)数据分析。如果你已经使用过R,Python,或者Scala中的shell,或者操作系统shell(例如bash),又或者Windows的命令提示符界面,你将会对Spark的shell感到熟悉。
但实际上Spark shell与其它大部分shell都不一样,其它大部分shell让你通过单个机器上的磁盘或者内...
分类:
编程语言 时间:
2015-08-29 21:45:24
阅读次数:
632
学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本
说人话就是正则表达式太难了,博主学不会!
本篇只介绍Beautiful Soup的使用,不涉及安装、配置。
Beautiful So...
分类:
编程语言 时间:
2015-08-29 18:49:20
阅读次数:
211
[Author]: kwu --- 基于CDH5.4的Spark1.4.1下SparkR的部署,R与Spark的结合为数据分析提供高效的解决方案,Hadoop的中hdfs为数据分析提供分布式存储。本文介绍集成安装的步骤:...
分类:
其他好文 时间:
2015-08-29 15:29:09
阅读次数:
172
经过了好几天的网络编程学习,熟悉了套接字的使用,今天需要我们做的是:实现简单的抓包软件并且对数据进行简单分析,实现校验和使用的回滚算法的编写: 下面是简单的抓包软件及分析数据的代码,通过这个程序,我们可以更深层次的了解网络的运行机制,以及数据是怎样在网络中进行传送: 1 #include ...
分类:
其他好文 时间:
2015-08-29 12:27:17
阅读次数:
270
简介: ????用于机器人、自动驾驶、空间数据分析、立体影像存储等需求。 ? 一、机器人 1.机器人把拍摄到的影像构建成3D模型存储到三维数据库中。这种模型将随着观察的时间逐渐丰富和细化。 由此在“脑”中建...
分类:
数据库 时间:
2015-08-28 17:53:14
阅读次数:
211
随着行业项目数量的指数级增长,人工与excel的结合已经无法满足相关数据的查询、更新以及多个维度的数据分析需求。除了一些全国部署的大行业项目本身需求,往往还需要体现公司产品的证书发放量,并且满足外部人员看到统计数据、统计证书使用情况的需求,以便项目的使用者更加了解PKI体系中的运作情况。...
分类:
其他好文 时间:
2015-08-28 15:41:00
阅读次数:
123
接着前面的,现在来计算老年代的
日志图:
1.假如没有FullGc,如何计算老年代需要多少时间装满?
(不看第一条和最后一条数据,分析)通过MinorGc计算每次老年代的增量
老年代的增量 = 堆的总量 - 新生代的剩余量(souvivor区)
这样可以得到几乎每次minorGc老年代增加85m空间,而minorGc每4秒一次。
老年代的...
分类:
其他好文 时间:
2015-08-28 15:38:40
阅读次数:
282
随着行业项目数量的指数级增长,人工与excel的结合已经无法满足相关数据的查询、更新以及多个维度的数据分析需求。除了一些全国部署的大行业项目本身需求,往往还需要体现公司产品的证书发放量,并且满足外部人员看到统计数据、统计证书使用情况的需求,以便项目的使用者更加了解PKI体系中的运作情况。
分类:
其他好文 时间:
2015-08-28 12:47:45
阅读次数:
196
应用背景随着行业项目数量的指数级增长,人工与excel的结合已经无法满足相关数据的查询、更新以及多个维度的数据分析需求。除了一些全国部署的大行业项目本身需求,往往还需要体现公司产品的证书发放量,并且满足外部人员看到统计数据、统计证书使用情况的需求,以便项目的使用..
分类:
其他好文 时间:
2015-08-28 11:10:48
阅读次数:
178