文/辛东方第二届世界互联网大会的重头戏,“互联网之光”博览会2015年12月15日在乌镇拉开大幕。来自世界的260多家创新企业在现场展示了互联网创新的新技术和新产品。其中机器人展品成为本次展会的一大亮点。而2015年最早的一家餐厅机器人出现在杭州一家饭店,该机器人服务员,..
分类:
其他好文 时间:
2015-12-16 12:52:17
阅读次数:
247
Spark基于RDD近乎完美的实现了分布式内存的抽象,且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性,Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用,这极大的提高了查询的速度。
分类:
其他好文 时间:
2015-12-16 12:52:34
阅读次数:
134
Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本,并在性能方面有极大的优势,特别适合于迭代计算,例如机器学习和和图计算;同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法,..
分类:
其他好文 时间:
2015-12-16 12:50:23
阅读次数:
128
SparkContext是用户程序和Spark交互的接口,它会负责连接到Spark集群,并且根据系统默认配置和用户设置来申请计算资源,完成RDD的创建等工作。
分类:
其他好文 时间:
2015-12-16 12:52:30
阅读次数:
143
RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD,该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容,并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。
分类:
其他好文 时间:
2015-12-16 12:49:12
阅读次数:
126
默认情况下,magento只支持邮箱登录,所以我们需要修改一下代码。思路是:可以通过输入的手机号和用户名来查找邮箱。首先需要重写控制器,添加配置文件<rewrite><模块名_控制器_account><from><![CDATA[#^/customer/account/#]]></from><to&g..
分类:
移动开发 时间:
2015-12-16 12:51:13
阅读次数:
172
可以从两个方面来理解RDD之间的依赖关系,一方面是RDD的parentRDD(s)是什么,另一方面是依赖于parentRDD(s)哪些Partions(s);根据依赖于parentRDD(s)哪些Partions(s)的不同情况,Spark讲Dependency分为宽依赖和窄依赖两种。
分类:
其他好文 时间:
2015-12-16 12:50:52
阅读次数:
144
对于Spark中的join操作,如果每个partition仅仅和特定的partition进行join那么就是窄依赖;对于需要parentRDD所有partition进行join的操作,即需要shuffle,此时就是宽依赖。
分类:
其他好文 时间:
2015-12-16 12:51:48
阅读次数:
171
1、把下载得到的mysql安装包解压后得到如下目录结构D:\JackGao\Downloads\mysql-5.7.10-winx64\bin2、修改ini文件:D:\JackGao\Downloads\mysql-5.7.10-winx64\my-default.ini在[mysqld]后面添加basedir=D:\JackGao\Downloads\mysql-5.7.10-winx64datadir=D:\JackGao\Downloads..
分类:
数据库 时间:
2015-12-16 12:50:37
阅读次数:
4449
RDD在创建子RDD的时候,会通过Dependency来定义他们之间的关系,通过Dependency,子RDD可以获得parentRDD(s)和parentRDD(s)的Partition(s).
分类:
其他好文 时间:
2015-12-16 12:49:54
阅读次数:
169
在Spark的Stage内部的每个Partition都会被分配一个计算任务Task,这些Task是并行执行的;Stage之间的依赖关系变成了一个大粒度的DAG,Stage只有在它没有parentStage或者parentStage都已经执行完成后才可以执行,也就是说DAG中的Stage是从前往后顺序执行的。
分类:
其他好文 时间:
2015-12-16 12:50:22
阅读次数:
139
在Spark的reduceByKey操作时会触发Shuffle的过程,在Shuffle之前,会有本地的聚合过程产生MapPartitionsRDD,接着具体Shuffle会产生ShuffledRDD,之后做全局的聚合生成结果MapPartitionsRDD
分类:
其他好文 时间:
2015-12-16 12:48:44
阅读次数:
157
park中的Task分为ShuffleMapTask和ResultTask两种类型,在Spark中DAG的最后一个Stage内部的任务都是ResultTask,其余所有的Stage(s)的内部都是ShuffleMapTask,生成的Task会被Driver发送到已经启动的Executor中执行具体的计算任务,执行的实现是在TaskRunner.run方法中完成的。
分类:
其他好文 时间:
2015-12-16 12:48:54
阅读次数:
158
Spark中生成的不同的RDD中有的喝用户的逻辑显式的对于,例如map操作会生成MapPartitionsRDD,而又的RDD则是Spark框架帮助我们隐式生成的,例如reduceByKey操作时候的ShuffledRDD.
分类:
其他好文 时间:
2015-12-16 12:49:23
阅读次数:
148
SparkCheckpoint通过将RDD写入Disk做检查点,是Sparklineage容错的辅助,lineage过长会造成容错成本过高,这时候在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。Checkpoint主要适用于以下两种情况:1.DAG中的Linea..
分类:
其他好文 时间:
2015-12-16 12:48:23
阅读次数:
134
linux中locate,find命令都是在文件系统中查找符合条件的文件,但是locate是利用数据库来搜寻数据,所以速度相对比较快。locate依赖于事先构建好的索引库,每天系统在空闲时间都会通过周期性任务自动完成索引库的更新,手动更新索引库就需要执行命令updatedb,也正是因为依赖于数..
分类:
系统相关 时间:
2015-12-16 12:46:39
阅读次数:
307
期中架构终于告一段落。现在总结一下心得,总体来说有以下收获。心得1:为之,难者亦易矣,不为,易者亦难矣。这句话是《为学》里的一句话,意思是如果你想做一件事,即便非常困难,也会变的很容易,就像愚公移山一样,子子孙孙无穷已,都为了移走王屋山而努力;反之,如果你不..
分类:
其他好文 时间:
2015-12-16 12:48:57
阅读次数:
159