一、MapReduce中有哪些常见算法 (1)经典之王:单词计数 这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 ...
分类:
编程语言 时间:
2017-11-03 12:50:26
阅读次数:
248
弹性分布式数据集(简称RDD)是Spark对数据的核心抽象。RDD其实就是分布式的元素集合。在Spark中,对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 3.1 RDD基础 Spark中的R ...
分类:
其他好文 时间:
2017-10-18 18:28:46
阅读次数:
218
cited from: http://www.cnblogs.com/ospider/p/5265975.html 前两天(其实是几个月以前了)看到了代码中有 #pragma omp parallel for 一段,感觉好像是 OpenMP,以前看到并行化的东西都是直接躲开,既然躲不开了,不妨研究一 ...
分类:
其他好文 时间:
2017-10-13 12:31:06
阅读次数:
124
微服务规模小,可独立部署的,有明确界限的模块,模块与模块间是高度自治的,模块间通过消息或协议来通讯,是一种高度自动化的,可持续改进的软件系统架构,去中心化的。 微服务的核心 快速 安全 扩展 微服务的价值 架构价值 扩展性和模块独立性,快速,安全 更快的交付 团队间的并行化程度提高 有利于创新(多技 ...
分类:
其他好文 时间:
2017-09-24 19:27:10
阅读次数:
222
微服务规模小,可独立部署的,有明确界限的模块,模块与模块间是高度自治的,模块间通过消息或协议来通讯,是一种高度自动化的,可持续改进的软件系统架构,去中心化的。 微服务的核心 快速 安全 扩展 微服务的价值 架构价值 扩展性和模块独立性,快速,安全 更快的交付 团队间的并行化程度提高 有利于创新(多技 ...
分类:
其他好文 时间:
2017-09-24 18:14:31
阅读次数:
133
1 大数据:batch,interactive query,streaming 2 集群环境有三大挑战:分别是并行化、单点失败处理、资源共享。采用以并行化的方式重写应用程序、对单点失败的处理方式、动态地进行计算资源的分配等解决方案 3 address of any protocol control ...
分类:
其他好文 时间:
2017-09-24 00:31:13
阅读次数:
151
CentOS 7 使用systemd替换了SysV。Systemd目的是要取代Unix时代以来一直在使用的init系统,兼容SysV和LSB的启动脚本,而且够在进程启动过程中更有效地引导加载服务。 systemd的特性有: 支持并行化任务 同时采用socket式与D-Bus总线式激活服务; 按需启动 ...
分类:
系统相关 时间:
2017-09-23 15:18:36
阅读次数:
248
systemd 在RHEL7中,进程ID 1属于systemd这个新的进程。(代替之前版本中的init) systemd提供了以下新功能: ·并行化功能,可以提高系统的启动速度 ·按需启动守护进程,而不需要单独的服务 ·自动服务依赖关系管理,可以防止长时间超时,例如在网络不可用时不启动网络服务 ·利 ...
分类:
其他好文 时间:
2017-09-16 20:26:43
阅读次数:
154
创建RDD 有两种方式 1 通过hdfs支持的文件系统创建 RDD, RDD里面没有真正要计算的数据,只记录了一下元数据 2 从过scala集合或者数组以并行化的方式创建RDD collect 把结果收集起来放到 scala数组里面 reduce 汇聚 方法传进去 count rdd有多少元素 to ...
分类:
其他好文 时间:
2017-09-16 18:56:19
阅读次数:
141
在并行计算中经常需要调用scalapck(并行化的lapack)函数库里面的函数进行编程,这里简单介绍在C语言如何调用scalapck中的矩阵向量乘的函数。 注意:scalapack中的函数是用fortran写的,矩阵是按列进行存储的。 scalapack的链接需要用到blas,因此确保本机上安装好 ...
分类:
编程语言 时间:
2017-08-21 21:32:24
阅读次数:
231