Hadoop系统运行于一个由普通商用服务器组成的计算集群上,该服务器集群在提供大规模分布式数据存储资源的同时,也提供大规模的并行化计算资源。 在大数据处理软件系统上,随着Apache Hadoop系统开源化的发展,在最初包含HDFS、MapReduce、HBase等基本子系统的基础上,至今Hadoo ...
分类:
其他好文 时间:
2018-05-10 19:59:17
阅读次数:
207
RDD,即弹性分布式数据集,也就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD支持两种类型的操作:转化操作和行动操作。转换操作会由一个RDD生 ...
分类:
其他好文 时间:
2018-03-28 12:25:42
阅读次数:
155
在Linux下运行作业时, 经常会遇到以下情形: 有大量作业需要运行,完成每个作业所需要的时间也不是很长。 如果我们以串行方式来运行这些作业,可能要耗费较长的时间; 若采用并行方式运行则可以大大节约运行时间。再者, 目前的计算机绝大部分都是多核架构, 要想充分发挥它们的计算能力也需要并行化。总结网上 ...
分类:
其他好文 时间:
2018-02-27 23:39:31
阅读次数:
229
GIL是什么 来自维基的解释: 全局解释器锁(英语:Global Interpreter Lock,缩写GIL),是计算机程序设计语言解释器用于同步线程的一种机制,它使得任何时刻仅有一个线程在执行。 常见例子有CPython(Jython不使用GIL)与Ruby MRI CPython的线程是操作系 ...
分类:
编程语言 时间:
2018-02-02 23:21:06
阅读次数:
313
<Spark快速大数据分析>主要使用java, scala和python进行讲解,因博主暂未对java和scala展开了解,所以后续总结只通过python进行展示。 Part 1 Spark简介 Spark的定位:是一个用来实现快速而通用的集群计算平台。 Spark与Hadoop的联系:Spark扩 ...
分类:
其他好文 时间:
2018-01-30 23:07:23
阅读次数:
205
Spark 安装配置与示例 Spark,它是大规模数据处理通用的并行化计算框架,基于MapReduce实现分布式计算,其中间结果可以保存在内存中,从而不再需要读写HDFS。Spark 是 Scala 语言实现的, Scala 也被用作其应用程序框架,Spark 和 Scala 能够紧密集成,Scal ...
分类:
其他好文 时间:
2018-01-29 19:14:52
阅读次数:
211
名称 region_to_label - 将区域转换为标签图像。 用法 region_to_label(Region : ImageLabel : Type, Width, Height : ) 描述 region_to_label根据它们的索引(1..n)将输入区域转换成标签图像,即,第一区域被绘 ...
分类:
其他好文 时间:
2018-01-11 11:45:13
阅读次数:
288
Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题,例如线程的实现和 GIL1,我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏“重”。而且往往隔靴搔痒,没有深入探讨日常工作中最有用的内容。 传统的例子 简单搜索下“Python 多线程教程”,不难 ...
分类:
编程语言 时间:
2017-12-25 18:21:17
阅读次数:
212
前言 本文中作者使用MPI的Python接口mpi4py来将自己的遗传算法框架GAFT进行多进程并行加速。并对加速效果进行了简单测试。 项目链接: GitHub: https://github.com/PytLab/gaft PyPI: https://pypi.python.org/pypi/ga ...
分类:
编程语言 时间:
2017-11-06 11:11:06
阅读次数:
340
0. APOD过程 ● 评估。分析代码运行时间的组成,对瓶颈进行并行化设计。了解需求和约束条件,确定应用程序的加速性能改善的上限。 ● 并行化。根据原来的代码,采用一些手段进行并行化,例如使用现有库,或加入一些预处理指令等。同时需要代码重构来暴露它们固有的并行性。 ● 优化。并行化完成后,需要通过优 ...
分类:
其他好文 时间:
2017-11-05 23:38:08
阅读次数:
298