8. 过滤噪声边 在当前的伴生关系中,边的权重是基于一对概念同时出现在一篇论文中的频率来计算的。这种简单的权重机制的问题在于:它并没有对一对概念同时出现的原因加以区分,有时一对概念同时出现是由于它们具有某种值得我们关注的语义关系,但有时一对概念同时出现只是因为都频繁地出现在所有文档中,同时出现只是碰 ...
分类:
其他好文 时间:
2018-09-02 12:57:04
阅读次数:
205
网上查阅一些资料,收集整理如下: 1、 通用性 spark更加通用,spark提供了transformation和action这两大类的多个功能api,另外还有流式处理sparkstreaming模块、图计算GraphX等等;mapreduce只提供了map和reduce两种操作,流计算以及其他模块 ...
分类:
其他好文 时间:
2018-08-25 13:59:39
阅读次数:
221
Apache Spark 一个很快多用途的集群计算系统。提供了很多语言API :Java, Scala, Python and R,还支持很多高级的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX 用于图形处理和Spark Streaming. 总的说:Sp ...
分类:
其他好文 时间:
2018-06-27 18:52:36
阅读次数:
229
Distributed processing Tool 好处 坏处 类型 支持序列化 支持根据负载动态调度任务 支持c 支持dependency的调度 有成熟的library Actor model 天生支持分布式,本身已经包含基本的serialization功能 比较底层 需要自己编写调度代码 没 ...
分类:
其他好文 时间:
2018-06-11 01:55:26
阅读次数:
213
一、引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 二、图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 2 ...
分类:
其他好文 时间:
2018-05-16 20:54:39
阅读次数:
155
不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 目录: 1、描述 2、操作 3、注意事项 1、描述 1、描述 Spark是一种通用的大数据快速处理引擎。Spark使用Spark RDD、 Spark SQL、 Spark Streaming、 MLlib、 GraphX成功解决了大数据 ...
分类:
其他好文 时间:
2018-03-22 21:25:30
阅读次数:
528
前言 项目关系,希望用Spark GraphX做数据分析及图像展示,但前提是得会spark;spark是基于scala的,scala是基于JAVA的……所以,要想用Spark GraphX,技术堆栈大体上应该是这样的:Java -> Scala -> Spark -> Spark GraphX。 J ...
分类:
编程语言 时间:
2018-02-10 17:01:21
阅读次数:
493
前言 项目关系,希望用Spark GraphX做数据分析及图像展示,但前提是得回spark;spark是基于scala的,scala是基于JAVA的……所以,要想用Spark GraphX,技术堆栈大体上应该是这样的:Java -> Scala -> Spark -> Spark GraphX。 J ...
分类:
其他好文 时间:
2018-02-10 14:58:00
阅读次数:
296
学习的资料是官网的Programming Guide 首先是GraphX的简介 GraphX是Spark中专门负责图和图并行计算的组件。 GraphX通过引入了图形概念来继承了Spark RDD:一个连接节点和边的有向图 为了支持图计算,GraphX引入了一些算子: subgraph, joinVe ...
分类:
其他好文 时间:
2018-01-26 20:54:28
阅读次数:
170
首先自己造了一份简单的社交关系的图 第一份是人物数据,id和姓名,person.txt 第二份是社交关系数据,两个人的id和社交关系,social.txt 使用SparkX和GraphStream来处理数据 可视化的结果,该图数据节点数很少,本来想尝试一份百万节点的数据,结果遇到了爆内存的问题 ...
分类:
其他好文 时间:
2018-01-24 00:38:11
阅读次数:
423