val graph=GraphLoader.edgeListFile(sc,"/home/spark/spark/graphx/data/followers.txt")//加载边时顶点是边上出现的点,定点默认数据是1
val users = sc.textFile("/home/spark/spark/graphx/data/users.txt").map { line=>
val field...
分类:
其他好文 时间:
2014-08-01 23:17:12
阅读次数:
323
第二步:安装每个软件安装Vmware虚拟机点击“VMware-workstation-full-9.0.2-1031769”可执行文件,如下图所示:点击“Next”进入下一步: 我们选择“Custom”进入下一步;2.选择所有的功能,如下所示: 点击”Next”进入如下图所示界面: ...
分类:
其他好文 时间:
2014-08-01 15:56:51
阅读次数:
243
这是前段时间在看spark的python支持的时候,简单过了一下pyspark里的python代码,整理了一个大致流程。虽然几乎不会python,但基本上能看懂pyspark是怎么让不同虚拟机之间传输数据的、如何在python环境调用java类的、pyspark SDK的丰富程度取决于什么、需要做些什么流程和封装等。
我看了下,应该只有Pyspark Internals这篇wiki里介绍了pyspark的实现机制,大体是下面这张图就可以表示...
分类:
其他好文 时间:
2014-07-31 00:01:36
阅读次数:
515
博客即日起停止更新,新博客地址http://my.oschina.net/sucre/blog欢迎大家来访
分类:
其他好文 时间:
2014-07-30 15:02:55
阅读次数:
150
Spark SQL 物理计划到 RDD 的计算过程实现。...
分类:
数据库 时间:
2014-07-29 22:08:02
阅读次数:
656
Spark SQL之Catalyst的物理计划,讲解了物理计划的产生过程,以及涉及到的策略。...
分类:
数据库 时间:
2014-07-29 14:46:18
阅读次数:
514
“War of the Hadoop SQL engines. And the winner is …?” 这是个很好的问题。不过,无论答案如何,我们都值得花一点时间了解一下 Spark SQL 这个 Spark 家族里面的成员。...
分类:
数据库 时间:
2014-07-29 14:35:08
阅读次数:
308
Spark SQL 源码分析系列文章,从整个SQL执行流程到各个环节的关键组件,以及Catalyst框架的讲解。...
分类:
数据库 时间:
2014-07-29 13:10:36
阅读次数:
328
自然语言处理
ScalaNLP—机器学习和数值计算库的套装
Breeze —Scala用的数值处理库
Chalk—自然语言处理库。
FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。
数据分析/数据可视化
MLlib in Apache Spark—Spark下的分布式机器学...
分类:
其他好文 时间:
2014-07-29 13:01:37
阅读次数:
372