val graph=GraphLoader.edgeListFile(sc,"/home/spark/spark/graphx/data/followers.txt")//加载边时顶点是边上出现的点,定点默认数据是1
val users = sc.textFile("/home/spark/spark/graphx/data/users.txt").map { line=>
val field...
分类:
其他好文 时间:
2014-08-01 23:17:12
阅读次数:
323
第二步:安装每个软件安装Vmware虚拟机点击“VMware-workstation-full-9.0.2-1031769”可执行文件,如下图所示:点击“Next”进入下一步: 我们选择“Custom”进入下一步;2.选择所有的功能,如下所示: 点击”Next”进入如下图所示界面: ...
分类:
其他好文 时间:
2014-08-01 15:56:51
阅读次数:
243
这是前段时间在看spark的python支持的时候,简单过了一下pyspark里的python代码,整理了一个大致流程。虽然几乎不会python,但基本上能看懂pyspark是怎么让不同虚拟机之间传输数据的、如何在python环境调用java类的、pyspark SDK的丰富程度取决于什么、需要做些什么流程和封装等。
我看了下,应该只有Pyspark Internals这篇wiki里介绍了pyspark的实现机制,大体是下面这张图就可以表示...
分类:
其他好文 时间:
2014-07-31 00:01:36
阅读次数:
515
Spark SQL 物理计划到 RDD 的计算过程实现。...
分类:
数据库 时间:
2014-07-29 22:08:02
阅读次数:
656
Spark SQL之Catalyst的物理计划,讲解了物理计划的产生过程,以及涉及到的策略。...
分类:
数据库 时间:
2014-07-29 14:46:18
阅读次数:
514
Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。
1.Streaming固定的代码,该代码可以...
分类:
其他好文 时间:
2014-07-29 14:39:08
阅读次数:
340
“War of the Hadoop SQL engines. And the winner is …?” 这是个很好的问题。不过,无论答案如何,我们都值得花一点时间了解一下 Spark SQL 这个 Spark 家族里面的成员。...
分类:
数据库 时间:
2014-07-29 14:35:08
阅读次数:
308
Spark SQL 源码分析系列文章,从整个SQL执行流程到各个环节的关键组件,以及Catalyst框架的讲解。...
分类:
数据库 时间:
2014-07-29 13:10:36
阅读次数:
328
自然语言处理
ScalaNLP—机器学习和数值计算库的套装
Breeze —Scala用的数值处理库
Chalk—自然语言处理库。
FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。
数据分析/数据可视化
MLlib in Apache Spark—Spark下的分布式机器学...
分类:
其他好文 时间:
2014-07-29 13:01:37
阅读次数:
372
案例取自streaming-app项目package com.asiainfo.ocdc.streaming.toolsimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.conf.Configurati...
分类:
其他好文 时间:
2014-07-29 11:02:26
阅读次数:
1081