首先创建SparkContext上下文:
接着引入隐身转换,用于把RDD转成SchemaRDD:
接下来定义一个case class 来用于描述和存储SQL表中的每一行数据:
接下来要加载数据,这里的测试数据是user.txt文件:
我们创建好use.txt增加内容并上传到hdfs中:
web控制台查询:
hdfs命令查询:
加...
分类:
数据库 时间:
2015-03-02 19:08:17
阅读次数:
222
1、使用管理接口1、Web控制台MongoDB在老版本中默认情况下会启动基本的http服务,但是新版本中已经关闭该选项,要是想用此功能,重启mongod,并加入--httpinterface选项。[root@gflinux102bin]#mongod-f/opt/mongo/data/mongod.conf--httpinterface2015-02-10T15:55:10.423+080..
分类:
数据库 时间:
2015-02-10 18:53:26
阅读次数:
342
我们在hdfs的/data/join创建两个文件:
上传第一个文件名称为1.txt
内容第一列是日期,第二列uid(普通用户id)
上传第二个文件名称为2.txt
内容第一列是日期,第二列uid(普通用户id)
执行上传到hdfs:
hdfs命令行查询:
web控制台管理查询:
首先在命令行中设置日期格式:
然后声明...
第三步:测试Spark集群 把Spark安装包下的”README.txt”上传到 通过hdfs的web控制台可以发现成功上传了文件: 使用“MASTER:spark://SparkMaster:7077?./spark-shell”命令启动Spark?shell: 接下来通过以下命...
分类:
其他好文 时间:
2014-11-19 14:21:03
阅读次数:
211
第三步:测试Spark集群把Spark安装包下的”README.txt”上传到通过hdfs的web控制台可以发现成功上传了文件:使用“MASTER:spark://SparkMaster:7077./spark-shell”命令启动Sparkshell:接下来通过以下命令读取刚刚上传到HDFS上的“...
分类:
其他好文 时间:
2014-11-19 14:08:57
阅读次数:
220
当我们在运行作业的过程中也可以查看Web控制台的信息:此时发现了一个作业ID,点击进入可以查看作业进一步的信息:进一步看通过Web控制台看SparkWorker1中的Container中的运行信息:刷新Web控制台:
分类:
其他好文 时间:
2014-11-17 20:58:21
阅读次数:
137
当我们在运行作业的过程中也可以查看Web控制台的信息: 此时发现了一个作业ID,点击进入可以查看作业进一步的信息: ? 进一步看通过Web控制台看SparkWorker1中的Container中的运行信息: 刷新Web控制台:...
分类:
其他好文 时间:
2014-11-13 22:40:18
阅读次数:
231
当我们在运行作业的过程中也可以查看Web控制台的信息:此时发现了一个作业ID,点击进入可以查看作业进一步的信息:进一步看通过Web控制台看SparkWorker1中的Container中的运行信息:刷新Web控制台:
分类:
其他好文 时间:
2014-11-12 22:54:40
阅读次数:
241
第二步:使用Spark的cache机制观察一下效率的提升基于上面的内容,我们在执行一下以下语句:发现同样计算结果是15.此时我们在进入Web控制台:发现控制台中清晰展示我们执行了两次“count”操作。现在我们把“sparks”这个变量执行一下“cache”操作:此时在执行count操作,查看..
分类:
其他好文 时间:
2014-09-17 15:35:23
阅读次数:
232
第二步:使用Spark的cache机制观察一下效率的提升 ? 基于上面的内容,我们在执行一下以下语句: 发现同样计算结果是15. 此时我们在进入Web控制台: 发现控制台中清晰展示我们执行了两次“count”操作。 现在我们...
分类:
其他好文 时间:
2014-09-17 12:17:22
阅读次数:
246