码迷,mamicode.com
首页 > 其他好文 > 详细

spark streaming测试之一使用本地数据源

时间:2015-05-31 18:46:23      阅读:148      评论:0      收藏:0      [点我收藏+]

标签:程序   数据源   package   import   streaming   

直接上代码吧


说下测试思路:

    该代码监控的/tmp/sparkStream/目录;

    首先,创建该目录mkdir -p /tmp/sparkStream;

    然后,运行spark程序;

    最后,向监控目录/tmp/sparkStream/添加数据文件;

    观察spark程序运行效果。


sparkStreaming

import org.apache.log4j.{LoggerLevel}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{SecondsStreamingContext}
import org.apache.spark.streaming.StreamingContext._

object HdfsWordCount {
  def main(args: Array[]){
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.apache.eclipse.jetty.server").setLevel(Level.OFF)

    sparkConf = SparkConf().setAppName().setMaster()
    ssc = StreamingContext(sparkConf())

    lines = ssc.textFileStream()
    words = lines.flatMap(_.split())
    wordCounts = words.map(x=>(x)).reduceByKey(_+_)
    wordCounts.print()

    ssc.start()
    ssc.awaitTermination()
  }
}


本文出自 “一步.一步” 博客,转载请与作者联系!

spark streaming测试之一使用本地数据源

标签:程序   数据源   package   import   streaming   

原文地址:http://snglw.blog.51cto.com/5832405/1656791

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!