码迷,mamicode.com
首页 > 其他好文 > 详细

pyspark进行词频统计并返回topN

时间:2017-10-31 18:49:11      阅读:197      评论:0      收藏:0      [点我收藏+]

标签:als   统计   div   img   put   col   ber   技术分享   for   

Part I:词频统计并返回topN

统计的文本数据:

what do you do
how do you do
how do you do
how are you
from operator import add

from pyspark import SparkContext


def sort_t():
    sc = SparkContext(appName="testWC")
    data = sc.parallelize(["what do you do", "how do you do", "how do you do", "how are you"])
    result = data.flatMap(lambda x: x.split(" "))         .map(lambda x: (x, 1)).         reduceByKey(add).         sortBy(lambda x: x[1], False).take(3)
    for k, v in result:
        print k, v


if __name__ == __main__:
    sort_t()

 

 

技术分享

 

Part II:调用排序算法并返回topN

样本数据 numbers_data.txt:

15561
112
-40
51467112
234
8561
112
-34
53467111 121
2345 789 34
14561 -21
12112 101 100
-4 23
51467111
2434
15567
132
-14
51467111
237

  

from pyspark import SparkContext


def solve():
    sc = SparkContext(appName="Sort_test_example")
    lines = sc.textFile("../input/numbers_data.txt")
    results = lines.flatMap(lambda x: x.split(" "))         .map(lambda x: (int(x), 1))         .sortByKey(ascending=False).take(3)
    output = results
    for (key, value) in output:
        print key
    print key


if __name__ == __main__:

solve()

注:若出现并列时,返回多个并列的数 

技术分享

 

pyspark进行词频统计并返回topN

标签:als   统计   div   img   put   col   ber   技术分享   for   

原文地址:http://www.cnblogs.com/SeaSky0606/p/7762703.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!