码迷,mamicode.com
首页 > 其他好文 > 详细

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

时间:2018-02-01 00:13:55      阅读:242      评论:0      收藏:0      [点我收藏+]

标签:href   dom   增强   orm   sam   没有   实战   blog   item   

铭文一级:[木有笔记]

铭文二级:

第12章 Spark Streaming项目实战

行为日志分析:

1.访问量的统计

2.网站黏性

3.推荐

 

Python实时产生数据

访问URL->IP信息->referer和状态码->日志访问时间->写入到文件中

本地与虚拟机都要装了python才能运行

重要代码:

#coding=UTF-8

#数组最后一个没有“,”

 

url_paths = [
  "class/128.html",
  "class/112.html",
  "class/143.html",
  "class/141.html",
  "learn/821",
  "course/list"
]
#增强for循环
#sample(seq, n) 从序列seq中选择n个随机且独立的元素;
return ".".join([str(item) for item in slice])    
def sample_url()
  return random.sample(url_paths,1)[0]
query_log = "{url}".format(url=sample_url())

  

一张图让你学会Python基础语法(看不清可另存为):

http://blog.csdn.net/qq_30845505/article/details/51588423

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

标签:href   dom   增强   orm   sam   没有   实战   blog   item   

原文地址:https://www.cnblogs.com/kkxwz/p/8394851.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!