标签:爬虫 机器学习 map 架构师 角度 注册 mapred mybatis uniq
项目的开发流程:(最耗时间的是 项目需求分析、方案设计两个阶段)
项目介绍
项目调研:了解一下相关行业的信息,常用的技术的信息
项目需求分析:需求人员(项目经理) 决定了后面项目的主体方向
方案设计:
概要设计
详细设计:技术负责人,架构师
编码实现:
集成测试
用户测试
项目上线--》试运行--》正式割接
一、介绍
大数据的分析平台:
(1)数据的收集(收集工具:flume、kafka、ELT、sqoop )
数据来源:日志数据(分为系统日志、业务日志:用户的行为数据(数据埋点))、购买的、网络爬虫爬取
(2)数据分析:
(a)离线的(第一个项目): Mapreduce \hive \ pig\ impala presto spark core sparksql flink kylin
(b)实时的:storm sparkstreaming
(3)可视化(web技术 传统的技术)
Echart easyUI ExtJS Highchart D3.js
(4)应用
(a)精准营销(用户画像)
(b)推荐系统
(c)预测(天气预测、路况预测等)
(d)人工智能
机器学习
线性回归
二、项目需求:
1、7个模块
2、常见的概念:
session(会话):浏览器关闭算一次会话
访客:未登录的用户(区别是否是统一个访客:查看cookie,如果访客cookie里包含访客id则是同一个,如果不包含,则在该cookie加一个id,可以设置ip保存时间)
会员:登录的用户(注册的时候就有一个独一无二的ID号了)
PV:page view 页面的访问量
UV:unique view 在某一段时间内同一个用户不管访问了多少网站,UV都是
DV:用户访问深度,基于的是一个会话
二跳率:PV值大于2的会话的个数除以总的会话的个数
外链:用户通过哪个外部网页调转到我们的网站上,那么这个外部的网页就是外链
跳出率:只访问一个PV就离开了
三、项目设计
从技术角度讲分为三层:数据收集层、数据分析层、数据展现层(SpringMVC+Mybatis)
补充:
活跃用户:当天的访客
访问深度:一个会话里面有几个PV
标签:爬虫 机器学习 map 架构师 角度 注册 mapred mybatis uniq
原文地址:http://www.cnblogs.com/liuwei6/p/6688347.html