码迷,mamicode.com
首页 > 其他好文 > 详细

项目(一) 电商的离线分析平台

时间:2017-04-10 12:34:36      阅读:385      评论:0      收藏:0      [点我收藏+]

标签:爬虫   机器学习   map   架构师   角度   注册   mapred   mybatis   uniq   

项目的开发流程:(最耗时间的是 项目需求分析、方案设计两个阶段)

    项目介绍

    项目调研:了解一下相关行业的信息,常用的技术的信息

    项目需求分析:需求人员(项目经理)  决定了后面项目的主体方向

    方案设计:

         概要设计

         详细设计:技术负责人,架构师

    编码实现:

    集成测试

    用户测试

    项目上线--》试运行--》正式割接

一、介绍

     大数据的分析平台:

      (1)数据的收集(收集工具:flume、kafka、ELT、sqoop )

               数据来源:日志数据(分为系统日志、业务日志:用户的行为数据(数据埋点))、购买的、网络爬虫爬取

       (2)数据分析:

                (a)离线的(第一个项目):  Mapreduce   \hive \ pig\  impala presto  spark core sparksql   flink kylin

                 (b)实时的:storm  sparkstreaming

       (3)可视化(web技术  传统的技术)

            Echart  easyUI  ExtJS Highchart    D3.js

       (4)应用

               (a)精准营销(用户画像)

                (b)推荐系统

                (c)预测(天气预测、路况预测等)

                 (d)人工智能 

                              机器学习

                               线性回归

二、项目需求:

     1、7个模块

     2、常见的概念:

          session(会话):浏览器关闭算一次会话

         访客:未登录的用户(区别是否是统一个访客:查看cookie,如果访客cookie里包含访客id则是同一个,如果不包含,则在该cookie加一个id,可以设置ip保存时间)

         会员:登录的用户(注册的时候就有一个独一无二的ID号了)

          PV:page view 页面的访问量

         UV:unique view 在某一段时间内同一个用户不管访问了多少网站,UV都是

        DV:用户访问深度,基于的是一个会话

        二跳率:PV值大于2的会话的个数除以总的会话的个数

         外链:用户通过哪个外部网页调转到我们的网站上,那么这个外部的网页就是外链

         跳出率:只访问一个PV就离开了

 

三、项目设计

     从技术角度讲分为三层:数据收集层、数据分析层、数据展现层(SpringMVC+Mybatis)

 

补充:

 活跃用户:当天的访客

访问深度:一个会话里面有几个PV

         

      

项目(一) 电商的离线分析平台

标签:爬虫   机器学习   map   架构师   角度   注册   mapred   mybatis   uniq   

原文地址:http://www.cnblogs.com/liuwei6/p/6688347.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!