码迷,mamicode.com
首页 > 其他好文 > 详细

简单聊聊大数据

时间:2016-03-22 10:40:50      阅读:179      评论:0      收藏:0      [点我收藏+]

标签:

抛开市场上热火朝天的大数据不谈,只从解决实际业务问题方面来看,对数据的收集、分析、辅助决策已经得到越来越多的人重视,这里简单谈一些。

一、数据处理篇

1、数据收集

简单来讲,可以把采集的每一条数据分为:事件、时间、来源、参数等几个基本元素。为了有一个直观的理解,可以参考下Sensors data,SLS(阿里云简单日志系统)这两个产品的设计。

2、数据清洗

这个主要是处理异常数据,不用多说。

3、数据仓库

ETL是建立数据仓库最重要的一环,简单来说,可以按照建议数据库表的标准去做,遵守基本的范式规则,预留更多的扩展性。

4、数据应用

这个主要是基于数据仓库做进一步开发,分为不同的维度,面向不同用户群体。权限控制可以发生在这一层。比如,同样一份购买历史记录,可以从商品角度给采购看,也可以从用户角度给运营看,也可以从成交额方面给市场看。

二、数据平台篇

对于一个成熟的数据平台,以下几方面是必不可少的

1、大规模数据存储、管理。

Hadoop、ODPS等成熟平台

2、数据开发。

如MR、ODPS SQL等,可以基于数据仓库开发出面向不同需求的数据应用来。

3、机器学习。

大数据为机器学习提供了无限可能,但伴随的是计算量的飙升,一个可以基于大数据平台进行机器学习的开发平台,需求越来越多了。比较经典的像推荐系统。

4、任务调度。

数据的收集、清洗、入库、生成报表等,很多都是需要每小时、每天、每月等按固定周期执行的任务。另外,任务之间的关系,很容易表示成有向图,这个也算是个很基础需求了。

5、数据可视化。

这方面有很多成熟的工具,如商业软件或开源的如R等,但最好是能做到和数据平台无缝连接,目前看到阿里云在做这方面的探索。

三、数据应用篇

这些提一些常见的数据应用场景

1、产品基础数据

最常见的,如UV、PV、留存、使用时长等,是我们每天都要关注的。

2、营销

渠道推广数据,不同渠道的用户特点、转化率,钱当然要花在刀刃上。

3、运营

电商中,观察不同的方案、图片带来购买转化率的变化,再根据数据去调整。

4、产品质量

App的Crash率、网络掉线、性能数据、使用期间的流量消耗等数据的收集分析,并用来对App进行优化。服务端接口的调用失败率、每次调用消耗时长等方面的数据收集,实时监控系统运行情况。通过不同接口的调用次数判断出系统瓶颈并针对性的优化。

5、推荐系统

比较古老的UserCF,电商界应用最广泛的ItemCF,以今日头条为代表的标签匹配。这些推荐系统的前提都要先收集足够的内容数据和用户数据,才谈得上匹配度和精准性。

6、用户画像

根据用户的行为,如资料填写、浏览、评论、购买等信息,从几个维度去描述用户。比如,性别、区域、爱好、购买力、职业等。在这方面像阿里等电商企业面临一个比较复杂的情况,就是一个账户可能会被多个人共用,因此在用户画像时,会出现一个用户拥有多个画像的情况。

7、场景复现

根据某个用户在App内的页面访问记录,完整重现该用户的浏览路径。可用来分析单个用户的详细行为,考察产品功能设计时具有很大的参考意义。

简单聊聊大数据

标签:

原文地址:http://blog.csdn.net/a345017062/article/details/50952519

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!