标签:
抛开市场上热火朝天的大数据不谈,只从解决实际业务问题方面来看,对数据的收集、分析、辅助决策已经得到越来越多的人重视,这里简单谈一些。
简单来讲,可以把采集的每一条数据分为:事件、时间、来源、参数等几个基本元素。为了有一个直观的理解,可以参考下Sensors data,SLS(阿里云简单日志系统)这两个产品的设计。
这个主要是处理异常数据,不用多说。
ETL是建立数据仓库最重要的一环,简单来说,可以按照建议数据库表的标准去做,遵守基本的范式规则,预留更多的扩展性。
这个主要是基于数据仓库做进一步开发,分为不同的维度,面向不同用户群体。权限控制可以发生在这一层。比如,同样一份购买历史记录,可以从商品角度给采购看,也可以从用户角度给运营看,也可以从成交额方面给市场看。
对于一个成熟的数据平台,以下几方面是必不可少的
Hadoop、ODPS等成熟平台
如MR、ODPS SQL等,可以基于数据仓库开发出面向不同需求的数据应用来。
大数据为机器学习提供了无限可能,但伴随的是计算量的飙升,一个可以基于大数据平台进行机器学习的开发平台,需求越来越多了。比较经典的像推荐系统。
数据的收集、清洗、入库、生成报表等,很多都是需要每小时、每天、每月等按固定周期执行的任务。另外,任务之间的关系,很容易表示成有向图,这个也算是个很基础需求了。
这方面有很多成熟的工具,如商业软件或开源的如R等,但最好是能做到和数据平台无缝连接,目前看到阿里云在做这方面的探索。
这些提一些常见的数据应用场景
最常见的,如UV、PV、留存、使用时长等,是我们每天都要关注的。
渠道推广数据,不同渠道的用户特点、转化率,钱当然要花在刀刃上。
电商中,观察不同的方案、图片带来购买转化率的变化,再根据数据去调整。
App的Crash率、网络掉线、性能数据、使用期间的流量消耗等数据的收集分析,并用来对App进行优化。服务端接口的调用失败率、每次调用消耗时长等方面的数据收集,实时监控系统运行情况。通过不同接口的调用次数判断出系统瓶颈并针对性的优化。
比较古老的UserCF,电商界应用最广泛的ItemCF,以今日头条为代表的标签匹配。这些推荐系统的前提都要先收集足够的内容数据和用户数据,才谈得上匹配度和精准性。
根据用户的行为,如资料填写、浏览、评论、购买等信息,从几个维度去描述用户。比如,性别、区域、爱好、购买力、职业等。在这方面像阿里等电商企业面临一个比较复杂的情况,就是一个账户可能会被多个人共用,因此在用户画像时,会出现一个用户拥有多个画像的情况。
根据某个用户在App内的页面访问记录,完整重现该用户的浏览路径。可用来分析单个用户的详细行为,考察产品功能设计时具有很大的参考意义。
标签:
原文地址:http://blog.csdn.net/a345017062/article/details/50952519