标签:定制 迭代 业务日志 stream dfs rom 需求分析 存储 公司
一:项目开发流程
1.项目调研
了解项目的初始需求,然后结合市场的技术,看一下能否完成
2.需求分析
明确一个项目到底需要做什么?
最终做出的是什么样子?
重要性:一个好的需求分析能够明确项目的后续发展主题方向
3.方案设计
概要设计:
项目结构,技术选型
详细设计:
按照模块设计
4.编码实现
具体实现
5.测试
功能测试:功能是否达到了需求
集成测试:模块之间的兼容性
压力测试:高并发,多用户下,系统是否可以运行
用户测试:根据用户的建议进行修改
6.上线
试运行阶段:新系统与老系统同时在线上运行,使用分流技术
正式运行:线上只有新系统运行
7.后期维护
开发的再一次迭代
二:什么是数据分析平台
1.离线数据分析平台
mapreduce,hive,sparkcore(spark on yarn)
2.实时数据分析平台
sparkcore(spark on standalone),sparkstreaming,strom
三:为什么要自己做数据分析平台
1.优点
不存在数据的泄露
定制化强,可以自由的开发
数据在自己的公司,可以进行后续的开发
有利于公司的人才储备
2.缺点
需要人才成本,时间成本
服务器成本,机器成本大
四:数据的来源
1.日志服务器
nginx日志,apache日志,linux日志
2.业务日志
log4j日志
3.业务数据
存储在业务数据库中,提供业务支持的数据
4.用户行为数据
点击,浏览,选择,收藏,下单,离线
5.购买的第三方的数据
6.网络的爬虫爬来的数据
7.合作者的数据
五:数据处理流程
1.数据收集
收集用户数据,保存到HDFS上
2.数据处理
数据的清洗,过滤,补全
根据业务进行需求开发
将结果保存到sql,或者nosql
3.数据可视化
展示结果,可以使用图表等。
4.基于结果的其他应用
用户画像
推荐
数据分析师
项目开发流程,以及什么是数据分析平台,再者为什么要做数据分析平台,数据来源,数据处理流程
标签:定制 迭代 业务日志 stream dfs rom 需求分析 存储 公司
原文地址:http://www.cnblogs.com/juncaoit/p/6180844.html