标签:客户 电商网站 结构化 富客 开发 文本 类型 作品 hdf
在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长。
以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!
总体来说:大数据就是:
1、企业存在海量的数据
2、企业有对海量数据进行挖掘的需求
3、现在技术成熟,出现了对海量数据进行挖掘的一整套软件工具
1.Volume(大量): 人类产生的所有印刷材料的数据量是200PB,历史上全人类总共说过的话的数量大约是5EB.当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
2.Velocity(高速): 这是大数据区分与传统数据挖掘的最显著的特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
在如此海量的数据面前,处理数据的效率就是企业的生命。
3.Variety(多样性): 这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据。非结构化数据越来越多,包括网络日志,音频,视频,图片,
地理位置信息等等。这些多类型的数据对数据的处理能力提出了更高要求。
4.Value(低价值密度): 价值密度的高低与数据总量的大小成反比。如何快速对有价值的数据“提纯”成为目前大数据背景下待解决的难题。
bit 0/1
Byte 8bit
KB 1024Byte
MB 1024KB
GB 1024MB
TB 1024GB
PB 1024TB
EB 1024PB
ZB 1024EB
YB 1024ZB
BB 1024YB
NB 1024BB
DB 1024NB
电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐结论,以供电商网站页面来为用户进行商品推荐
精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的精准的广告投放
金融大数据
精准营销:依据客户消费习惯、地理位置、消费时间进行推荐
风险管控:依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈
决策支持:利用抉策树技术进抵押贷款管理,利用数据分析报告实施产业信贷风险控制
效率提升:利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度
产品设计:利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品
平台组
集群环境搭建
集群性能监控
集群平台性能优化
数据仓库组
ETL做数据清洗
Hive数据分析和数据仓库建模
数据挖掘组
算法工程师
推荐系统工程师
用户画像工程师
报表开发组
JavaEE开发工程师
Lucene
Nutch
Hadoop
hadoop中有3个核心组件:
分布式文件系统: HDFS 实现将文件分布式存储在很多的服务器上
分布式运算编程框架:MAPREDUCE 实现在很多机器上分布式并行运算
分布式资源调度平台:YARN 帮用户调度大量的mapreduce程序,并合理分配运算资源
标签:客户 电商网站 结构化 富客 开发 文本 类型 作品 hdf
原文地址:https://www.cnblogs.com/zhaochengf/p/12128077.html