电商大数据学习笔记：理论

时间：2016-05-02 17:01:56 阅读：232 评论：0 收藏：0 [点我收藏+]

标签：

1、大数据部门：数据中心、数据平台、数据部……

2、每个部门都有：架构人员、数据分析人员、开发人员、运营人员……

3、团队：数据仓库组、BI组、架构组、数据专家组……

4、团队分的更细：需求组、推荐组、情报组、挖掘组、数据组、营销组……

5、大数据有哪些重要的项目：

1）数据仓库建设；

2）经营分析报表；

3）客户精准营销；

4）推荐系统；

5）移动端数据分析。

6、大数据有哪些重点方向：

1）流量数据；

2）交易数据；

3）会员与活动数据；

4）物流与配送数据；

5）内部财务数据。

7、代表产品：淘宝数据魔方、腾讯用户画像、京东数据罗盘

8、企业的需求：

1）实时监控企业的运转情况；

2）决策未来的发展战略；

3）预测哪些是值得发展的优质客户。

传统数据，分散、数据格式不一致不兼容、应用系统孤立。

BI诞生，集成实时与历史数据，将分析转化为执行力。关键效益：洞察力和协同一致。

9、源数据库 à ODS à ETL à DW à DM à OLAP à Client

10、注意：BI是不产生决策的，它是提供给用户的是报表或图视，但是它不同于传统的静态报表，它可以任意旋转组合报表或图视，是当场计算。

11、数据仓库：是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支撑管理决策。

主题：顾客、供应商等

集成：多个异种数据，统一集成在一起。
相对稳定：不更新，只添加。

反应历史变化：数据仓库记录的是一段时间的信息，不是一点的信息。

12、SCD问题处理方法？

13、ODS是什么，在数据仓库中起的作用？

14、ETL加载策略与举例？

15、事实表：保存了大量业务度量数据的表，事实表的度量值一般称为事实。例如：订单金额、销量等可度量的。

粒度：

1）事务粒度事实表：比如股票按秒来变化；

2）周期快照：按天、按周、按月等；

3）累积快照事实表：记录确定周期的数据；

4）原子事实表：细粒度事实表；

5）聚集事实表：汇总事实表；

6）合并事实表；

7）旋转事实表；

8）预连接聚集表；

9）非事实型事实表：没有确定的事实，存的是外键；

10）切片事实表：把一张大表切成一段时间的；

11）蜈蚣事实表：维度很多；

12）一致性事实。

16、数据集市：小数据仓库，面向部门。它是数据仓库的子集，一般只面向某个主题，缓解访问数据仓库的瓶颈。DM一般存储经过汇总的数据，数据都是经过很多加工后的表。

17、元数据：是关于数据的数据，可以看作是数据仓库系统的“数据字典”，但是这个字典比传统意义上的数据字典强大。他可以帮助管理员和开发人员方便找到他们所关系的数据，并告诉用户数据仓库中有哪些数据，这些数据从哪里来。

分为技术元数据和业务/商业元数据。

18、ETL是将业务系统的数据经过抽取（Extract）清洗转换（Transform）之后加载（Load）到数据仓库的过程。

19、OLAP是联机分析处理，它可以满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”，因此OLAP也可以说是多维数据分析工具的集合。

20、维：是人们观察数据的特定角度，是考虑问题时的一类属性，属性集合构成一个维。如：时间维、地理维等。

21、维度表：可以看作是用户分析数据的窗口，维度表包含事实数据表中事实记录的特性。

事实表与维表的关系如下图：

技术分享

粒度：数据细化的级别，粒度越细，数据量越大，存储所需的空间越大，查询性能越慢。

层次：举例如：国家-省-市-县等；年-季-月-周-日。

三种模型：星形模型、雪花模型和多维模型。

星形模型如下图：它的维度表没有被新的表连接

技术分享

22、建模的一般过程

1）确定业务过程每个事实表的粒度；

2）确定维度属性；

3）确定维度层次；

4）确定每个事实所需要关联的维度；

5）确定数字型事实，包括预先计算的；

6）确定缓慢变化维：一种是直接覆盖，另一种是保留历史产品的维度，即追加。

23、

技术分享

24、数据抽取与装载策略

抽取：每天凌晨会把昨天的数据抽取一份放入数据仓库中，所以数据是T+1的。

1）抽取分为全量抽取和增量数据。小表全量，大表增量。

2）增量抽取可以通过时间戳来控制。

3）每次抽取近一个月有变更的数据，然后和目标表做全外关联得到最新的数据。

4）注意：不要用其它的表的时间戳来控制自己增量。

装载：将落地的文件装入到Hive数据表中。注意字段的顺序，极其重要。

抽取装载：一般使用sqoop来完成。

电商大数据学习笔记：理论

标签：

原文地址：http://www.cnblogs.com/hunttown/p/5452532.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行