数仓学习1

时间：2019-07-25 00:46:13 阅读：176 评论：0 收藏：0 [点我收藏+]

标签：line hadoop dash hive 加载流处理 stream 质量数据表

通常说的大数据平台主要包括三部分：

数据相关的工具、产品和技术：

– 批量数据采集传输sqoop，spark

– 离线数据处理Hadoop，Hive，Spark

– 实时流处理Storm，Spark Streaming，Flink

• 数据资产：

– 公司业务本身产生和沉淀的数据

– 公司运作产生的数据（如财务、行政）

– 第三方数据：外界购买、交换或者爬虫而来的数据

• 数据管理：有了工具和数据，需要进行管理才能让数据价值最大和风险最小

相关数据管理技术和概念：数据仓库、数据建模、数据质量、数据规范、数据安全和元数据管理

心形模型

维度表:一些属性的字典表商品信息，

事实表:用户行为

雪花模型

比如说用户年龄,性别 id---》id 姓名，与年龄

统一标准：比如一个业务部门删除 0 在线 1 ，另一个，删除 N 在线 Y

口径就是常说的 where过滤条件

技术图片

上面的是一个业务线的数据建模

整个大数据部门的数据仓库-------》数据集市{

拉取相关字段建立宽表--------》在宽表的基础-----》各个业务抽取字段形成对应的业务表（机器学习的，数据分析的）-------》统计分析过程（join，或者中间临时表）-----》

}

技术图片

这张是对于公司所有类型的数据（埋点收集数据，员工数据、业务产品数据）全部存在数据仓库==============》后续分对应部门使用建表

建模---》分层的好处：解耦，上游数据对下游影响较小，表的依赖关系去寻找业务问题

ODS（Operational Data Store，操作数据存储）：原始数据层，数据源头表通常会原封不动的存储一份。DW层（DWD和DWS层）：

DWD（data warehouse detail）明细层

DWS（data warehouse service 汇总层

数据仓库明细层DWD和数据仓库汇总层DWS是数据平台的主要内容。它们是通过ODS层经过ETL清洗、转换、加载生成的，

基于维度建模理论来构建，通过一致性维度和数据总线来保证各个子主题的维度一致性。（就算数据表被删了也可以重新跑从ODS恢复过来）

ADS（集市数据层，也称应用层）：应用层主要是各个业务方或者部门基于DWD和DWS建立的数据集市（DM），数据集市是相对于数据仓库来说的。一般应用层的数据是来源于DW层，原则上是不能访问ODS层的。对比于DW层，应用层只包含部门或业务方自己关心的明细层和汇总层的数据。（一般是将各个要用的表join起来形成宽表，供下游业务分析人员 select * ）

技术图片