文章目录
- 项目地址
- 1. 项目一:
- 2. 项目二:
- 一、金融信贷项目
- 1.1 ODS(Operational Data Store)层表创建
- 1. 2 DWH层(数仓层)
- 二、电商数据仓库
- 2.1 数仓概念
- 2.1.1 数据来源
- 2.1.2 数据架构
- 2.1.3 技术选型
- 2.2 业务表的组成
- 2.3 后台管理表
- 2.4 零点漂移
- 2.5 全量和增量load
- 2.6 事实表和维度表
- 2.6.1 事实表
项目地址
1. 项目一:
- 项目作者:
- 项目地址:
- 技术栈:
2. 项目二:
- 项目作者:
- 项目地址:
https://www.bilibili.com/video/BV1UN411j79o?spm_id_from=333.788.videopod.episodes&vd_source=791e6deaa9c8a56b1f845a0bc1431b71&p=7
- 技术栈:
一、金融信贷项目
1.1 ODS(Operational Data Store)层表创建
- 日期维度表
- 渠道维度表(Channel Table):渠道名称(channalName),渠道id,渠道code,渠道类型,描述,创建日期,是否活跃。
- 客户经理维度表(Client Manager/Account Manager):
- 用户维度表(User Dimension Table)
1. 2 DWH层(数仓层)
二、电商数据仓库
2.1 数仓概念
- 详细的架构图:
2.1.1 数据来源
- 业务数据:业务处理事务时,于后台数据库交互产生的数据,一般时sql和oracle
- 用户行为数据:主要是用户日志信息,客户浏览的时间,点击的次数,评论,停留等
- 爬虫数据:
2.1.2 数据架构
- 一般数据源来自于OLTP层,即业务层,该层的数据大部分都是mysql,sql等数据,所以,该类数据都是列式存储,由于式业务数据,该类数据数据量小,实时数据
- 而数据仓库,存储的是海量数据,该类数据由于数据量多,所以才具备分析统计的意义
- 数据仓库不能牺牲OLTP业务层的性能,数据库服务于业务,而不是数据仓库
- 数据仓库的数据是从业务数据库中以周期性的(天)来同步过来的,但是由于业务数据是实时产生的, 但是数据仓库是以天为单位,所以,不能直接将业务实时同步到数仓中,就需要以一个中间层,这里以Hive为例
2.1.3 技术选型
2.2 业务表的组成
2.3 后台管理表
2.4 零点漂移
2.5 全量和增量load
全量:由于数仓的分区按照每日分区,所以每天进行一次全表的load
增量:每天之将业务数据中的新增及变化数据同步到数据库。一般需要在首日进行一次全量同步。
2.6 事实表和维度表
2.6.1 事实表
-
事务型事实表用来记录各业务过程,它保存的是各业务过程的原子操作事件,即最细粒度的操作事件。粒度是指事实表中一行数据所表达的业务细节程度。
-
事务型事实表可用于分析与各业务过程相关的各项统计指标,由于其保存了最细粒度的记录,可以提供最大限度的灵活性,可以支持无法预期的各种细节层次的统计需求。
-
例如:订单事实表中一行数据表示的是一个订单中的一个商品项
-
如何创建事实表:
经过上述四个步骤,事务型事实表就基本设计完成了。第一步选择业务过程可以确定有哪些事务型事实表,第二步可以确定每张事务型事实表的每行数据是什么,第三步可以确定每张事务型事实表的维度外键,第四步可以确定每张事务型事实表的度量值字段。