Data Modeling


文章目录

  • 项目地址
    • 1. 项目一:
  • 2. 项目二:
  • 一、金融信贷项目
    • 1.1 ODS(Operational Data Store)层表创建
    • 1. 2 DWH层(数仓层)
  • 二、电商数据仓库
    • 2.1 数仓概念
      • 2.1.1 数据来源
      • 2.1.2 数据架构
      • 2.1.3 技术选型
    • 2.2 业务表的组成
    • 2.3 后台管理表
    • 2.4 零点漂移
    • 2.5 全量和增量load
    • 2.6 事实表和维度表
      • 2.6.1 事实表


项目地址

1. 项目一:

  • 项目作者:
  • 项目地址:
  • 技术栈:

2. 项目二:

  • 项目作者:
  • 项目地址:
https://www.bilibili.com/video/BV1UN411j79o?spm_id_from=333.788.videopod.episodes&vd_source=791e6deaa9c8a56b1f845a0bc1431b71&p=7
  • 技术栈:

一、金融信贷项目

1.1 ODS(Operational Data Store)层表创建

  1. 日期维度表Data Modeling
  2. 渠道维度表(Channel Table):渠道名称(channalName),渠道id,渠道code,渠道类型,描述,创建日期,是否活跃。
  3. 客户经理维度表(Client Manager/Account Manager):
    Data Modeling
  4. 用户维度表(User Dimension Table)
    Data Modeling

1. 2 DWH层(数仓层)

二、电商数据仓库

Data Modeling

2.1 数仓概念

Data Modeling

  • 详细的架构图:
  • Data Modeling

2.1.1 数据来源

  1. 业务数据:业务处理事务时,于后台数据库交互产生的数据,一般时sql和oracle
  2. 用户行为数据:主要是用户日志信息,客户浏览的时间,点击的次数,评论,停留等
  3. 爬虫数据:

2.1.2 数据架构

  1. 一般数据源来自于OLTP层,即业务层,该层的数据大部分都是mysql,sql等数据,所以,该类数据都是列式存储,由于式业务数据,该类数据数据量小,实时数据
  2. 而数据仓库,存储的是海量数据,该类数据由于数据量多,所以才具备分析统计的意义
  3. 数据仓库不能牺牲OLTP业务层的性能,数据库服务于业务,而不是数据仓库
  4. 数据仓库的数据是从业务数据库中以周期性的(天)来同步过来的,但是由于业务数据是实时产生的, 但是数据仓库是以天为单位,所以,不能直接将业务实时同步到数仓中,就需要以一个中间层,这里以Hive为例
    Data Modeling

2.1.3 技术选型

Data Modeling

2.2 业务表的组成

Data Modeling

2.3 后台管理表

Data Modeling

2.4 零点漂移

Data Modeling

2.5 全量和增量load

全量:由于数仓的分区按照每日分区,所以每天进行一次全表的load
增量:每天之将业务数据中的新增及变化数据同步到数据库。一般需要在首日进行一次全量同步。
Data Modeling

2.6 事实表和维度表

2.6.1 事实表

  • 事务型事实表用来记录各业务过程,它保存的是各业务过程的原子操作事件,即最细粒度的操作事件。粒度是指事实表中一行数据所表达的业务细节程度。

  • 事务型事实表可用于分析与各业务过程相关的各项统计指标,由于其保存了最细粒度的记录,可以提供最大限度的灵活性,可以支持无法预期的各种细节层次的统计需求。

  • 例如:订单事实表中一行数据表示的是一个订单中的一个商品项

  • 如何创建事实表:
    经过上述四个步骤,事务型事实表就基本设计完成了。第一步选择业务过程可以确定有哪些事务型事实表,第二步可以确定每张事务型事实表的每行数据是什么,第三步可以确定每张事务型事实表的维度外键,第四步可以确定每张事务型事实表的度量值字段。

上一篇:oppofind7有没有nfc(oppo find7 nfc怎么用)
下一篇:128g固态硬盘价格(把笔记本电脑拿去电脑专卖店装一个128G的固态硬盘大概需要多少钱)