1. 首页
  2. 文档大全

数据仓库 数据据仓库原理

上传者:8**** 2022-05-27 23:40:27上传 PPT文件 453.51KB
数据仓库 数据据仓库原理_第1页 数据仓库 数据据仓库原理_第2页 数据仓库 数据据仓库原理_第3页

《数据仓库 数据据仓库原理》由会员分享,可在线阅读,更多相关《数据仓库 数据据仓库原理(52页珍藏版)》请在文档大全上搜索。

1、1数据仓库原理数据仓库原理23.1 数据仓库结构体系数据仓库结构体系3.2 数据仓库的数据模型数据仓库的数据模型3.3数据抽取、转换和装载数据抽取、转换和装载*3.4 元数据元数据33.1 数据仓库结构体系数据仓库结构体系3.1.1 数据仓库结构数据仓库结构3.1.2数据集市及其结构数据集市及其结构3.1.3 数据仓库系统结构数据仓库系统结构3.1.4 数据仓库运行结构数据仓库运行结构4 近期基本数据:近期基本数据:是最近时期的业务数据,是数是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。据仓库用户最感兴趣的部分,数据量大。 历史基本数据:历史基本数据:近期基本数据随时间的推移,

2、近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据:轻度综合数据:是从近期基本数据中提取出的,是从近期基本数据中提取出的,这 层 数 据 是 按 时 间 段 选 取 , 或 者 按 数 据 属 性这 层 数 据 是 按 时 间 段 选 取 , 或 者 按 数 据 属 性(attributesattributes)和内容(和内容(contentscontents)进行综合。进行综合。 高度综合数据层:高度综合数据层:这一层的数据是在轻度综合这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。数据基础上的再一次

3、综合,是一种准决策数据。 元元数数据据 高高度度综综合合数数据据轻轻度度综综合合数数据据当当前前基基本本数数据据历历史史数数据据层层 6n数据仓库工作范围和成本常常是巨大的。开发数数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。据仓库是代价很高、时间较长的大项目。n提供更紧密集成的数据集市就应运产生。提供更紧密集成的数据集市就应运产生。n目前,全世界对数据仓库总投资的一半以上均集目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。中在数据集市上。7n数据集市(数据集市(Data MartsData Marts)是一种更小、更集)是一种更小、更集中的数据仓库,

4、为公司提供分析商业数据的中的数据仓库,为公司提供分析商业数据的一条廉价途径。一条廉价途径。nData MartsData Marts是指具有特定应用的数据仓库,是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场支持用户获得竞争优势或者找到进入新市场的具体解决方案。的具体解决方案。83.数据集市与数据仓库差别数据集市与数据仓库差别(1)数据仓库是基于整个企业的数据模型建立的,)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一它面向企业范围内的主题。而数据集市是按照某一特

5、定部门的数据模型建立的。特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。)数据集市的数据组织一般采用星型模型。大型数据仓库的数据组织,如大型数据仓库的数据组织,如NCR公司采用第三范式。公司采用第三范式。9 1 1、规模是小的规模是小的2 2、特定的应用、特定的应用3 3、面向部门面向部门4 4、由业务部门定义,设计和开发、由业务部门定义,设计和开发5 5、由业务部门管理和维护、由业务部门管理和维护6 6、快速实现快速实现7 7、购买较便宜、购买较便宜

6、8 8、投资快速回收投资快速回收9 9、更详细的、预先存在的数据仓库的摘要子集、更详细的、预先存在的数据仓库的摘要子集1010、可升级到完整的数据仓库可升级到完整的数据仓库10独立数据集市独立数据集市(Independent Data Mart)(Independent Data Mart)从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart)11 数据仓库系统由数据仓库(数据仓库系统由数据仓库(DWDW)、)、仓库管理和分析工仓库管理和分析工具三部分组成。具三部分组成。3.1.2 数据仓库系统结构数据仓库系统结构12 (1)数据建模)数据

7、建模数据建模是建立数据仓库的数据模型。数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模型在于:数据仓库的数据模型不同于数据库的数据模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库只为决策分析用,不包含事务处理的数据。数据仓库的增加了时间属性数据。数据仓库的增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻辑数据数据仓库的数据建模是适应决策用户使用的逻辑数据模型。模型。 13解释解释数据模型数据模型不同于不同于数学模型数学模型:数据模型数据模型是对数据进行组织和存储结构的描述模型。是对数据进

8、行组织和存储结构的描述模型。如数据库的数据模型,数据仓库的数据模型。如数据库的数据模型,数据仓库的数据模型。数学模型数学模型是对数据变量的关系建立方程的描述模型。是对数据变量的关系建立方程的描述模型。如线性规划模型。如线性规划模型。数学模型数学模型是是运筹学运筹学中讨论的中讨论的模型。模型。14(2)数据抽取、转换、装载)数据抽取、转换、装载n数据仓库中的数据,是通过在源数据中数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。型的要求装载到数据仓库

9、中去。n数据抽取、转换、装载(数据抽取、转换、装载(ETL)是建立)是建立数据仓库的重要步骤,需要花费开发数数据仓库的重要步骤,需要花费开发数据仓库据仓库70%的工作量。的工作量。15(1 1)查询工具)查询工具 数据仓库的查询不是指对记录级数据的查数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。询,而是指对分析要求的查询。 一般包含:一般包含: 可视化工具:可视化工具:以图形化方式展示数据,可以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。以帮助了解数据的结构,关系以及动态性。16 (2 2)多维分析工具()多维分析工具(OLAPOLAP工具工具) 通过对信息

10、的多种可能的观察形式进行快通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。的观察视角,如时间、地域、业务等。17(3 3)数据挖掘工具)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要从大量数据中挖掘具有规律性知识,需要利用数据挖掘(利用数据挖掘(Data MiningData Mining)工具工具。18 数据仓库应用是一个典型的客户数据仓库应用是一个典型的客户/ /

11、服务器(服务器(C/SC/S)结构形结构形式:式: 客户端所做的工作:客户交互、格式化查询、结果显示、客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。报表生成等。 服务器端完成各种辅助决策的服务器端完成各种辅助决策的SQLSQL查询、复杂的计算和各查询、复杂的计算和各类综合功能等。类综合功能等。 客 户 端 数 据 仓 库 服 务 器 19解释解释客户客户/服务器(服务器(C/S)是网络上一种重要的是网络上一种重要的组织形式。组织形式。数据仓库在网络上都是以服务器(数据仓库在网络上都是以服务器(Server)形式提供服务,能对网络上多个客户形式提供服务,能对网络上多个客户(Cli

12、ent)同时提供服务。)同时提供服务。20客 户 端OLAP 服 务 器数 据 仓 库服 务 器 OLAPOLAP服务器将加强和规范化决策支持的服务工服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。分工作,降低了系统数据传输量。 这种结构形式工作效率更高。这种结构形式工作效率更高。21 数据仓库存储采用多维数据模型。数据仓库存储采用多维数据模型。 果汁可乐牛奶商品维奶油浴巾香皂北京上海长沙1 2 3 4 5 6 7城市维日期维22n维就是相同类数据的集合,商店、时间和产品维就是相同类数据的

13、集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。一段时间、每一种商品就是某一维的一个成员。n 每一个销售事实由一个特定的商品、一个特每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。定的时间、一个特定的商品组成。n 两维表,如通常的电子表格。三维构成立方两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。易在屏幕上画出来

14、。23 大多数的数据仓库都采用大多数的数据仓库都采用“星型模型星型模型”。星型模型是由。星型模型是由“事实表事实表”(大表)以及多个(大表)以及多个“维表维表”(小表)所组成。(小表)所组成。 “事实表事实表”中存放大量关于企业的事实数据(数量数中存放大量关于企业的事实数据(数量数据)。据)。 例如:多个时期的数据可能会出现在同一个例如:多个时期的数据可能会出现在同一个“事实表事实表”中。中。“维表维表”中存放描述性数据,维表是围绕事实表建立的中存放描述性数据,维表是围绕事实表建立的较小的表。较小的表。 星型模型数据如下图:星型模型数据如下图: 3.2.1星型模型星型模型24订货表客户表销售员

15、表事实表产品表日期表地区表星型模型数据存储情况示意图 26 3.2.23.2.2雪花模型雪花模型 雪花模型对星型模型的维表进一步层次化,原来的各维表雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的可能被扩展为小的事实表,形成一些局部的“层次层次”区域。区域。 在上面星型模型的数据中在上面星型模型的数据中 ,对,对“产品表产品表”“”“日期日期表表”“”“地区表地区表”进行扩展形成雪花模型数据见下图。进行扩展形成雪花模型数据见下图。 3.2.33.2.3星网模型星网模型 星网模型是将多个星型模型连接起来形成网状结构。多个星网模型是将多个星型模型连接起来形成

16、网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。星型模型通过相同的维,如时间维,连接多个事实表。27地区键事务键用户键时间键状态键时间键用户键事务键地区键电话费用时间键用户键状态键电话余额电话公司星网模型实例 293.2.4第三范式第三范式n范式实际上是传统的关系数据库的设计理论。范式实际上是传统的关系数据库的设计理论。 n数据仓库可以按第三范式进行逻辑数据建模。数据仓库可以按第三范式进行逻辑数据建模。它不同于星型模型在于,把事实表和维表的属它不同于星型模型在于,把事实表和维表的属性都集中在同一数据库中,按第三范式组织数性都集中在同一数据库中,按第三范式组织数据。它减少了维表中的

17、键和不必要的属性。据。它减少了维表中的键和不必要的属性。n著名的著名的NCR数据仓库公司采用了第三范式的逻数据仓库公司采用了第三范式的逻辑数据模型。辑数据模型。30n星型模型在进行多维数据分析时,速度星型模型在进行多维数据分析时,速度是很快的。但是增加维度将是很困难的是很快的。但是增加维度将是很困难的事情。事情。n第三范式对于海量数据(如第三范式对于海量数据(如TB级),且级),且需要处理大量的动态业务分析时,就显需要处理大量的动态业务分析时,就显示了它的优势。示了它的优势。313.3数据抽取、转换和装载数据抽取、转换和装载n 数据仓库的数据来源于多个数据源,主要是数据仓库的数据来源于多个数据

18、源,主要是企业内部数据;存档的历史数据;企业的外部企业内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,数据。这些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。存放在不同的数据库中。n数据仓库需要将这些源数据经过抽取、转换数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。和装载的过程,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换()、转换(Transform)、

19、装)、装载(载(Load)三个过程即)三个过程即ETL过程。过程。 32331 数据抽取数据抽取(1)确认数据源)确认数据源(2)数据抽取技术)数据抽取技术331.确认数据源确认数据源n列出对事实表的每一个数据项和事实列出对事实表的每一个数据项和事实n列出每一个维度属性列出每一个维度属性n对于每个目标数据项,找出源数据项对于每个目标数据项,找出源数据项n一个数据元素有多个来源,选择最好的来源一个数据元素有多个来源,选择最好的来源n确认一个目标字段的多个源字段,建立合并规则确认一个目标字段的多个源字段,建立合并规则n确认一个目标字段的多个源字段,建立分离规则确认一个目标字段的多个源字段,建立分离

20、规则n确定默认值确定默认值n检查缺失值的源数据检查缺失值的源数据342.数据抽取技术数据抽取技术n当前值。当前值。 源系统中存储的数据都代表了当前时刻的值。源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。当商业交易时,这些数据是会发生变化的。n周期性的状态。周期性的状态。 这类数据存储的是每次发生变化时的状态。这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间确认、评估和解决等步骤,都要考虑有时间说明。说明。35332 数据转换数据转换1.数据转换的基本功能数

21、据转换的基本功能2.数据转换类型数据转换类型3.数据整合和合并数据整合和合并4.如何实施转换如何实施转换361.数据转换的基本功能数据转换的基本功能n选择:选择:从源系统中选择整个记录或者部分记录。从源系统中选择整个记录或者部分记录。 n分离分离/合并:合并:对源系统中的数据进行分离操作或者合并操作。对源系统中的数据进行分离操作或者合并操作。n转化:转化:对源系统进行标准化和可理解化。对源系统进行标准化和可理解化。n汇总:汇总:将最低粒度数据进行汇总。将最低粒度数据进行汇总。 n清晰:清晰:对单个字段数据进行重新分配和简化对单个字段数据进行重新分配和简化 。372.数据转换类型数据转换类型(1

22、)格式修正)格式修正(2)字段的解码)字段的解码(3)计算值和导出值)计算值和导出值(4)单个字段的分离)单个字段的分离(5)信息的合并)信息的合并(6)特征集合转化)特征集合转化(7)度量单位的转化)度量单位的转化(8)关键字重新构造)关键字重新构造(9)汇总)汇总(10)日期)日期/时间转化时间转化383.数据整合和合并数据整合和合并数据整合和合并是将相关的源数据组合数据整合和合并是将相关的源数据组合成一致的数据结构,装入数据仓库。成一致的数据结构,装入数据仓库。(1)实体识别问题)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别数据来源于多个不同的客户系统,对相同客户可能分

23、别有不同的键码,将它们组合成一条单独的记录。有不同的键码,将它们组合成一条单独的记录。 (2)多数据源相同属性不同值的问题)多数据源相同属性不同值的问题 不同系统中得到的值存在一些差别不同系统中得到的值存在一些差别 ,需要给出合理的值。,需要给出合理的值。394.如何实施转换如何实施转换n自己编写程序实现数据转换自己编写程序实现数据转换n使用转换工具使用转换工具40333 数据装载数据装载(1)数据装载方式)数据装载方式(2)数据装载类型)数据装载类型411.数据装载方式数据装载方式n基本装载基本装载 按照装载的目标表,将转换过的数据输入到目标表中去。按照装载的目标表,将转换过的数据输入到目标

24、表中去。 n追加追加 如果目标表中已经存在数据,追加过程在保存已有数据的基础如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。上增加输入数据。 n破坏性合并破坏性合并 用新输入数据更新目标记录数据。用新输入数据更新目标记录数据。 n建设性合并建设性合并 保留已有的记录,增加输入的记录,并标记为旧记录的替代。保留已有的记录,增加输入的记录,并标记为旧记录的替代。422.数据装载类型数据装载类型n最初装载最初装载 这是第一次对整个数据仓库进行装载。这是第一次对整个数据仓库进行装载。 n增量装载增量装载 由于源系统的变化,数据仓库需要装载变化的数据。由于源系统的变化,数据仓库需要

25、装载变化的数据。n完全刷新完全刷新 这种类型的数据装载用于周期性重写数据仓库。这种类型的数据装载用于周期性重写数据仓库。 433.3.4 ETL工具工具有有 3 类类 ETL工具工具:1 . 数据转换引擎数据转换引擎2 . 代码生成器代码生成器3 . 通过复制捕获数据通过复制捕获数据4434 元数据元数据341 元数据的重要性元数据的重要性342 关于数据源的元数据关于数据源的元数据343 关于数据模型的元数据关于数据模型的元数据344 关于数据仓库映射的元数据关于数据仓库映射的元数据345 关于数据仓库使用的元数据关于数据仓库使用的元数据45341 元数据的重要性元数据的重要性n最基本的元

26、数据相当于数据库系统中的最基本的元数据相当于数据库系统中的数据字典。数据字典。n元数据定义了数据仓库有什么,指明了元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。个数据仓库的运行都是基于元数据的。46 这类元数据是对不同平台上的数据源的物理结构这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:和含义的描述。具体为: (1 1)数据源中所有物理)数据源中所有物理

27、( (存储)数据结构,包括存储)数据结构,包括所有的数据项及数据类型。所有的数据项及数据类型。 (2 2)所有数据项的业务定义。)所有数据项的业务定义。 (3 3)每个数据项更新的频率,以及由谁或那个)每个数据项更新的频率,以及由谁或那个过程更新的说明。过程更新的说明。 (4 4)每个数据项的有效值。)每个数据项的有效值。3.4.23.4.2关于数据源的元数据关于数据源的元数据47 这组元数据描述了数据仓库中有什么数据以及这组元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓数据之间的关系,它们是用户使用管理数据仓库的基础,它是库的基础,它是数据仓库的字典数据仓库的字

28、典。 这种的元数据可以支持用户从数据仓库中获这种的元数据可以支持用户从数据仓库中获取数据。取数据。 3.4.33.4.3关于数据模型的元数据关于数据模型的元数据48例如,雇员与技能之间的关系如图例如,雇员与技能之间的关系如图2.13表示。表示。EmployeeE_NoE_SE_NoS_CodeSkillS_Code121349 这类元数据是数据源与数据仓库数据间的这类元数据是数据源与数据仓库数据间的映射。映射。 当数据源中的一个数据项与数据仓库建立当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据

29、仓库中的何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。些转换,变换和加载过程。3.4.43.4.4关于数据仓库映射的元数据关于数据仓库映射的元数据501抽取工作之间的复杂关系抽取工作之间的复杂关系一个数据的抽取要经过许多步骤。如图所示:源数据获取过滤验证融合综合装载存档目标512源数据与目标数据之间的映射源数据与目标数据之间的映射(1)抽取工作)抽取工作(2)抽取工作步骤)抽取工作步骤(3)抽取表映射)抽取表映射(4)抽取属性映射)抽取属性映射(5)记录筛选规则)记录筛选规则52 这类元数据是数据

30、仓库中信息的使用情况描述。这类元数据是数据仓库中信息的使用情况描述。 数据仓库的用户最关心的是两类元数据:数据仓库的用户最关心的是两类元数据: (1 1)元数据告诉数据仓库中有什么数据,它们从哪里来。)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。即如何按主题查看数据仓库的内容。 (2 2)元数据提供已有的可重复利用的查询语言信息。如果)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。就可以再次使用那些查询而不必从头开始编程。 关于数据仓库使用的元数据能帮助用户到数据仓库查询所关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。需要的信息,用于解决企业问题。


文档来源:https://www.renrendoc.com/paper/212469643.html

文档标签:

下载地址