
《数据仓库3-数据仓库中的数据及组织》由会员分享,可在线阅读,更多相关《数据仓库3-数据仓库中的数据及组织(44页珍藏版)》请在文档大全上搜索。
1、1第第3 3讲讲 数据仓库中的数据及组织数据仓库中的数据及组织2数据数据仓库产生的原因仓库产生的原因数据处理的类型 操作型处理(OLTP):数据的收集、整理、存储、查询和增、删、改操作。 分析型处理(OLAP):数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析。3数据仓库的四个基本特征:u数据仓库的数据是面向主题的(Subject Oriented);u数据仓库的数据时集成的(Integrate);u数据仓库的数据不可更新(Non-Volatile);u数据仓库的数据时随时间不断变化(Time Variant)的。 数据仓库的基本概念4数据仓库的体系结构5v 数据库和数据仓库两层体系
2、结构(DB-DW)并不能涵盖企业所有的数据处理要求。v 某些应用既不是纯粹的联机事务处理,又不是高层决策分析。什么是什么是ODSODS6ODSODS的定义及特点的定义及特点v 定义:是用于支持企业日常的全局应用的数据集合。v ODS中的数据具有4各基本特征:面向主题的、集成的、可更新的、数据是当前或接近当前的。v ODS中只存放当前或接近当前的数据,并且可以进行联机修改,包括增、删、改等操作。7vDWDW与与ODSODS面向不同的用户、不同的需求面向不同的用户、不同的需求,都有,都有其其不可替代的作用不可替代的作用,彼此间不是相互包含的,彼此间不是相互包含的,同时两者又可以相互结合、相互补充。
3、同时两者又可以相互结合、相互补充。DBDBDBDBDBDBODSODSDWDW应用应用操作型环境操作型环境分析型环境分析型环境三层体系结构三层体系结构83.1 3.1 数据仓库中的数据组织数据仓库中的数据组织3.2 3.2 数据仓库中数据的追加数据仓库中数据的追加3.3 3.3 数据仓库中的元数据数据仓库中的元数据9v 数据仓库中存储两类数据: 业务数据和元数据3.13.1数据仓库中的数据组织数据仓库中的数据组织10数据仓库的体系结构11v 数据仓库中存储的数据 3.13.1数据仓库中的数据组织数据仓库中的数据组织后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级元元数数据据12
4、v 源数据经过抽取、转换后,首先进入当前细节级,再根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级。v 老化的数据进入早期细节级。 3.13.1数据仓库中的数据组织数据仓库中的数据组织13v 数据组织的实例 3.13.1数据仓库中的数据组织数据仓库中的数据组织数数据据仓仓库库层层后备数据后备数据后备数据高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级2015每“月”电话呼叫情况信息2015每“天”电话呼叫情况信息2015每个电话呼叫情况信息20102014电话呼叫明细情况信息141 1)数据粒度)数据粒度v 数据粒度是数据仓库的重要概念。存在两种形
5、式,形式一: 粒度是对数据仓库中数据的综合程度高低的一个度量。 粒度越小,细节程度越高,综合程度越低。15v 不同的情况组织数据的粒度会不同。如:v 电信通话 细节数据:记录每一次通话情况。 轻度综合数据:记录顾客每天的通话情况。 高度综合数据:记录顾客每月的通话情况。 1 1)数据粒度)数据粒度16v 超市购物 细节数据:记录顾客每一次购物细节。 轻度综合数据:记录每个顾客每次的购物金额,或每种商品每一天的销售数据。 高度综合数据:记录每个顾客每月或每年的购物金额,或每种商品每月或每年的销售数据。 1 1)数据粒度)数据粒度171 1)数据粒度)数据粒度 数据粒度的确定是业务分析、硬件、软件
6、的一个折中。 在数据仓库中多重粒度是必不可少的181 1)数据粒度)数据粒度v 数据粒度是数据仓库的重要概念。存在两种形式,形式二: 样本数据库,其粒度是根据采样率的高低来划分的。 盖洛普民意测验是一种观点的民意测验,其特点是用简单的随机取样法并且试图把偏差度保持在最低。192)2)数据分割数据分割v 数据分割是数据仓库中的另一个重要概念。v 它是指将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。v 数据分割后的数据单元称为分片。20MySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQLMySQL212)2)
7、数据分割数据分割v 数据分割的标准可以根据实际情况来确定,通常选择:按日期、地域、业务领域等来进行。222)2)数据分割数据分割v 数据分割的方法 垂直分割:垂直分割就是把一个表垂直分成两部分。 水平分割:水平分割就是把表按行分成两部分。23AppIDIDMEMBE_IDMEMBE_IDINFOINFO1pavarotti1711pavarotti17MySQLIDIDMEMBE_IDMEMBE_IDINFOINFO4test12345test1234IDIDMEMBE_IDMEMBE_IDINFOINFO3abcd9abcd20abcdMySQLMySQLCobarProxyAppAppAp
8、pAppAppAppApp2)2)数据分割数据分割242)2)数据分割数据分割v 一个简单的分割例子。年份健康保险生命保险事故保险2008分片分片1分片分片2分片分片32009分片分片4分片分片5分片分片62010分片分片7分片分片8分片分片9253.1 3.1 数据仓库中的数据组织数据仓库中的数据组织3.2 3.2 数据仓库中数据的追加数据仓库中数据的追加3.3 3.3 数据仓库中的元数据数据仓库中的元数据263.2数据仓库中数据的追加v当数据仓库的数据初装完成以后,再向数据仓库输入(导入)数据的过程称为数据追加。v如何能够确切地感知究竟哪些数据是在上一次追加过程以后新生成的,这项工作称为变
9、化数据的捕捉。27v需要对源数据库的数据模式加以修改,加上时标字段。v对新插入或更新的数据记录,在记录中加更新时的时标。1 1)时标法)时标法28v由应用生成的文件,用来记录应用所改变的数据内容。v在要被抽取的源表上建立插入、修改、删除3个触发器,每当源表中的数据发生变化,相应的触发器将变化的数据写入一个增量日志表。2 2)DELTADELTA文件文件29v在上次抽取数据库数据到数据仓库之后及本次将抽取数据库数据之前,对数据库分别做一次快照,然后比较两幅快照的不同。缺点:需要占用大量资源,影响系统性能。3 3)前后快照文件的方法)前后快照文件的方法30v通过分析数据库自身的日志来判断变化的数据
10、。v优点:提取的变化数据只局限于日志文件,不需扫描整个数据库。4 4)日志文件)日志文件313.1 3.1 数据仓库中的数据组织数据仓库中的数据组织3.2 3.2 数据仓库中数据的追加数据仓库中数据的追加3.3 3.3 数据仓库中的元数据数据仓库中的元数据323.33.3数据仓库中的元数据数据仓库中的元数据v 传统数据库中为了说明数据引入了数据字典的概念。v 数据字典是描述数据的数据。333.3.13.3.1元数据的定义元数据的定义v 元数据:是用来描述数据的数据。它描述和定位数据组件、它们的来源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。343.3.13.3.
11、1元数据的定义元数据的定义v 其主要目标是提供数据资源的全面指南,使得数据仓库管理员和开发人员可以方便地了解数据仓库中有什么数据?数据在什么地方?它们来源于哪里,以及数据仓库系统中是如何利用这些数据?如何管理这些数据?35v 与元数据产生、存储有关的工具:数据抽取工具:完成ETL操作。前端展现工具:实现把关系表映射成与业务相关的事实表和维表来支持多维业务视图,进行多维分析。建模工具:提供更高层次的、与特定业务相关的语义。元数据存储工具:用于将元数据存储在专门的数据库中。3.3.13.3.1元数据的定义元数据的定义363.3.2元数据的分类v 元数据可以按多种方式分类:按用户分类按功能分类371
12、 1)按使用元数据的用户分类)按使用元数据的用户分类v 按使用元数据的用户分类:技术元数据:是关于数据仓库系统技术细节的描述数据,是数据仓库开发人员和管理人员需要使用的重要信息。主要包括数据仓库结构的描述等。业务元数据:从业务角度描述数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层定义,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。383.按功能分类v 按功能分类:数据源元数据ETL规则元数据ODS元数据和DW元数据报表元数据接口数据文件格式元数据商业元数据1 1)按使用元数据的用户分类)按使用元数据的用户分类393.3.3元数据管理的标准化v 元数据在数据仓库系统中占有十
13、分重要的地位,但是目前工业界的各种数据仓库管理和分析工具却常常使用不同的元数据标准,使得元数据管理、不同系统之间的迁移、数据交换变得困难。v 迫切需要建立一种统一的标准,使得不同数据仓库和商务智能系统之间可以相互交换元数据。v 从而产生了基于元数据联盟(Meta Data Coalition,MDC)和OMG组织的相关元数据标准。401)MDC的OIM标准v 背景MDC成立于1995年。致力于建立于厂商无关、不依赖于具体技术的企业元数据管理标准的非营利技术联盟。有150多个会员。提出了开放信息模型(Open Information Model,OIM)。1999年7月接受微软的建议,将OIM作
14、为元数据标准。411 1)MDCMDC的的OIMOIM标准标准vOIM标准的目的通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。它涉及信息系统的各个阶段。采用UML描述。422)OMG组织的CWM标准v 背景对象管理组织(英文Object Management Group,缩写为OMG),是一个国际协会,开始的目的是为分布式面向对象系统建立标准,现在致力于建立对程序、系统 和 业务流程的建模标准,以及基于模型的标准。有500多个会员。提出了公共仓库元模型(Common Warehouse Metamodel,CWM)。432)OMG组织的CWM标准v CWM标准的目的异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。443)CWM标准与OIM标准之间的关系v CWM专门为数据仓库元数据而制定的一套标准,只限于数据仓库领域。v OIM包括:分析与设计模型、对象与组件、数据库与数据仓库、商业工程、知识管理等5个领域。v 目前MDC与OMG组织已经合并,今后所有的工具都将遵循统一的CWM标准。
文档来源:https://www.renrendoc.com/paper/212469650.html
文档标签:数据仓库 中的 数据 组织