1. 首页
  2. 文档大全

第3章-设计数据仓库-1

上传者:7****0 2022-06-03 00:11:28上传 PPT文件 390.01KB
第3章-设计数据仓库-1_第1页 第3章-设计数据仓库-1_第2页 第3章-设计数据仓库-1_第3页

《第3章-设计数据仓库-1》由会员分享,可在线阅读,更多相关《第3章-设计数据仓库-1(25页珍藏版)》请在文档大全上搜索。

1、第第3 3章章 设计数据仓库设计数据仓库规划数据仓库n明确目标n价值和期望n风险评估n建造还是购买?n单独厂商还是多厂商融合?n可行性分析n制定计划计划的主要内容n明确任务n范围n目标n关键问题与技术选择n实施策略n暂定的进度表n人员与组织安排数据仓库项目特点调研前准备n选择团队成员n分配任务n列出调研目标n进行调研前调查n准备问卷表n通知用户做好准备对不同对象的采访内容n信息来源n什么系统?什么信息?细节?n主题n哪些主题?哪些维度?维度有哪些层次?n关键性能指标n信息频率主题域模型n数据仓库按照主题域来组织n传统系统也是从主题域分析开始的,但常被省略n主题域是与企业相关的重要物理项、概念、

2、人、地点和事件分组特点行业的主题域n零售n店面比设施更重要n制造业n设施单独做一个主题域n共用事业n电网和燃气管道有物理主题和逻辑主题n建造数据仓库主要包括二个部分:n与操作型系统接口的设计n数据仓库本身的设计n通过启发方式建造数据仓库n一个阶段的开发完全依赖于上一阶段获得的结果n首先,载入一部分数据供DSS分析员使用和查看n然后,根据用户反馈,修改或添加其他数据n之后,建立数据仓库的另一个部分n如此循环往复,直到达到要求n反馈过程贯穿于数据仓库的整个开发周期n数据仓库不能采用需求驱动系统开发方法,但对需求进行预测依然十分重要建造数据仓库建造数据仓库与操作型系统接口的设计与操作型系统接口的设计

3、n设计时首先要考虑的问题是如何将数据放置在数据仓库环境中n重点考虑三个方面:n集成n性能n数据时基变化集成集成n将未经集成的数据载入数据仓库毫无意义n现有的应用系统在建立过程中很少考虑可能存在的集成的问题n每一个应用都有其特殊需求n将异源、异质、异构数据集成到统一视图十分复杂集成集成 操作型环境操作型环境 应用A m,f应用B 1,0应用C x,y应用D 男,女 数据仓库数据仓库 m,f编码转换应用A 管道cm应用B 管道inches应用C 管道mcf应用D 管道yds管道cm度量单位转换转换和集成的复杂性转换和集成的复杂性n数据抽取需要实现技术上的变化n选择数据复杂n关键字需要重建或转换n非

4、关键字需要重新格式化n数据需要清理n多源数据合并n多文件合并前的关键字解析n多文件顺序可能不同基至不相容n产生多个输出结果n选择输入数据时的效率问题转换和集成的复杂性转换和集成的复杂性n经常需要数据汇总、n需要对数据元素的重命名操作进行跟踪n读取的输入记录具有异常的或非标准的格式n必须理解传统程序逻辑中的语义关系n数据格式的转换n大容量数据输入n设计必须符合企业数据模型n数据需要加入时间元素n数据仓库反映对企业的信息化需求,面操作型环境着眼于企业日常事务需求n需要考虑高创建文件的传输问题转换和集成的复杂性转换和集成的复杂性nETL(Extract/Transform/Load)nAscenti

5、al公司的Datastage nInformatica公司的Powercenter nNCR Teradata公司的ETL Automation nETL软件的划分:n产生源代码的软件n产生参数化的运行时模块的软件nETL的替代软件ELTn优点:转换的同时可以引用大量的数据n缺点:可能仅仅抽取和装载了数据,跳过了转换过程数据时基变化n数据从操作型环境到数据仓库时要经历时基变化数据时基变化n扫描现有系统的文件,找出变化数据,是数据仓库体系结构设计者要面临的主要问题n五种技术:n扫描操作型环境中打上时戳的数据n扫描增量文件n扫描日志文件或审计文件n修改应用程序代码n比较前后映像文件在键中增加时间n

6、对于实体,有两种策略:n为每个实体添加时间成分。如,如果每个月做一次快照,可以添加字段month year.n当实体输入和改变时,修改时间字段n如果不能确定精确的系统时间,就用抽取时间替代时间建模n财务日历n假日n可比性数据仓库中的错误数据数据仓库中的错误数据n数据仓库中的数据出错时,具有多种解决方案.但每种方法都是优势与劣执共存,没有一种是绝对正确或错误的.只是在某种条件下一种占优.n例:假设7月1日在操作型系统中,账户ABC加入了一条5000美元的账目。7月2日在数据仓库中为账户ABC产生了这5000美元账目的一个快照。接着,在8月15日发现错误。这个账目不是5000美元,而是750美元。

7、那么,该如何纠正这个错误呢?数据仓库中的错误数据数据仓库中的错误数据n修正方法一:直接将7月2日的数据5000修改为750,问题:n数据集成破坏n更新必须在数据仓库环境中进行n许多时候不是要修正一个条目,而是很多n修正方法二:加入修正条目。在8月16日加入两个条目,一条是-5000,另一条是+750,这可能是最新数据的最好反映,但也有不足:n也可能要修正很多条目数据仓库中的错误数据数据仓库中的错误数据n有时候由于修正公式非常复杂,以致根本不能调整n修正方法三:重新设置8月16日账户为正确值750,不考虑以前的活动,缺点:n及时简单地将账户重设为当前值需要对应用与过程进行约定n不能对过去的错误进行准确解释。性能设计n主要问题是访问现有系统数据的效率n三种装载工作:n装载档案数据n难度不大n要么不值得装载,要么只需装载一次n装载操作型系统中的现有数据n只需要装载一次,影响较小n装载操作型环境中变化的数据n最为困难n另外,需要考虑载入数据的规模问题n需要压缩


文档来源:https://www.renrendoc.com/paper/212527747.html

文档标签:

下载地址