第1章绪论
2数据仓库技术的研究现状
1.2.1数据仓库和OLAP技术
数据仓库技术发源于80年代初W.H.Inmon对“纪录系统”、“本原数据”、“决策支持数据库”的研究。1988年,Devli和M盯phy发表了第一篇关于数据仓库的论文,披露了IBM的一项内部研究计划,目的是构造一种“以关系数据库为基础的、公司数据的集成化仓储”,以便各级决策者使用“一组相容的工具”从仓库中提取有助于决策的信息。1992年w.H.Inmon出版了《BuildingtheDataWarehouse》一书。继工BM之后,不但一些大型数据库厂商推出了各自的数据仓库,如OraCle的 ExpressServer,Sybase的IQ,informi的MetaCube等;其它计算机厂商也相继开发了大量的数据仓库产品,如SAS,Platinum, RedBriek,SPSS,Prism,Arbor等等。根据META小组的调查,数据仓库的市场(包括硬件、数据库软件和工具)从1998年的180亿美元迅速增长到2006年的1080亿美元。
在学术界对数据仓库的研究中,斯坦福大学的数据仓库计划处于领先地位,他们提出了一种具有普遍代表性的数据仓库体系结构,并围绕这一体系结构的各个环节,进行了深入的研究。
在实际的决策过程中,决策者希望从多个角度观察某一指标或多个指标的值,并且找出这些指标之间的关系。为此,近20年来人们一直进行多维分析技术的研究,由于关系数据库系统在多维数据分析能力上的局限性,并且传统的数据分析软件也不适宜进行动态数据分析,使得多维数据分析能力受到了很大的限制。关系数据库之父E.F.Codd认为关系数据库的目标是联机事务处理。而强大的数据合成分析功能则应由与关系数据库相辅相成的前端工具OLAP来完成。总的来说,作为一种多维数据分析技术,
OLAP完成下列功能:l)给出数据仓库中数据的多维视图。2)通常包括交互式查询和对数据的分析。3)提供分析的建模功能。4)生成概括数据和聚集、层次,以及在每一维的交叉点上对聚集和概括进行审计。5)支持功能模型以进行预测、趋势分析和统计分析。6)检索并显示二维或三维表格、图表和图形中的数据,并且能够容易地变换基准轴。7)极快地响应查询。8)具有多维数据存储引擎,按阵列存储数据。
2.2主要研究领域
当前数据仓库技术和联机分析处理技术的主要研究领域是:
l)数据仓库的建模和设计。研究数据仓库的设计方法学和设计工具,以便更好地支持聚集层次问题、多维模型和关系模型的映射问题、以及在早期设计阶段就被使用的分区和聚集的代价模型。另外,对己存在视图的集成工作的适应方面的研究。...........................
.................................
第2章数据仓库技术
2.1引言一个现代报表结构能够让用户访问所需要的数据。但是,它不能解决用户的所有问题。用户可以访问数据,却无法保持该数据的完整性。它也不能保证系统的响应时间能满足需要。它不能保证你的系统在数据生命期结束之前不会清除你的数据。事实上,仅仅让用户能够访问数据只涉及到数据问题的极小部分。
随着计算机技术的飞速发展和企业界不断提出新的需求,数据仓库技术应运而生。传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各种类型的数据处理工作。
近年来,随着计算机应用,网络计算,开始向两个不同的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。特别是数据库处理可以大致地划分为两大类:操作型处理和分析型处理(或信息型处理)。这种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。
数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。经过数十年的发展,在这些数据库中己经保存了大量的日常业务数据。传统的业务系统一般是直接建立在这种事务处理环境上的。随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。后来人们逐渐认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。事务处理环境不适宜DSS应用的原因主要有以下五条:
(l)事务处理和分析处理的性能特性不同。
在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短:在分析处理环境中,用户的行为模式与此完全不同,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。............................
...............................
第3章数据抽取、清洗和转换技术........................................17
3.1引言...................................................................................17
3.2数据源..............................................................................17
3.2.1数据抽取........................................................................17
3.2.2数据刷新........................................................................18
3.2.3数据的有效性检查........................................................18
第4章联机分析处理(OLAP)技术..........................................20
4.1引言...............................................................................20
4.2OLAP概念和特征..........................................................20
4.2.1OLAP的定义................................................................20
4.3OLAP的数据模型..........................................................21
4.3.1数据模型.......................................................................21
4.3.2模犁实现.......................................................................21
4.4OLTP与OLAP的关系与比较..........................................22
4.5OLAP的特征.................................................................23
4.5.1多维OLAP(MOLAP)和关系 OLAP(ROLAP)..................23
4.6OLAP评价准则准则.....................................................26
4.7流行的OLAP工具.........................................................26
4.7.1市场份额的比较.........................................................26
4.7.2产品结构的比较.........................................................28
4.7.3OLAPServer的比较......................................................29
4.7.4产品性能的比较..........................................................29
总结
(1)本系统综合考虑了国内外较为流行的商业智能方案,采用了IBM的整套解决方案,此方案是国内外使用最广泛的几种解决方案之一。该系统在数据仓库应用领域采用了国际先进技术,且在政府机关的应用是国内较为领先的。
(2)数据仓库技术不同于一般的数据统计,大大提高了数据分析的效率,提供了集成不同业务数据的能力,使处理超大型数据成为可能,并且提供了丰富灵活的在线分析功能。在己建的应用数据库系统中都会有统计报表功能,它是针对本数据库主要数据项做出的多个两维数据报表,系统完成后不宜改变或增加;而数据仓库技术的优势在于,它建立的是多维数据模型,可满足不同的需求。
(3)在数据整和过程中引入新的变量和重新编制新的数据条件,参与建模,以便获得更多的信息。如在逃人员历史库和被盗抢机动车库作了这方面的工作,使我们获得了在逃人员抓获历时的分析和车辆厂牌型号的具体结果。
(4)该系统提供了以前难以得到的分析结果。由于数据库中数据迅速增加,有些业务系统的数据记录己达到上亿甚至十亿条(如出入境信息)。用传统的报表统计方法需要过长的运算时间,并且占用大量硬件资源。该系统通过定期数据抽取的方法解决了这个问题。
(5)数据量的增量计算问题。如出入境管理数据量很大,月增近一千多万条。采用增量计算很好的解决了数据更新问题。目前是每10天计算一次。
(6)系统具有整合不同业务系统数据的能力。以前,将两个不同系统的数据放在一起分析是不可能的,或者只能通过手工完成。该系统通过连接不同数据源,建立新的数据模型实现了这一功能。
(7)解决了不同应用数据库之间的关联问题。即把来自不同数据源的数据通过抽取、转换,整和到数据仓库中,从而得到在单一数据库中统计不到的结果。
例如我们将出入境管理、台胞签注资料数据库作了关联分析,就可以很快查到已有过签注资料的台胞实际出入境情况。
在实际应用中,本系统运行情况良好,且己经产生了不少有价值的分析结果和有说服力的分析报告,为各级领导提供决策的科学依据,为业务部门提供有效的信息服务。
..................
参考文献
[1]邵勇.《SQLserver7.0数据仓库框架》[M].武汉:武汉大学出版社,2004
[2]RalphKimballMargyRose. http://sblunwen.com/gasxlw/ 《TheDataWarehouseToolkit(SeeondEdition)》. England:JohnWiley&Sons,2001
[3]张蒲生.《数据仓库技术指南》[M].北京:人民邮电出版社,2005
[4] EriCSperley〔美〕.《企业数据仓库规划建立与实现》[M].北京:人民邮电出版社,2008
[ 5]willialnA.Giovi(美〕.《面向对象数据仓库设计》.北京:机械工业出版社,2006
[6]陈文伟,黄金才.《数据仓库与数据挖掘》[M].北京:电子工业出版社,2006
[7] ClaudiaImhoff,NiCholasGalenuno,JonathanG.Geiger(美).《数据仓库设计》[M].北京:机械_l几业出版社,2003
[8]陈京民.《数据仓库原理、设计与应用》[M].北京:中国水利水电出版社,2006
[9]康博创作室.《 SQLSERVER2000数据仓库设计和使用指南》[M].北京:清华大学出版社,2004
[10]沈兆阳.《SQLSERVER2000OLAP解决方案一数据仓库与ANALYSISSERVICES》[M].北京:清华大学出版社,2005
[11]彭木根.《数据仓库技术与实现》[M].北京:电子工业出版社,2008
[12] SidAdelman:LariSSaTerpelukMosS.薛宇王,剑锋译.《数据仓库项目管理 》[M].北京:清华大学出版社,2005
[13] RalphKimball, MargyRoSS〔美〕.谭明金译.数据仓库一具箱:维度建模的完全指南(第二版)》[M].北京:电子_上业出版社,2007
[14]霍国庆.《企业战略信息管理》[M].北京:科学出版社,2003
[15]张瑞君.《管理信息化理论与实践探索》[M].北京:中国人民大学出版社,2004
[16]詹姆斯·马.《战略数据规划方法学》[M].北京:清华大学出版社,2004
[17]高复先.《信息资源规划》[M].北京:清华大学出版社,2005
[18]夏忠华.《信息五作与企业竞争力》[M].北京:企业管理出版社,1997
[19]周鸿锋.《信息资源开发利用策略》[M].北京:中国发展出版社,2000
[20]徐晓屹.《CIMS计算机集成制造系统知识新解》[M].北京:兵器工业出版社,2006
数据存储技术在公安信息转换系统的设计方法
论文价格:免费
论文用途:其他
编辑:jingju
点击次数:68
Tag: