期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

仓库管理概述模板(10篇)

时间:2024-01-10 10:13:40

仓库管理概述

仓库管理概述例1

中图分类号:TP311 文献标识码:A 文章编号:1009-914X(2015)34-0360-01

一、引言

随着我国经济和社会的发展,近几年以来,我国的法院开始逐渐关注“绩效”这一概念,而且很多法院已经付诸实践,成立审判管理办公室、案件质量评估办公室等部门,以实现对审判流程管理、绩效管理等功能。不过,笔者对当前部分法院已经建设的法院绩效考核系统进行分析后发现,为了节省成本,它们大多都采用了基于数据库的绩效考核系统的设计,但是对于一些案件流量较大、或者业务查询需求量大的法院来说,传统的数据库技术显然不能满足法院绩效考核系统的需求。基于该种背景,本文提出了当前应用热门的数据仓库技术,并对其在法院绩效考核系统中的具体应用进行了分析。

二、数据仓库技术的相关概述

(1)数据仓库概述

数据仓库是基于数据库技术的一种更高级形式,它和数据库有着本质的区别。数据仓库却带有明确的决策支持的性能,和传统的数据库技术相比,数据仓库并非一个替代品,而且在应用方面有着更加深入的基础。

对于数据仓库有以下若干个明显的特征:首先,对于数据仓库来说,其具有面向主题的重要特征,是一种具有集成特征、不容易丢失而且可以根据时间的变化而变化的数据集合;其次,数据仓库具有集成性特征,分散的操作型数据是其主要的来源,其可以将这些操作型数据进行抽取,在抽取的基础上进行集成与加工,然后并入到数据仓库之中;第三,数据仓库具有仓储容量大等特征,比传统数据库存储空间要大很多;第四,针对大型的数据仓库系统来说,又具有扩展性特征,可以根据未来若干年的规划进行合理的结构设计,未来接入的数据仓库系统不需要投入过多成本;最后,数据仓库的处理效率很高,数据仓库能够每天24小时连续运转,有效规避传统的时延问题,以只读格式进行保存是数据仓库的稳定数据主要保存格式,而且不会随着时间的改变而改变。

(2)数据仓库的组成

数据选取、数据存储与管理、应用/查询以及数据挖掘是数据仓库的四个主要组成部分。数据选取是数据仓库的数据基础,它包括从各个OLTP应用中抽取数据源的过程;数据存储与管理的工作主要负责数据的安全性以及共享等;而应用/查询是应用系统与数据仓库之间的接口,所提供的主要用户查询层面上的操作;数据挖掘主要是通过一系列方法对数据仓库和数据库中的数据进行分析和提取,通过对大量数据的分析,从中识别和抽取隐含的、潜在的有用信息。

三、基于数据仓库技术的法院绩效考核系统应用需求

本文对某法院的绩效考核需求进行分析后发现,审判质效、数据准备和系统管理是其中三个非常重要的功能。其中审判质效主要服务的对象对院级领导,可以通过绩效考核系统对该法院的总体工作情况进行反映,为管理者展现最宏观的考核指标,并支持从宏观到微观的逐级关联展现。而数据准备则是在指标进行计算之前,进行的数据采集、质量检查操作,是法院绩效考核系统最为基础的部分,虽然不涉及到核心业务,但是重要性却是非常关键的。如果采集的数据存在着较大的误差,那么就会对计算的结果产生最为直接的影响。系统管理是辅助功能,其中指标配置实现了指标的灵活定义,满足用户个性化需求,统计期和权限维护功能方便了系统的管理。其主要的具体功能划分如下图所示:

四、基于数据仓库技术的法院绩效考核系统具体设计

上文中已经详细论述了法院绩效考核系统的功能需求,下文将主要结合该功能需求,对该系统的具体实现进行详细的分析。

(1)数据仓库设计

上文已经对数据仓库的结构进行了仔细的分析,数据仓库主要包括数据选取、数据存储与管理、应用/查询以及数据挖掘等部分。数据选取也即为数据采集,整个数据仓库就类似于法院绩效考核系统的数据中心,承担着整个系统的数据采集、分析和处理的功能。因此,可以结合法院绩效考核的实际情况对数据仓库的主题、模型等进行设计,以符合整个系统的工作业务模式。

(2)业务流程分析

系统在数据仓库技术的支持下主要分为数据采集、数据上报、数据修改、指标配置以及质效评价等五个业务流程。

1)数据采集:通过该法院绩效考核系统,各个部门的统计员对一些案件或者参数信息进行采集填报,同时评估员也可以针对全院的参数信息进行采集填报,并且可以在统计填报日期内往复操作;

2)数据上报:下级院的评估员将本院所有的参数信息、案件信息在统计填报期范围内上报到上一级法院的相关责任部门。通常情况下会设置一个固定的上报统计周期,当然,如果发现存在错误,可以重新进行填报;

3)数据修改:上一级法院的评估员具有相应的权利对上报的数据进行修改或者重新采集,当然,权限是必须在填报周期之内有效的;

4)指标配置:系统管理员可以按照一定的规则对已经成功采集上来的数据进行指标配置;

5)质效评价:针对在已有的指标体系中进行屯判质量评估,各个业务部门的统计员或者责任部门的评估员等针对已经配置成功的数据,选择相应的计算方式,进行审判质量评估。而同时还可以进行自定义考核。

(3)具体功能描述

整个法院绩效考核系统的具体功能主要分为三大块:公用功能、业务功能以及审判质效评估三个主要方面。公用功能主要包含用户登录、查看案件信息、导出报表、打印报表等等,面向的是所有的系统使用者;业务功能主要包括数据质量检查、自动采集数据、编辑参数、补录参数信息以及数据上报等等。。而审判质效评估则主要包含查看审判概况、查看下级院屯判概况、查看本院庭室审判概况、三级指标评估、二级指标评估、一级指标评估、自定义考核、指标配置列表、新建指标、配置参数、统计期功能等等。公用功能、业务功能以及审判质效评估是整个法院绩效考核系统的关键所在。

五、结语

综上所述,在法院绩效考核系统中应用数据仓库技术,可以极好地解决传统数据库技术不能适应当前法院工作现状的需求。不过,虽然数据仓库可以极好地对传统的法院考核系统的不足进行改进,但是在实际的运用中,仍然需要结合法院的实际情况,在业务规模和成本投入允许的前提下才可以进行数据仓库的改造,以免对资源造成浪费现象的出现。

仓库管理概述例2

0引言

进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。

总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。

1概念框架

空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。

空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。

1.1外部结构

数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。

1.2内部结构

空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。

当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。

2认知过程

2.1认知过程概念图

空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。

2.2认知过程描述

这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。

数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。

由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。

3认知的概念定义

3.1世界模型

实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。

3.1.1现实世界模型

现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。

现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。

本文原文

3.1.3地理工程现实世界模型

地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界中特指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。

3.1.4地理工程概念世界模型

要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界中特指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。

3.1.6地理要素分类世界模型

按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。

3.1.7地理要素编码世界模型

要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。

3.1.8地理要素几何世界模型

为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。

3.1.9地理要素集合世界模型

因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。

定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空间抽取世界模型

地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。

3.1.11地理空间整合世界模型

数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。

定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空间统一世界模型

实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。

3.1.13地理空间产品世界模型

随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。

定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空间决策世界模型

建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。

定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2转换算子

在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。

4结束语

目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。

参考文献:

[1]ZOU Yijiang.The conceptual framework on the multi-scale and spatio-temporal data warehouse[C].Beijing:20th ICC Academic Press,2001:2823-2831.

[2]ZOU Yijiang. The design of spatlatl data warehouse[C]. Bangkok:GeoInformatics & DMGIS’2001 Academic Press,2001:421-426.

[3]ZOU Yijiang.The research of metadata on spatial data warehouse[C]. Durban:21th ICC Academic Press,2003:225-226.

[4]ESRI. ESRI open strategy white papers on SDE/CAD client & spatial data warehousing[EB/OL].(1998).Esri/com/base/compay/opengis.

[5]ESRI. An ESRI white papers,mapping for the data warehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.

[6]TOM B,GRAY J, SLUTZ D.Microsoft terraserver:a spatial data warehouse.microsoft research advanced technology pision[EB/OL].(2004).terraserver.Microsoft.com/.

[7]SHEKHAR S,LU C T,TAN X,et al.A visualization tool for spatial data warehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.

[8]DIMITRIS P.Efficient OLAP operations in spatial data warehouses,HKUST-CS01-01[R]. HongKong:[s.n.],2001:65-69.

[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J]. 遥感学报,2000,4(2):157-160.

[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.

[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.

仓库管理概述例3

0引言

进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。

总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。

1概念框架

空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。

空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。

1.1外部结构

数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。

1.2内部结构

空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。

当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。

2认知过程

2.1认知过程概念图

空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。

2.2认知过程描述

这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。

数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。

由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。

3认知的概念定义

3.1世界模型

实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。

3.1.1现实世界模型

现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。

现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。

本文原文

3.1.3地理工程现实世界模型

地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。

3.1.4地理工程概念世界模型

要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分类世界模型

按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。

3.1.7地理要素编码世界模型

要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。

3.1.8地理要素几何世界模型

为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。

3.1.9地理要素集合世界模型

因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。

定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空间抽取世界模型

地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。

3.1.11地理空间整合世界模型

数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空间统一世界模型

实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。

3.1.13地理空间产品世界模型

随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。

定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空间决策世界模型

建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。

定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2转换算子

在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。

4结束语

目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。

参考文献:

[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.

[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.

[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.

[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.

[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.

[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.

[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.

[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J].遥感学报,2000,4(2):157-160.

[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.

[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.

仓库管理概述例4

0引言

进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。

总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。

1概念框架

空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。

空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。

1.1外部结构

数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。

1.2内部结构

空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。

当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。

2认知过程

2.1认知过程概念图

空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。

2.2认知过程描述

这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。

数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。

由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。

3认知的概念定义

3.1世界模型

实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。

3.1.1现实世界模型

现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。

现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。

本文原文

3.1.3地理工程现实世界模型

地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。

3.1.4地理工程概念世界模型

要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。

3.1.6地理要素分类世界模型

按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。

3.1.7地理要素编码世界模型

要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。

3.1.8地理要素几何世界模型

为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。

3.1.9地理要素集合世界模型

因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。

定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空间抽取世界模型

地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。

3.1.11地理空间整合世界模型

数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空间统一世界模型

实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。

3.1.13地理空间产品世界模型

随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。

定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空间决策世界模型

建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。

定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2转换算子

在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。

4结束语

目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。

参考文献:

[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.

[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.

[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.

[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.

[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.

[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.

[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.

[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J].遥感学报,2000,4(2):157-160.

[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.

[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.

仓库管理概述例5

中图分类号:TP392文献标识码:A文章编号:1009-3044(2007)15-30631-02

On Data Warehouse and Data Mine

SHENG Wei-xiang1,LONG Jia-li2

(1.Department of Science & Law,Jiangxi Vocational College of Politics and Law,Nanchang 330013,China;2.College of Automation, Nanchang Hangkong University,Nanchang 330036,China)

Abstract:The Data Mine is a burgeoning technology,the research about it is developing flourishly.In this paper,it expatiates and analyses the concepts of Data Warehouse andData Mine.Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.

Key words:Data Warehouse;Data Mine

随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失,所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今,高级数据分析――数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域[1]。

1 数据挖掘

1.1数据挖掘定义及实现过程

数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合,更主要的是数据仓库[2]。简单的说,数据挖掘是提取或“挖掘”知识。目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据[1]。从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程[1]。从机器学习的角度,数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息[1]。可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。图1表示的是典型的数据挖掘系统的结构。

过程表述如下:从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘引擎对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上,通过图形用户界面,用户可以方便的与数据挖掘系统之间通信,实现对数据的使用。

1.2数据挖掘分类

数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘系统。掌握数据挖掘系统的不同非类,可以帮助用户确定最适合的数据挖掘系统[1]。

图1 典型的数据挖掘系统的结构

(1)根据所挖掘数据库类型的不同来分类:有关系型数据挖掘系统、对象型数据挖掘系统、对象-关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统,等等。

(2)根据所挖掘的知识类型来分类:分为特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(3)根据所采用技术的分类:有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。

(4)根据数据挖掘方法来分类:如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方法等。

(5)根据数据挖掘应用的分类:有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等,不同的应用通常需要集成对于该应用特别有效果的方法。因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。

1.3数据挖掘任务

数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测[3]。

关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理,可以建立起这些数据项的关联准则。

通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。

数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。

分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。

数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。

预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。近年来,发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但是分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测两者都可用。

2 数据仓库概述

数据仓库对不同的使用者、不同的操作范围,它有不同的意义。被誉为数据仓库之父的W.H.Inmom将数据仓库(Data Warehouse)定义为[4]:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库具有以下特征:

(1)数据是面向主题的

传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。而现今的数据仓库是有较强主题组织性的,高层次地将数据归类,去除无用的数据。

(2)数据的集成性

因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。

(3)数据的相对稳定性

数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。

(4)数据的不易失性(长期性)

数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时间效果,这样才能更好的体现历史数据的趋势预测性。

3 数据仓库与数据挖掘的关系

既然数据仓库的唯一功能是向终端用户提供信息以支持决策者,数据挖掘体现了数据仓库的一个最重要的应用。与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。这种信息虽然很难提取,但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润[5]。

从数据仓库的观点,数据挖掘可以看作是联机分析处理的高级阶段。但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总分析要详细和深入的多。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热门的原因之一。但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,同时,数据挖掘仍然经常被看做是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有最丰富的数据资源可供挖掘。显然,数据仓库被更为广泛地接受将使人们对数据挖掘更感兴趣。

从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经得到解决了。

数据挖掘库可能是数据仓库的一个逻辑子集,而不一定非得是物理上单独的数据库。但如果数据仓库的集中资源已经很紧张,那最好还是建立一个单独的数据挖掘库。

为了数据挖掘库,也不是一定要建立一个数据库。因为建立一个巨大的数据仓库,要把各个不同资源的数据集中在一起,并解决所有的数据冲突问题,然后把所有的数据导入一个数据仓库内,是一项非常巨大的工程,比较麻烦,需要时间和金钱的花费。如果只是为了数据挖掘,可以把一个或几个数据库导到一个只读的数据库中,就把它当作数据集合,然后在这上面进行数据挖掘。其中如何抽取、集成、筛选并准备数据以解决其最为紧迫的业务问题,将是分析人员在进行数据挖掘时所面临的最大挑战。解决这些问题,不仅是数据挖掘过程中的一个艰巨任务,而且需要耗费大量的时间。尽管在数据挖掘中并非一定要有数据仓库的支持,但数据仓库的确为数据集成和准备提供了一个好办法。

4 总结

构造在数据仓库平台的数据挖掘具有很强的实用性,效率很高,节省资源。目前,数据仓库和数据挖掘技术在科学研究、市场流通、企业管理等应用方面已经达到了一定的水平。随着信息化的加强,数据仓库的多维化和数据挖掘的效率化将更有效的结合起来,促进整个信息产业的发展。

参考文献:

[1]焦李成.等.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社.2006.8:1-7.

[2]Dustin R Callaway.精通Servlets[M].北京:清华大学出版社.2002:20-45.

[3]陈文伟.等.数据挖掘技术[M].北京:北京工业大学出版社.2002.12:1-6.

仓库管理概述例6

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)11-20211-03

1 引言

随着税收信息化的快速发展,使各级税务部门积累了大量的业务数据,如何充分利用这些宝贵的数据,从中总结出税收工作的发展规律,为税收管理、政策制定提供依据,是税收信息化发展过程中面临的一个重大课题。同时,税务管理任务从粗放型管理向精细型管理的转变,从强制型管理向威慑型管理的转变,也必须采用一些先进的分析手段,为管理者和决策者提供统一的应用服务系统。为此各地税务机关纷纷提出了建立数据仓库系统的目标。

2 数据仓库技术

2.1 概念

数据仓库概念的提出者、美国著名信息工程专家 William H.Inmon 博士在其著作《Building the Data Warehouse》一书中对数据仓库给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解。首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

2.2 数据仓库的特点

根据数据仓库概念的含义,数据仓库有如下特点:

(1)面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统有关。

(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

(4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

2.3 数据仓库基本的体系结构

为了能够将已有的数据源提取出来,并组织成用于决策分析所需的综合数据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分:

(1)数据源。指为数据仓库提供最底层数据的运做数据库系统及外部数据。

(2)监视器。负责感知数据源发生的变化,并按数据仓库的需求提取数据。

(3)集成器。将从运做数据库中提取的数据经过转换、计算、综合等操作,并集成到数据仓库中。

(4)数据仓库。存储已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任务变化,以支持数据仓库的开发和使用。

(5)客户应用。提供用户对数据仓库中的数据进行访问查询,并以直观的方法表示分析结果的工具。

3 税务数据仓库系统的设计

3.1 基于WEB的数据仓库系统的体系结构

本系统采用如图2的典型结构来实现数据仓库系统。其中应用服务器的主要功能是: 接收从浏览器经过WEB服务器发送过来的查询要求,并负责从数据仓库或元数据目录获得查询结果; 再将查询结果转化成合适的形式传回给WEB服务器。而WEB服务器负责接收从浏览器发送的HTTP 请求,再将查询结果以HTML 的形式返回给浏览器。

3.2 系统架构图

整个业务系统主要由数据源、ETL过程、数据仓库平台、BI服务器、前端报表展示和分析系统(Web服务器)组成。系统结构如图3所示:

为了便于了解,对上图简单说明如下:

(1)数据源层:也可称作操作型数据层,是整个数据仓库的基础,提供了整个系统最原始的数据。通常为业务数据库和其他外部数据。

(2)数据获取层:也可称作数据转换层,主要是把数据源层的数据通过ETL过程转换到数据仓库中,这一层在一定程度上决定着数据仓库中数据的质量。

(3)数据分析服务层:该层是数据存储和前端分析工具的桥梁,它包括OLAP分析引擎、安全控制机制等等,能按照用户的要求设计、生成具有多维分析功能的分析主题,予以组织,以便进行多角度、多层次的分析,并发现趋势。它们响应前端用户的分析请求,将多维数据传送给前端的分析工具显示。

(4)前端展现层:在用户眼中,用户界面的显示才是最重要的,本系统中采用MicroStrategy公司的BI软件来设计基于Web的数据展现和图形展现,并提供给用户多种查询方式,能根据用户要求钻取到相关层,获得相关的明细数据。

3.3 数据源的确定

数据来源既有可能是来自应用程序的关系型数据库,比如表格或者电子数据表;也有可能包含非结构化的信息,比如纯文本文件或者其他多媒体信息。目前,该系统数据源主要来自于税收征管业务系统数据库中的户管数据、征收数据、发票数据和稽查数据,随着系统的进一步建设和功能的进一步完善,数据源还会包括将来外部产生的工商数据、车管所数据、国库数据、社保数据及相关的数据源。

3.4 数据的提取和装载 (ETL过程)

ETL指的是数据抽取、转换、加载的过程,其目的是从数据源中抽取该系统所需要的数据,对其进行检验和清洗,并根据数据仓库设计要求对数据进行重新组织和加工,并装载到数据仓库的目标数据库中。在该系统中这部分的工作主要由ETL工具来完成数据的采集,首先使用ETL工具完成从数据源到ODS(数据缓冲)的数据采集,再从数据缓冲区中将数据导入到数据仓库中。

数据仓库存放的是市地税局所有的历史数据,数据仓库会根据系统不同的应用生成面向主题的数据集市,这些数据集市是该数据仓库所拥有信息的子集,目的是为一些更大的操作型和决策支持系统提供数据源,同时也为进一步的挖掘提供应用服务。

3.5 主题分析和数据建模

由于数据仓库在规模大小、集成程序和体系结构方面都与传统的数据库不同,因此传统的数据结构无法满足其要求,必须寻找一种新的数据结构来描述数据模型。在该系统的数据分析中会涉及到大量的OLAP操作,包括切片、切块、旋转和钻取等,通过对税务系统大量数据的分析,并结合数据仓库环境的特点,我们选定星型模式来描述数据模型。星型模式通常由一个包含主题的事实表和多个包含事实的非规范化的维表组成,通过事实表将各种不同的维表连接起来,维表中的对象通过事实表与另一维表中的对象相关,这样建立各个维表对象之间的联系。

为了给决策分析者提供不同的分析角度,每个主题的数据都采用数据集市的方式存贮。根据业务需求的划分,我们将税务数据仓库系统按要求划分为以下几个主题:稽查选案主题、发票主题、征收主题、户管主题、纳税人认定主题。这里,限于篇幅,我们只以发票这一主题为例进行阐述。在该主题中,我们可以查询到纳税人购买发票情况和窗口购票汇总情况。

通过分析我们得到查询的维度有时间维(年、季度、月、日期),发票类型维(发票代码、发票名称、有效起始期、有效终止期),发票基本信息维(发票种类、单价、规格、来源、类型等相关信息),发票库房维(库房编号、库房名称、发票有效起始期、发票有效终止期),税务机关维(市局编号、市局名、分局编号、分局名、税务所编号、税务所名称、生效日期、终止日期),税管员维(税管员编号、税管员姓名、类型、生效日期、终止日期)。事实表和维表之间采用能更好地进行数据检索和查询的星型架构,如图4所示。

4 结束语

通过该数据仓库系统的建立,市地税局的管理者和决策者可以通过浏览器,在网络的任意位置进行查询和分析,用户能以更快的查询返回速度、更友好的界面、更丰富的图表形式来实现即席查询、动态报表和多维分析,达到了预期的目标。增强了管理者的决策能力,获取了更好的管理效果和竞争优势,对提高税务的信息化水平及竞争能力具有极其重要的意义。

参考文献:

[1] 陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004.

[2] 夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.

仓库管理概述例7

中图分类号:TP274文献标识码:A文章编号:1007-9599 (2010) 03-0072-03

The Construction of Revenue Data Application System Based on

Datawarehouse Technology

Yin Songtao1,Zhao Weiwei2

(1.Jiangsu Local Taxation Bureau,Nanjing 210024,China;

2.Jiangsu Entry-Exit Inspectin and Qunarantine Bureau,Nanjing 210001,China)

Abstract: Based on the data warehouse technology, this article has designed the macrostructure of revenue data application system,and has researched its components ,including data processing platform, data storage platform, application services platform-OLAP engine, data presentation platform and metadata management platform, finally proposed the next step research direction.

Keywords: Datawarehouse;Revenue System;Data Application;OLAP

一、引言

随着全国税务行业信息化建设的不断深化发展,各级税务机关通过开发各类税收业务系统,已基本完成各类税收业务数据的电子化采集工作,但这些系统很多是不同时期和不同渠道建设的,普遍缺少对这些宝贵数据系统、科学、灵活、有效的分析利用,无法将其从“数据”转化成为“信息”,从而真正体现信息化技术对税收管理工作的核心支撑和驱动作用,因此研究税务系统的数据应用系统建设,具有重要的理论意义和现实价值。

本文主要阐述如何借助业界成熟的数据仓库技术来构建一整套面向各级税务机关的税收数据应用系统。通过对各类现有数据进行归并整合,使之成为一个可扩展的综合数据应用平台,从而提高税收数据资源利用率,实现信息技术手段对税收日常管理工作的辅助决策支持作用。文章主要分析了“数据仓库”的基本概念和分层架构等,同时基于数据仓库技术,提出了税务数据应用系统的宏观架构,并对其中的数据加工平台、数据存储平台、应用服务平台-OLAP引擎、数据展现平台以及元数据管理平台等各组成平台进行了研究分析。

二、数据仓库概述

数据仓库概念始于20世纪80年代中期,首次出现在被称为“数据仓库之父”WiiliamH.Inmon编写的《建立数据仓库》一书中:“数据仓库是在企业管理和决策中面向主题的、集成的、不可更新的,随时间不断变化的数据集合”。换言之,数据仓库是数据积累、信息需求增长的产物,其目标是达到有效的决策支持,但它不是数据的简单堆积,而是从大量的事务型数据库中抽取数据,并将其按照管理目标的不同进行分类清理、转换、整合成为新的特殊存储格式,随着此过程的不断发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库。

数据仓库的最终目标是尽可能让决策者能够方便、有效和准确地使用数据仓库,但这仅靠数据仓库本身是难以实现的,必须再加上数据仓库前道的数据加工和后道的分析展现才能真正实现这一目的,而这一套完整的动态体系架构我们就称之为“数据仓库系统”。在Jiawei Han和Micheline Kmaber编著的《数据挖掘概念与技术》一书中,对于数据仓库系统划分了四个层次,具体由图1表示。

图1数据仓库系统体系结构

三、税收数据应用系统设计

宏观架构设计。鉴于税收数据应用系统的特殊性,与现有传统数据采集型生

产系统在体系架构、建模方式、应用重点等方面都有较大差异,可以看作是基于数据仓库技术的数据仓库系统的一类具体行业性应用,也应按照上述四层体系结构来建设,因此我们提出采用数据仓库的思想和体系架构来建设税收数据应用系统。根据税收数据应用系统建设的要求,税收数据应用系统的宏观架构见图2。

图2税收数据应用系统宏观架构

税收数据应用系统由从下自上的五大分层平台共同构成:

(一)数据加工平台:实现不同数据之间的传递和加工,由一系列数据加工处理服务组成,包括数据交换/采集服务、数据审计(产生推送数据和预警数据,完成数据质量检查和校验)、ETL(实现不同数据模型之间的抽取、清洗、加工、转换、装载)、数据挖掘等。

(二)数据存储平台:保存税收数据应用系统中涉及的各种数据,并进行分类设计和存放。按照数据库存储数据的类型和作用分为:业务数据库、采集/交换数据库、ODS操作数据存储(主要是各类实时性比较高的明细型数据,例如一户式、一员式数据等,同时其中还包括数据审计产生的面向各级用户的各类预警/推送数据)、数据仓库/数据集市、元数据控制数据等数据库。通过这些不同类型的数据库划分,既满足不同类型应用程序的差异,又便于日常的管理维护。

(三)应用服务平台:以相对平台化的服务提供应用开发的基础平台和运行部署平台。具体包括业务处理、数据服务、采集交换、预警推送、实体查询、查询分析、报表加工、门户控制和元数据等主要功能。

(四)数据展现平台:将通过应用服务平台加工处理后的数据以丰富多样的形式展现给最终用户,就目前税务系统常见的展现需求而言,主要包括以下几种形式:明细查询、实体查询、多维分析、趋势分析、对比分析、排名分析、固定报表、MDX分析、图形展现等。

(五)元数据管理平台:提供应用开发人员和系统维护人员对各类元数据进行开发、维护和管理监控的平台。

在上述五项分层平台的基础上,即可搭建我们的各项应用系统,就税务行业而言,目前根据应用模式基本可以初步划分为:面向业务处理的征管信息系统、面向纳税人服务的电子申报系统和面向决策分析的税收数据应用系统,这三者通过门户手段整合到一个门户系统中。税收数据应用系统是比较全面的应用系统建设,由于篇幅所限,我们这里重点阐述整体系统架构中的数据加工平台、数据存储平台、应用服务平台中与OLAP相关的部分、数据展现平台以及元数据管理平台。

1.数据加工平台。

数据加工平台由数据加工服务器、管理监控平台、数据加工规则三部分组成,实现从源数据(一个或多个)到目标数据(一个或多个)的数据加工,系统的结构见图3。

图3数据加工平台总体结构

2.数据存储平台。

税收数据应用系统的核心在于数据的科学、合理的存储和管理,从数据类型划分、数据分布、数据用途、数据时效性等角度进行分类和设计,税收数据应用系统中包括以下类型的数据:

(1)业务明细数据:由业务处理系统产生和管理,数据的组织以业务处理

(OLTP)为主,数据时效性要求比较高,通常只保存近期(二至三年内且处于活动状态)的数据,业务明细以满足业务处理的性能作为中心进行结构设计,通常基于ER模型(实体-关系模型)进行设计和存储。

(2)操作型数据存储(ODS):通过数据抽取从业务系统数据库获得的数据,或通过数据采集/交换系统直接录入的各种业务数据,可以直接提供各种明细数据的查询服务,数据的时效性为接近实时,数据结构组织上贴近于业务处理系统。

(3)历史明细数据:由业务处理系统和ODS数据库中迁移出来,通过一定的数据清洗和转换后形成的历史明细数据;历史明细数据通常为处于稳定(不再发生变化)的数据,对历史明细数据访问的时效性要求通常不高,历史明细数据即数据仓库中的细节数据,历史明细数据满足对业务历史数据的访问要求。

(4)主题分析数据:从历史明细数据基础上通过数据的加工和聚合产生的业务分析数据,业务分析数据通过以业务主题为中心,主题分析数据的数据时效性要求不高。

通过这种不同粒度和不同层次的标准划分,来满足各类用户的数据应用需求,结合税务系统而言:对于一线税管员而言,他关心的是所管辖的每户纳税人的当月申报明细数据,以便确认该纳税人是否按期、按项、足额纳税;对于中层科所长而言,他关心的是本单位的各类轻度汇总的统计报表,以便及时调整近期的管理重点和管理方式;对于局领导而言,他关心的则是所辖各单位的高度综合数据,以便确保宏观整体工作进度,例如省局局领导所关心的是各省辖市局的最新税收入库数和计划完成数,相反他不会去关心某个纳税人当月的纳税项目和纳税金额。

3.应用服务平台-OLAP。

目前市面上有很多OLAP引擎的第三方产品,虽然种类众多,但使用基本一致。例如:Mondrian是一个使用Java开发的开放源代码的ROLAP服务器[3]。它实现了XMLA(Xml For Analysis)和JOLAP(Java Online Analytical Processing)规范,而且自定义了一种使用MDX语言的客户端接口。在功能上,Mondrian支持共享维和成员计算,支持星型模型和雪花模型的功能。

4.数据展现平台。

数据仓库的数据以及分析结果需要用一种灵活的方式展现出来,其中包括报表、查询、多维分析等多种方式提供给最终用户使用。通过对税收管理决策业务的分析,我们认为数据展现平台重点不在于其实现了多少功能,而在于其是否支持灵活扩展性,我们需要的是对于大部分查询、统计、报表、分析而言都能够由操作人员根据实际需要动态配置后即可使用,而不能是固化在程序中无法修改调整,即大部分的应用功能应基于应用开发平台配置生成,无需编码。因此我们考虑数据展现平台应至少由以下三部分组成:

(1)数据展现器:提供最终用户使用的数据展现器,实现数据的展现功能。其应能实现门户管理、通用查询、通用报表和通用分析等功能。

(2)数据展现设计器:提供开发人员使用的设计工具,完成数据展现功能的设计和开发。

(3)资料库和控制库:资料库和控制库中保存数据展现相关的各种元数据,包括用户、组、角色、功能定义、权限、数据源等,可以以XML文件形式进行保存。

5.元数据管理平台。

元数据管理是数据仓库系统中提出的概念,“元数据”即描述数据的数据,用来对数据的定义和内涵进行描述,便于使用人员(包括技术人员和业务人员)理解数据库和数据仓库保存的、及应用功能中展现的各种数据,包括数据的格式、含义、加工过程、业务算法等,形成对数据全方面的理解,并在此基础上形成对数据的分析和应用。根据上述对元数据的定义,元数据管理平台将元数据划分为以下几种:

(1)业务元数据:即数据标准定义,主要实现税收数据应用系统中的涉及的税务术语的统一定义和管理。

(2)模型元数据:对保存在数据库、数据仓库、数据集市中的数据项的结构和含义进行描述。

(3)ETL元数据:对数据加工处理过程中的指标数据的加工过程和业务算法进行描述。

(4)应用元数据:对数据分析利用阶段的业务功能的内容、指标的口径和算法进行描述。

四、总结和展望

本文设计了税务数据仓库的宏观体系架构,并对其中的数据加工、数据存储、OLAP引擎、数据展现平台以及元数据管理等设计工作进行了研究。但还有如下几方面内容需要进一步考虑:

(一)税务系统的数据仓库建成之后规模一般都很大,从建立之初就要保证它的可管理性,需要进一步解决如何使数据可用性和系统稳定性达到最大,并优化性能;在数据仓库的应用中迅速反映变化的业务环境;管理数据仓库应用程序的生命周期等。

(二)现有数据应用系统主要是针对关系型结构化数据的分析应用,随着税收信息化应用的不断深化,电子照片方式的档案资料将会更为增多,这些资料在提高数据的准确性方面和降低税务人员的录入工作量方面具有非常重要的现实意义,如何加强此类非结构化数据的应用将是下一步的一项重要工作内容。

(三)随着近几年DW2.0概念的提出,我们将结合DW2.0的思路,对现有的中心数据仓库进一步划分为:交互区、整合区、近线区和归档区[4],以进一步区分不同的数据类型,同时对VODS(虚拟操作数据存储)等新技术进行分析。

参考文献:

[1]W.H.Inmon.Building the Data Warehouse[M].JohnWiley&Sons Inc,1993

[2]Jiawei Han,Micheline Kmaber.数据挖掘概念与技术[M].范明等.北京:机械工业出版社,2001:61-67

[3]Mondrian[EB/OL].Sourceforge网站Mondrian专题,2007,1,26

[4]W.H.Inmon.DW2.0 WHITE PAPER[EB/OL].Inmoncif网站DW2.0专题,2006

仓库管理概述例8

1. 引言

随着中国加入WTO和国内电信行业的改革重组,电信市场正逐步放开。为了保持竞争的优势,各运营商管理层和业务人员必须能实时了解企业的运行状况,获取各个专题的市场信息,并根据市场反馈的情况随时调整业务策略,以求在竞争激烈的电信市场中赢得先机抢占市场,获得更好的利润并提升企业品牌形象。如今各电信运营商的业务支持系统构成复杂,数据种类繁多,数据量极为庞大,信息的提供在速度、质量和范围上不能满足市场竞争所要求的标准,为此各运营商纷纷针对企业内部的实际情况,着手引入数据仓库技术,以整合内部的各业务系统分散、孤立的业务数据,提供方便快捷的数据访问手段,支持企业内部不同部门、不同需求、不同层次的用户随时获得自己所需的信息,促进企业“以客户为中心”的运营模式的开展,以提高企业的核心竞争力。

2. 数据仓库的概念

随着商业智能技术的成熟和并行数据库的发展,信息处理技术的发展趋势已变为:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,也就是为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse,DW)。数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数据集成到一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的作用。数据仓库概念的创始人W.H.Inmon在《建立数据仓库》一书中指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程。” 数据仓库的体系架构如下图所示:

                  图1  数据仓库的体系架构图

从图1可以看出,数据仓库系统包括四大部分:数据装载、数据管理、信息访问和系统管理与维护。它描述了数据仓库系统的数据源(即业务系统或者其它OLTP系统)、相应的数据转换ETL((Extraction、Transformation、Loading)过程(指把数据从数据源转换并加载到中央数据仓库的过程)、中央数据仓库、对数据仓库信息的访问(通过一般的OLAP工具进行访问或者进行数据挖掘等)、以及对整个数据仓库系统的管理与维护(元数据服务、数据库建模与管理、系统管理、操作管理、专业技术服务等)。从这个框架结构图可以清楚地看出,数据仓库系统是一个由许多产品、模块、及服务构成的复杂解决方案,而决非某一个单纯的产品。

3. 数据仓库在电信企业中的应用

电信行业数据仓库解决方案系统一般包括应用系统部分、中央数据仓库系统部分,数据源系统部分三大部分。

电信行业数据仓库解决方案数据源主要来自电信各业务系统,包括计费系统、营业系统、客服系统、财务系统、结算系统、网管系统、114系统、118系统、电信网络资源管理系统以及其它系统,此外数据源还有来自电信系统外的数据,如人口统计、社会各企业的财务数据、银行数据等。

中央数据仓库系统主要解决如下问题:建立企业统一的业务视图,建立一个高效、线性可扩展的基础平台,建立一套自动的数据抽取、转换、加载流程,建立一个符合业务需求、可扩展的数据模型,建立一套高可靠的安全管理机制。

除此之外,电信企业还可以利用数据仓库实现企业数据整合、用于财务分析和网络分析。

4. 结束语

仓库管理概述例9

中图分类号:TP391文献标识码:A

文章编号:1004-373X(2010)08-0130-04

Research on Modeling of Flight Parameters Data Warehouse

GUO Hong-ning, NAN Jian-guo, WAN Ming

(Engineering Institute, AirForce Engineering University, Xi’an 710038, China)

Abstract: According to the practical problems that the departments of aircraft maintenance are faced with such as great amount of flight parameter data,andlow capability of data analysis and processing which caused numerous data to beturned into information trash, the flight parameter data warehouse model is brought up, as well as the concept model, logical model, physical model, metadata model and granularity model of flight parameters. The existing physical model was improved by combining RAID 5 technology with data warehouse physical model theory. As a result, the store device reliability was enhanced and the system response time was shortened.

Keywords: flight parameter; data warehouse; star schema; physical model; metadata model; granularity model

0 引 言

飞参系统是飞行参数记录与处理系统的简称,用于对飞机各系统工作状态参数进行测量、记录与处理[1]。飞参系统的使用,将使部队在机务维护、飞行训练、事故分析等各个方面的保障训练水平有了很大提高,但是目前飞参系统在使用上存在着分析手段落后,分析工具欠缺等问题,使大量的飞参数据得不到有效利用[2]。因此,探索先进的飞参数据分析手段,研制适用的飞参数据分析工具已成为当务之急。

数据仓库及数据挖掘技术的出现,为解决装备信息化过程中数据与处理手段的矛盾提供了途径。数据仓库是一种概念或称为模式,而非一种产品。在此,基于数据仓库技术建立的飞参数据分析系统模型,为飞参数据的管理与分析探索出了一种有效的模式。它的目标是有效地对庞大的飞参数据进行深层分析,从中发现隐藏在大量数据背后的各种信息,进而辅助飞机维修人员和飞行人员在执行保障和训练任务时更好地进行决策。

1 飞参数据多维数据模型

1.1 飞参数据多维数据模型设计

“面向主题”是数据仓库中数据组织的基本原则。数据仓库的构造过程,首先就是确定主题的过程。数据仓库的设计者必须明确该数据仓库的用途,并将其归纳为若干具体的、易于利用数据组织并加以分析的主题[3]。根据对部队实际需求的详细调研,部队的维护工作及飞参数据的使用情况具有如下特点:

(1) 维护数据的孤立性。现有飞参数据只是孤立地存储于以架次为单位的数据文件中。在进行数据分析时,各专业人员从当前架次数据文件中检索出本专业的相关数据进行分析。这种检索模式使得一次只能对单一架次的数据进行分析,不仅存在检索效率低下的问题,同时难以对某架飞机历史数据进行过程分析,更不能对某型飞机进行更深入的综合分析。

(2) 故障分析的单一性。飞参数据的使用者往往是就某一故障而分析某一故障,而这一故障中隐含的其他信息是得不到充分挖掘的。例如,有些并发故障、次生故障难以发现,这些问题都造成现有飞参数据分析手段与能力的不足。

(3) 维护工作的专业性强。飞机的维护工作通常是按专业来划分的(如机械、电子等),对维护人员的知识结构、工作经验等的专业性要求很强。然而,相应的机务部队的编制体制也是按照专业来规划的,所以各专业的独立性很强,同时各专业间也有交联。

综合以上特点不难得出,具体的飞参数据主题应围绕着各个专业而组织,只有以专业分析主题为依据来规划数据的组织,才能保证数据仓库的内容逻辑清楚、条理明晰、脉络分明,从而更好地适应维护工作。同时,主题的抽取必须体现出独立性和明确性的特点,即主题要有独立的内涵,各主题之间要有明确的界限,不应有依存关系。要保证与主题相关的所有数据都能得到正确的组织,避免数据的缺失与冗余。综合以上因素,结合数据仓库的主题组织原则、飞机本身的个体特征以及飞参数据产生的时序性,将整个数据仓库系统的数据模型划分为三个维度:

主题维 包括四个维护专业主题和飞行训练评估主题共五个主题。

型号维 包括飞机机型与编号信息。

时间维 包括日期与架次信息。

飞参数据仓库的三维数据模型如图1所示。

图1 飞参数据仓库的三维数据模型

1.2 飞参数据多维数据模型的OLAP应用

基参数据仓库的三维数据模型,既可以涵盖原有飞参数据的分析方法,又能够在多维空间中实现OLAP分析,为飞机故障的发现、决策辅助、故障分析与预测等提供先进的平台与技术手段。

联机分析处理OLAP是一种决策分析工具,它可以根据决策分析者的角度将数据进行分类与运算,对大量数据进行复杂的查询处理,并以直观、易理解的形式将查询结果提供给决策分析者[4]。OLAP是基于数据仓库的信息分析处理过程,是数据仓库中用户的接口部分。对同一主题的数据,OLAP展现可以在不同的角度对数据进行展示,用户可以根据需要,随意组合展示角度和展示方式。在分析的过程中,用户可以选定所有的角度,既可以在各种角度的综合作用下进行分析,也可以只选择自己感兴趣的角度进行分析。例如,可以进行下列不同角度的展现:某飞机在各个时间段内的故障趋势及同期比;某飞机在各个专业内的故障趋势及同期比;某单位在各个机型内的故障趋势及同期比;某段时间内,故障时间和完好时间在总工作时间量中所占的比重等。

分析时除了灵活选择地维度外,系统还支持在某一维度上的钻取分析。例如,在按照主题分类和时间角度对飞机进行分析时,用户可以根据需要采取向下钻取(Drill)的分析方式,查看时间角度上更细节的数据,如查看每个季度每月的数据或只查看某一季度下面三个月的数据。

2 飞参数据仓库建模

飞行参数多维数据模型仅从数据层面上对飞参数据进行分析,而建立飞参数据仓库还要采取下列步骤:在数据仓库的构建过程中,将客观事物从现实世界的存在到计算机内物理实现的抽象过程划分为四个阶段,即现实世界(Real World)、概念世界(Concept World)、逻辑世界(Logical World)和计算机世界(Computer World)。与概念世界、逻辑世界和计算机世界相对应的数据模型,分别为概念模型(Concept Model)、逻辑模型(Logical Model)和物理模型(Physical Model),这是在数据仓库开发过程中需要使用的三种模型[5]。描述数据仓库的各种数据模型,除了上面提到的三种外,还有元数据模型和粒度模型。图2给出了数据仓库构造过程中各种数据模型的层次及相互关系。

图2 数据仓库构造过程中的各种数据模型

2.1 概念模型

概念模型的设计主要是确定数据仓库中应该包含的数据类及其相互关系。概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不必考虑具体技术条件的限制。目前,常用的概念数据模型有星型模式、雪花模式和事实星座模式三种。星型模式是一种非常简洁的数据仓库概念模型,它可以准确地反映出各实体之间的逻辑关系,并依据实体的重要程度,将这种关系展示出来[6]。雪花模式是在星型模式的基础上拓展而来的,它是在事实表和维度表的基础上,增加了详细类别表,用于对维度表进行描述。事实星座模式需要多个事实表共享维度表,因而可以视为星型模式的集合。在设计中为了提高查询性能和便于用户安排不同的查询,采用了星形模式,其概念模型如图3所示。

图3 飞参数据仓库的星型概念模型

2.2 逻辑模型

逻辑数据模型,是从概念模型过渡到物理模型的中间层次,因此又称为中间层模型。可以认为它是数据仓库开发者与使用者之间,就数据仓库的开发进行交流和讨论的工具和平台。通过逻辑模型,设计者可向数据仓库的用户提供比概念模型更为详细的“系统功能结构图”。开发者的任务就是要保证逻辑模型的完整性和正确性,并能满足用户的使用需求。这里的逻辑数据模型设计,主要参照了各个主题的相关专业知识。图4中的飞行数据为初始数据组,它体现了发动机实体的本质特征。出厂原始数据和出厂日期为二次数据组,它们通过链接部件与初始数据组相连,对初始数据组的内容和属性加以详细说明;其余部分为类型数据组,它可以理解为在初始数据组主题下,逐渐细化的分类数据,相对靠左侧的是超类型数据组,相对靠右侧的称为子类型数据组。

图4 飞参数据仓库的逻辑模型

2.3 物理模型

数据仓库的物理数据模型指逻辑模型在计算机世界中的具体实现方法,包括物理存取方式的设计、数据存储结构的构造、数据存放位置的确定等。物理模型设计的主要内容包括以下几个方面:

(1) 数据存储结构的确定。作为数据仓库的基础,数据库管理系统(DBMS)往往可以向用户提供多种存储结构,每种存储结构各有其独特的实现方式。在利用DBMS构建数据仓库时,应当统一考虑飞行数据的存储时间、空间效率、数据维护成本等各方面因素,选用合适的存储结构。

(2) 索引策略的确定。飞参数据仓库中的数据量十分庞大,远远超过一般的业务数据库系统。但数据仓库的内容更新频率却不高,往往采用定期导入新数据的方法。因此,为有效提高数据仓库的运行效率,可在对常见查询请求所访问的数据进行分析的基础上,设计建立较为复杂的索引策略。由参数据仓库的内容具有非易失性,因此尽管设计和建立索引的工作量较大,维护却较为简单。

(3) 数据存放位置的确定。不同的数据存储介质各具特点,目前硬盘的价格已经很低,可以采用磁盘冗余阵列存储数据,既提高了访问性能,又提高了可靠性。

(4) 存储分配参数的确定。在创建传统数据库的工作中,一项重要的内容就是确定一些具体的、与数据存储分配相关的参数,如数据块的大小,缓冲区的大小,以及缓冲区的数量等。飞参数据仓库是依托DBMS而建立的,因此在创建飞参数据仓库时,必须进行这一步工作。这一部分的工作主要集中在将数据仓库的模型结合实际的系统加以物化的过程。

飞参数据仓库系统与其他业务系统不同,尤其需要分析决策的实时性,这是由作战的最终用途所决定的。为有效地实现对作战的保障,还要求系统的可靠性要高。基于以上特点,飞参数据仓库系统物理结构采用双节点多处理器的服务器,共享存储空间。存储系统采用大容量的廉价冗余磁盘阵列(RAID5)系统。具体的物理结构如图5所示。采用RAID5系统的优点是:可提高磁盘的I/O性能和提供容错能力,磁盘的利用率较高,这样既缩短了系统的数据访问响应时间,又提高了系统的可靠性。

图5 飞参数据仓库物理结构

2.4 元数据模型

元数据的主要作用是对飞参数据仓库中各专业数据的性质做出说明,从而使每个数据都有确切的含义[7]。在数据仓库建立过程中,元数据起着十分重要的作用,他所描述的对象,涉及数据仓库的各个方面。根据用户对数据仓库的认识和使用目的,可将元数据划分为两大类,如图6所示。

图6 元数据的分类及作用

(1) 技术元数据(Technical Metadata)。它将开发工具、应用程序以及数据仓库系统联系在一起,对分析、设计、开发等所有技术环节进行详细说明。技术元数据主要供飞参数据仓库的数据仓库管理人员和应用开发人员使用,为技术人员维护和扩展系统,提供了一个详细的说明书和结构图 [8]。它所包含的内容如表1所示。

表1 技术元数据的内容

项目作 用

基础数据信息对飞参数据仓库和OLAP系统的体系结构与实施方案做出详细的描述

抽取调度信息说明飞参数据从数据源中经过抽取、清洗、转换,最终进入数据仓库的方法

映射依赖信息对飞参数据仓库内部各表之间的依赖、映射关系,表与视图的对应关系,中间表与源表的依存关系等,做出详细的解释

其他技术信息介绍系统导入的元数据、特定用户所产生元数据的情况

(2) 专业元数据(Speciality Metadata)。专业元数据是通用专业术语和关于数据仓库中上下文信息的集合,它是联系用户和数据仓库中数据的桥梁,为用户提供了有关数据仓库的整体结构视图。专业元数据包含有面向应用的文档(系统简介、使用导航等),以及各种术语的定义及所有报表的细节[9]。具体内容如表2所示。

2.5 粒度模型

粒度指数据仓库中记录数据或对数据进行综合时所用的时间段参数,它决定了数据仓库中所存储数据单元在时间上的详细程度和级别[10]。粒度的确定没有绝对严格的标准,它是在对飞行参数数据模型深入了解的基础上,对分析需求、系统开销、软件能力等各方面因素进行综合考虑后的折中,粒度确定过程的本身也是一个决策过程。

表2 专业元数据的内容

项 目作用

飞机概念信息介绍飞机的专业概念和数据模型,说明各专业之间的关系,从而为用户提供帮助

多维数据信息对飞机概念信息的进一步细化与深化,为用户提供多维数据仓库中有关维定义、维类别、数据立方体,以及数据集市的聚合原则等方面信息

数据依存信息描述飞参数据模型与物理数据间的依存、对应关系,说明物理上的库、表及其属性与具体专业属性之间的对应关系

数据挖掘信息描述飞参数据仓库中语义关联和专有的概念层次关系,为基于元数据的假设、生成和结果过滤准备条件,从而支持数据挖掘

查询导航信息对飞参数据依存信息的全面细化,便于实现基于业务术语的请求在数据库中的查询,并实现面向业务的导航

划分粒度的关键是正确估算出表的行数。由参数据存储以帧为单位,而每秒的数据量可达到4~8帧,由此估算出表的行数是非常大的,约106~108行,因此这里采用了双粒度模型,如图7所示。

图7 飞参数据仓库双重粒度模型

3 结 语

针对现有飞参数据的孤立性、故障分析的单一性等问题,本文按照主题、时间、型号三个维度将飞参数据进行了划分,并对飞参数据仓库的概念模型、逻辑模型、物理模型、元数据模型和粒度模型进行了深入研究。对传统的物理模型进行了有效的改进,经实践检验,大幅度提高了存储设备的可靠性,缩短了系统数据的访问响应时间。飞参数据仓库可以高效地应用于航空维修故障诊断分析领域,也可以有效支持OLAP分析和数据挖掘等技术,为提高现有飞参数据的分析水平提供有力的支持。

参考文献

[1]梁建海, 孙秀霞, 杜军. 基于数据挖掘的飞行参数处理方法研究[J]. 弹箭与制导学报, 2005, 25(1): 7679.

[2]刘钰, 张风鸣, 惠晓滨. 数据仓库技术在飞参数据处理中的应用[J]. 计算机工程, 2004, 30(8): 9597.

[3]苏新宁, 杨建林, 江念南. 数据仓库和数据挖掘[M]. 北京: 清华大学出版社, 2006.

[4]林璇, 冯健文, 陈启买. 餐饮决策支持系统中OLAP数据仓库的设计与实现[J]. 计算机工程与设计, 2006, 27(21): 41424144.

[5]宣爱斌. Soars比较购物分析数据仓库的设计[D]. 上海: 复旦大学, 2008.

[6]王骏. 构建数据仓库实例[J]. 计算机工程与设计, 2006, 27(19): 36633665.

[7]谢福成, 王备战, 史亮, 等. 基于银行数据仓库的元数据管理系统[J]. 计算机工程, 2009, 35(9): 7981.

仓库管理概述例10

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)25-1370-03

Application of Data Warehouse in EEA System

DAI Hua-liang, WANG Jian

(CIMS Research Center, Tongji University, Shanghai 201804, China)

Abstract: To study the application of the data warehouse technology in energy efficiency assessment. Design Enterprise Energy Assessment System by using data warehouse and OLAP tools. Then taking analysis of equipment energy efficiency theme which is for a chemical plant for example, notation model, logistic model and physical model of the enterprise energy efficiency data warehouse are described in details. And finally the data warehouse is implemented on the basis of MS SQL Server 2005 which will provide reference for energy-consuming enterprises in energy saving work.

Key words: data warehouse; energy efficiency assessment; model design; OLAP

1 引言

随着我国经济的快速发展,能源消费量逐年增加,但能源利用效率却远远低于发达国家,这严重限制了可持续发展战略的实施。为了解决这个问题,在国家“十一五”规划中,我国政府提出了创建资源节约型经济社会的建设目标。要实现节能降耗的目标,工业产业中的高能耗企业是工作的重点对象。许多高能耗企业目前没有一套科学、合理的能效评估体系,对能源的具体使用情况及其产生的效益缺乏准确的认识,造成了能源在生产过程中的流失和浪费现象,影响了产品成本的估算和企业能耗的有效控制。

目前数据仓库的应用越来越广泛,主要是应用于金融、电信等行业,但在高能耗企业,这方面的技术还未得到充分的应用。对于高能耗企业,全面的生产用能数据对高能耗企业的能效评估和节能分析有重要作用,然而这些数据是彼此分散、各自独立的,甚至是不相一致的,通过建立数据仓库,可以将这些数据进行集成和统一,再利用数据分析工具分析和挖掘这些数据的信息,发挥这些数据的价值,使它们成为企业能效评估的重要依据。

该文的研究是以MS SQL Server 2005平台为基础,创建数据仓库。该系统的设计与实现为典型能耗企业高效使用能源提供定量的分析与优化手段,实现企业能效评估的数字化和系统化。

2 数据仓库和联机分析处理概述

根据数据仓库奠基人W.H.Inmon认为“数据仓库(Data Warehouse)是数据仓库是一个面向主题的、集成的、永久的且随时间不断变化的数据集合。它用于支持管理中的决策制定过程[1]。”数据仓库将大量用于事务处理的传统数据库数据进行抽取、清洗、转换,并按决策主题的需要进行重新组织,这种高度集中的数据为各种不同的决策需求提供了有用的分析基础。典型的数据仓库系统的体系结构如图1所示,由数据仓库、数据仓库管理系统和数据仓库应用分析工具3个部分组成。

联机分析处理(OLAP)是与数据仓库密切相关的一种决策分析工具。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP的一个主要特点是多维数据分析,主要通过对多维数据进行切片和切块、钻取、旋转等来实现。OLAP的多维数据分析与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。因此,利用OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统需要处理大量数据的问题。

在企业能效评估系统数据仓库与联机分析系统体系结构设计中,采用了3层客户机/服务器结构。这种结构将数据仓库、OLAP服务器与客户端严格区分开。在该数据仓库中既包含了大量业务处理系统的操作细节数据和其综合数据,也包含了历史数据和近期数据,这些数据是OLAP应用的基础。OLAP服务器的主要用途是对数据的分析与决策进行管理,同事OLAP服务器还要根据客户的需求对多维数据集进行分析,并将分析的结果以可视化的方式传递给客户端。

3 企业能效数据仓库设计

设计企业能效数据仓库的第一步是确定主题。主题是与企业相关的重要的物理项、概念、人、地点和事件的主要分组,数据仓库是按照主题域模型进行组织的[2]。设计数据仓库首先要从企业的生产用能数据入手,综合决策支持的实际需要,确定数据仓库的主题。根据系统所要实现的功能,该企业能效数据仓库包含了设备能效分析、经济能效分析、环境能效分析3个主题。为了满足企业管理者的需求,本文建立的是以设备能效分析为主题的企业能效数据仓库实例。其次需要确定的是支持设备能效分析这个主题的数据源。上海氯碱化工股份有限公司是国有特大型企业,有大量的历史与近期数据,数据源比较丰富。设备能效分析主题是从各个设备包括主能耗设备、加工转换单元、输送分配单元对企业能效进行分析。在企业能效数据仓库模型中,分3步来进行设计,分别是概念模型、逻辑模型和物理模型设计。本文针对上海氯碱化工股份有限公司,以设备能效分析主题为例,给出企业能效数据仓库的完整的设计方案。

3.1 概念模型设计

数据仓库设计中概念模型设计的目的是确定面向主题的信息包图,完成界定系统边界和确定主要的主题域及其内容,其成果是在原有的数据库的基础上建立一个较稳定的概念模型,是在较高抽象层次上的设计。

3.2 逻辑模型设计

目前最流行的数据仓库模型是多维数据模型。多维数据集的结构由其度量值及维度定义。度量值及维度均出自多维数据集数据源中的表,这些表的集合称为该多维数据集的数据模型。每个多维数据集数据模型均包括一个事实数据表以及一个或多个维度表。数据仓库的逻辑模型即多维数据集数据模型一般有两种常见的类型:星型模型和雪花模型。

星型模型是基于关系型数据库的、面向OLAP的一种多维数据模型的数据组织形式,通过使用一个包括主题的事实表和多个包含事实的非正规化描述的维度表来执行决策支持查询,从而获得比高度规范化设计结构更高的查询性能。

雪花模型虽然较星型模型更符合规范化的设计结构,但它增加了查询的复杂度,降低了查询的性能。因此本数据仓库采用星型模型。该企业能效数据仓库中设备能效分析主题的逻辑模型如图2所示。

3.3 物理模型设计

概念模型是指数据在数据仓库中的存放形式和组织形式。设计物理模型还包括确定索引策略、数据存放位置和存储分配。具体来说,就是要在星型模型或雪花模型的基础上,确定事实表和维表的结构;明确两者的数据字段、数据类型、关联字段、索引结构;确定数据仓库中多维数据集的存储结构,如物理存取方式、数据存储结构、数据存放位置及存储分配是否分区等。

目前大多数数据仓库都是建立在关系型数据库的基础上,最终数据的存储是由数据库系统进行管理的。在该数据仓库的设计中,选用MS SQL Server 2005及其组件分析服务器作为数据库和数据仓库的管理系统。数据仓库在逻辑上是多维的,但在物理存储上其多维数据集的存储方式可以有关系型联机分析处理(relational online analytical processing, ROLAP),多维联机分析处理(multidimensional online analytical processing, MOLPA)和混合联机分析处理(hybrid online analytical processing, HOLAP)3种方式[3]。

在该数据仓库中,多维数据集的存储选择HOLAP方式,即基本数据保留在原有的关系数据库中,而聚合体则存储在分析服务器上的多维结构中,这样不仅可以避免数据重复,还能够提高查询性能。

4 实现

针对该化工企业,此数据仓库的实施是以MS SQL Server2005平台为基础,前端编程工具为C#.NET。

创建企业能效数据仓库,首先从企业各个相关部门获取数据表,并按照数据仓库的设计要求进行改造,建立起一个源数据库。这步非常关键,它是整个数据仓库建立的根本,也直接地决定着系统的分析功能。其工作量是非常大的,并且需要对各种数据进行非常细致的选择、整理、清洗等工作,以保证数据的质量。数据的质量包括数据的正确性、明确性、一致性和完整性。

建立源数据库之后,通过SQL Server中的DTS(Data Transformation Service)服务工具,创建数据仓库中的事实表与维表;通过Analysis Services来建立多维数据集,实现OLAP操作,支持多维查询表达式(multi dimensional expression, MDX)查询,并通过自动构造MDX语句,实现上卷、下钻、切片、切块、旋转等OLAP运算。

在前端数据展现上,可以用C#.NET通过Analysis Services所提供的数据透视表服务进行开发,或直接利用MS Office中的Excel和Access,来实现对多维数据集的数据展现功能,从而可以方便地得到各种统计报表和分析图形[4]。

5 结束语

只有充分利用、分析高能耗企业在日常生产过程中所产生的大量的历史数据,才能从中获得有用的数据信息。将数据仓库应用到企业能效评估系统中,能使评估数据的数量丰富、质量提高,从而为评估结果准确度的提高做出贡献,也为企业生产用能管理提供有效依据,使企业决策人员能更有效地确立节能技改方案,更有效地指导节能降耗工作;同时数据仓库的构建为下一步进行数据挖掘奠定基础,为其他类型企业能效数据仓库的构建也有一定的参考意义。

参考文献:

[1] William H. Inmon. Building the Data Warehouse[M]. 3rd Edition. New York. John Wiley & Sons,2002.

[2] IMHOFF C, GALEMMONG, GEIGER J.数据仓库设计[M]. 于戈,鲍玉斌,王大玲,等译. 北京:机械工业出版社,2004.