期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

信息通信的概念模板(10篇)

时间:2024-03-23 17:46:20

信息通信的概念

信息通信的概念例1

[分类号]N945.12

概念模型通过一套正规化的符号语言描述现实世界,是信息系统开发中记录系统需求的重要工具,如E-R图、数据流程图、UML等。记录的系统需求成为项目中各方沟通的媒介:系统分析员与用户沟通以确认系统需求;系统开发人员间沟通开发细节。显然,两方面沟通均有效才能保证开发出符合用户需求的应用系统。而以往研究多关注系统开发人员间的沟通,忽视了与用户的沟通。

当前,用户参与需求分析愈加被重视,有效的用户参与被认为是系统成功和用户满意的有力保障。Davies等人的调查表明,与用户的沟通有效性超出其他技术和管理因素,成为概念模型使用中最重要的问题。然而还缺乏直接的研究和证据解释概念模型在与用户沟通中的作用机理。

鉴于此,本文将以概念模型与用户沟通过程中的认知特点为基础,分析和解释概念模型影响沟通效果的作用机理,并通过实验室研究方法获得数据支持。

1 文献回顾

1.1 概念模型的沟通有效性

基于概念模型的沟通效果本质是阅读者正确理解模型中信息的程度,可以定义为阅读者正确掌握的信息量与模型全部信息量的比率。但信息本身具有不同的类别,近年来研究中多依信息类别将理解效果划分为不同的维度,以深入分析模型对沟通有效性的影响。如Agarwal等根据信息组成分为简单信息(仅包含基于结构的或基于过程的信息)与复杂信息(包含两类型信息),研究发现开发人员使用面向过程的概念模型理解复杂信息显著优于面向对象的概念模型。而在简单信息理解方面无显著差异。

理解效果的维度,即信息类别的划分不存在统一的标准,主要依研究目的而定,如上述研究中的信息分类是为了寻求信息结构与模型结构的匹配。

1.2 概念模型理解效果研究

阅读者理解模型中信息的过程是概念模型与阅读者个人交互的过程,因此分别受到模型特点及个人特点两方面因素的影响,如图1所示:

对于模型因素,以往研究发现了一些好的品质,如信息完整性、清晰性等。满足好品质的模型能够提升理解效果,如Gemino等通过实证研究验证了本体论语义更清晰的模型更利于理解。

个人特点中的因素关注较多的如个人经验、知识。经验越丰富,知识储备越充足,个人理解效果必然越好。如Khatri等的实验室研究验证了开发人员所具有的模型技术知识以及应用领域知识对阅读效果的影响作用。

然而,这些研究能够回答的现实问题很有限。首先,用户具有高的应用领域知识水平及低专业技术知识和实践经验,现有研究对这样的复合因素组合的情况难以解释。此外,除了模型特点中的“好品质”,不同的模型仍然存在其他差异影响阅读者理解过程,但作用效果可能因人而异。如有研究发现相对于面向对象的建模方法,面向过程的模型更利于开发专家全面识别信息,而对开发新手不存在这样的差异。因此,本文将根据用户整体的认知特点分析其与概念模型特征的交互关系。

2 理论与假设

2.1 用户阅读的认知过程

概念模型主要的呈现形式是图形,为了更深入认识用户阅读概念模型时的认知特点,可以借鉴图形理解的相关理论:感知理论与认知理论。

感知理论解释了阅读者将所看到的图形信息放入短期记忆的感知过程,包括三步:辨识图形中各符号对象;根据模型中符号的空间布局对符号进行分组及确定层次关系;对符号初步组织并放入短期记忆。专业的训练和实践能够使开发人员具备组织图形信息的技巧;而用户未接受过培训,只是按照阅读文本时的习惯策略从左向右、自上而下地组织模型信息,因此放入短期记忆中的信息基本是按照模型的信息组织方式。

认知理论解释了信息放入短期记忆后的认知过程,包括两个活动:搜索长期记忆中的相关知识;对图形信息进行解释并与长期记忆整合。影响认知效果的根本因素是认知计算量。对用户来说,主要依靠搜索长期记忆中关于业务环境等的知识来解释图形所传达的含义。根据认知匹配理论,当放人短期记忆的信息结构与用户长期记忆中的知识组织方式一致时。搜索相关知识的效率将提高,整合新知识时也减少了结构关系的转换计算,使得总的计算量降低,因此认知正确性将提高。

综上所述,概念模型的信息组织方式与用户长期记忆中知识结构的匹配程度是影响认知过程正确性的重要因素。

本文将以面向对象与面向过程的概念模型为例,验证上述分析。两类模型对信息的组织方式显著不同:面向对象的模型将信息分类、抽象为对象,以对象为中心组织与对象相关的属性、行为、通讯等信息,如用例图中围绕各角色的行为活动(即用例);而面向过程的模型将信息抽象为信息流,通过信息处理流程中的前后衔接组织信息,如数据流程图中“处理模块”的输入和输出“信息流”。

认知心理学中众多研究结论显示出人们的自然思考方式首先是分类,这正是面向对象思想的基础。因此可以说,面向对象模型的信息组织方式与未接受过专业学习的用户脑中的知识组织更加匹配。由此判断,与面向过程的概念模型相比,采用面向对象的概念模型更利于用户理解。

假设1:描述同一系统信息时,用户使用面向对象模型的理解效果显著高于面向过程模型。

2.2 基于语义网络理论的理解效果

语义网络理论对人脑中的知识组织方式作了很好的解释:人的长期记忆中,知识是通过节点互联的网络来组织的。节点代表任何实体、抽象类、属性等概念;节点间的连接表示概念间的某种关系。一条信息可能包含一个、两个或多个节点,而多个节点之间的关系可能是直接关联,或是通过某些节点间接关联。

显然,当信息包含的节点数较少、节点间的连接较少时,认知过程的搜索和整合计算量都更小。因此,为了进一步分析用户认知特点与概念模型的交互作用,本文根据信息中所包含的节点数及连接关系的复杂程度,将理解效果分为简单理解与复杂理解。

有研究曾发现,不熟悉概念模型的阅读者在使用用例图和使用数据流程图识别单个信息点的完整性上没有差别。这是因为,理解简单信息时的认知计算量很少,面向对象模型信息组织的优势不显著;但随着信息复杂度增加,两类模型认知计算量的差异将显现出来。

假设2:描述同一系统的简单信息时,面向对象与面向过程概念模型的用户沟通效果无显著差异;

假设3:描述同一系统的复杂信息时,面向对象概念模型的用户沟通效果显著高于面向过程模型。

3 研究方法

3.1 实验对象及实验过程

本文采用实验室研究方法收取数据。实验在大学课堂道行,选修同一课程的管理学院各专业学生自愿参加,最终参加学生41人。实验中学生被随机分为两组,依次完成三项任务:阅读描述同一系统的系统需求说明,两组的阅读材料不同;回答关于系统理解效果的测试问题,包括简单信息及复杂信息;填写个人经历以及实验感受的问卷。

3.2 实验设计

3.2.1 实验情境 待开发的系统是一个校友录系统。大学生对这样的系统较为熟悉,符合学生作为系统用户的角色。实验人员在实验开始时将以系统开发者的角色进入,并说明实验参与者将作为该系统的用户,实验目的是使用户理解系统的构建内容。

3.2.2 需求说明 两组阅读的需求说明分另0由用例图(Use Case Diagram)与数据流程图(Data Flow Dia-gram)来描述,两者是当前使用最广泛的概念模型,分别代表面向对象与面向过程的概念模型。两组模型描述了相同的系统内容,所传达的信息量一致,只是表达形式不同。由于实验时间的限制,所描述的系统只具备简单的功能。

3.2.3 理解效果 用户的理解效果通过回答问题的正确率来反映。所有问题均为判断题,共14题:关于简单理解的问题共7题,只涉及需求中两个概念及直接连接关系;关于复杂理解的问题共7题,涉及三个以上概念及其关系。所有14道问题的正确率反映用户的整体理解。

3.2.4 实验后调查问卷 问卷主要通过五点量表测量实验中的假定条件以及控制变量。包括三个问题:阅读者对概念模型的学习程度、阅读者对校友录系统背景的熟悉程度(这两者用来保证学生作为用户角色的有效性)以及阅读者感知的模型阅读难度。感知的阅读难度也是影响模型使用的重要因素,因此在本研究中作为控制变量。

4 实验结果与讨论

4.1 实验数据剔除

实验收集到数据41份,首先剔除回答不完整的数据1份,然后对实验的前提假定进行检验。统计阅读者的模型知识表明所有参与者都没有学习过概念模型知识,同时95%的参与者较熟悉或非常熟悉校友录系统。为进一步保证实验的有效性,根据参与者对系统背景的熟悉情况剔除了解很少或完全不了解的参与者数据3份。最终获得有效数据37份,其中用例图组19份,数据流程图组18份。接下来将使用SPSS统计软件对数据进行分析、验证假设。

4.2 模型对用户理解的影响

采用多元方差分析方法验证两概念模型组阅读效果的差异,并将用户感知的模型阅读难度作为协变量以控制其对因变量的影响。两组用户的简单理解效果没有显著影响(显著性=0.617),支持了似设2;复杂理解效果方面,用例组(均值=0.722)显著高于数据流程图组(均值=0.579),显著性=0.007,支持了假设3;总体理解效果方面,用例图组(均值=0.726)也显著(显著性=0.043)高于数据流程图组(均值=0.643),支持了假设1。如表1所示:

4.3 用户不同层次的理解效果

通过对同一用户简单理解效果与复杂理解效果的配对均值检验来反映前文中关于理解划分的认知基础。用户对简单问题的理解效果显著高于对复杂问题的理解(显著性=0.045),如表2所示:

4.4 讨论

4.4.1 用例图组用户的总体理解效果显著高于数据流程图组(假设1) 基于前面的分析,该结论在理论上验证了影响用户理解效果的一个重要的概念模型因素――模型信息组织结构特征,该因素与用户知识组织结构交互影响用户理解效果,即使用与用户知识组织结构更相近的概念模型得到的用户理解效果更好。这为概念棋型的选择和评价提供了一个较可靠的一般性的依据。该结论为实践中而向对象的概念模型在用户沟通方面的意义提供了证据支持,为开发项目选择概念模型提供了直接的参考。

本文基于认知特点的分析认为用户与开发人员在理解概念模型时(无论是感知过程还是认知过程)具有显著差异,对比以往研究中面向过程的慨念模型更有利于开发人员理解的结论,本实验室研究的结论间接证明了用户与开发人员认知特点上的差异。

4.4.2 用户对不同复杂度信息的理解效果差异显著

用户对简单问题的理解效果显著高于复杂问题;且用例图/数据流程图在简单和复杂信息理解效果方面的表现显著不同(假设2,假设3)。这些结论验证了认知复杂度是用户理解效果的本质影响因素,进一步解释了具有不同信息组织特征的概念模型是通过影响用户认知计算量影响用户理解效果的。

同时,该结论具有更高的可靠性。可以对以往一些研究结论进行解释:即由于所设置的信息过于简单或没有选择对用户认知计算量有影响差别的概念模型,以往研究可能获得概念模型对用户沟通效果无影响作用的结论。这再次肯定了该领域研究中以用户认知特点为基础的重要意义。

信息通信的概念例2

中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2013)07-0043-01

1 引言

随着信息技术发展与应用的不断深入,网络已经成为世界范围的信息源。与之相伴的是信息检索问题,怎样实现在海量网络信息中获取符合用户需求的信息,是信息检索界亟待解决的课题。本文以图书信息的查询为例,从而极大地提升图书查询的准确性和效率,使图书馆能够为用户提供更高品质的服务打下基础,本文的成果具有比较好的理论价值与实践意义。

2 本体技术概述

本体是以系统化的方法来描述客观世界的事物,从而能够实现事物中所包含元素的集成和重用,从而将信息抽象为知识。在对事物的描述中,本体将所有的事物分解为不同的概念,并准确地定义概念之间的逻辑联系。当前,作为一种信息技术的实现方法,本体论在计算机领域中具有比较重要的价值与意义,正在一些领域有着比较广泛应用,包括语义网络的实现、智能搜索的设计、异构数据的整合、以及GIS系统和图书馆的数字化等。在这其中,语义网络的研究和应用是一个热点。

3 基于本体的信息检索设计与实现

3.1 系统框架设计

结合目前应用比较广泛的B/S的结构体系,本研究所涉及的信息检索结构分为三个层次,下面分别进行阐述:(1)应用层的设计。在基于本体的检索系统中,应用层的功能是处理用户需求,实现用户和系统的交互。在应用层中,通过用户界面的表单来处理用户所输入或者选择的查询请求,对请求的格式进行初步处理之后传输至逻辑层进行进一步的处理,并将由逻辑层传输到本层的检索处理结果向用户显示。(2)逻辑层的设计。逻辑层是检索系统对查询和检索结果进行处理的核心部分,主要功能有:用户查询的生成、用户查询条件的表达、用户查询的执行。逻辑层的设计成股份考虑到了检索内容的本体模型与查询处理之间的匹配。(3)数据层的设计。数据层的功能是对系统的数据进行存储,针对本文所研究的图书信息而言,将会为所有的图书数据构建一个基于本体的数据库,本研究选择的是sql server数据库。在数据库中,结合本体库知识对所存储的信息以及信息之间的联系进行标注,从而使图书信息能够以本体的规范进行存储,以便查询。

3.2 检索方法的设计

当前,无论是基于哪一种搜索引擎,具体的检索结果往往难以保证足够的查全率和查准率。其核心原因在于:首先对没能准确地表达用户的查询需求,导致信息系统难以精确地把握查询需求;其次是系统是以机械匹配的方式来处理用户所输入的检索关键词,因此没能对所查询的语句进行必要的扩展。所以本研究所涉及的基于本体的检索方式的设计基本思路为:(1)基于本体对于事物的描述,首先对用户所输入的查询条件进行整理和优化,把其查询条件进行转换,使之能够体现为本体的概念以及本体元素之间的联系。(2)结合本体的信息处理模式,对转换之后的查询条件进行概念上的扩展,最终形成符合本体属性和特点的查询式,开始查找,并得到结果。

3.2.1 基于本体的检索优化方案设计

此处将用户查询条件所属的原始概念空间定义为{C,R},在该空间中,C的涵义是查询条件所包含的全部概念项,R的涵义是全部概念项之间所拥有的逻辑关系。在本体的设计理念下,本研究把检索优化的步骤定义为(1)把概念项空间C里用户的查询概念进行转化,使之成为本体类型的概念,从而构建基于本体的概念;(2)结合查询概念之间的逻辑关系R,对查询条件进行逻辑转换,从而构建符合本体模式的优化概念空间。

在(1)中,首先设概念项空间C里所包含的概念项是(C1,C2,C3,C4,C5……),针对里面的所有概念项,在已经构建的本体知识库里搜索与这些概念项匹配的概念,所有的同义词以及词性变换均能够生成新的记录,以(Ci,Oi)表示。记录中,Ci的涵义是概念项(C1,C2,C3,C4,C5……)中的一个元素,Oi则表示图书信息本体里和Ci匹配的概念,可知在这样的模式之下,每一个概念项均可能有多个与之匹配的概念,而所有的匹配概念最终形成新的概念集O。当前概念相的匹配完成之后,则进行针对查询条件的逻辑转换,最终通过一套逻辑转换规则形成新的逻辑关系。

3.2.2 检索的语义扩展

在对用户的查询条件进行本体话处理之后,有可能会出现无法找到与之匹配的概念的情况,这时候需要对检索进行语义的扩展。扩展的目的是从一个概念延伸到其他概念,以及从一个属性眼神至其他的属性,从而实现查询的准确率。语义扩展包含三个方面,分别是同义词的扩展、子概念的扩展以及父概念的扩展。下面进行详细的阐述:(1)同义词的概念扩展。在中文的表述中,同义词的普遍存在的。相同的检索条件可能有多种不同表述方法,此时需要以同义词的扩展来达到检索的准确率。在本体库的构建中,将属于同一概念的所有表达方式进行标记,当收到用户的检索请求以,系统执行“或”运算,得到所有的同义词并集,提高查全率。(2)子概念的扩展。通过以更加贴近用户查询条件的子概念看来表达检索,从而将检索结果定位在更加精确的领域。举例来讲,用户搜索图书信息时,如果输入“通信介质”作为查询条件,未能看到满足要求的检索结果,此时根据本体知识的架构,通讯介质又可以包含以下的子概念:如光纤、同轴电缆、微波等,通过子概念的扩展,实现信息检索的查准率。(3)父概念的扩展。与子概念相反,父概念的扩展指的是将查询条件的上层概念来替换用户所输入的查询条件,从而实现结果的扩展。举例来讲,如果输入“工作站”作为查询条件,未能看到满足要求的检索结果,此时根据本体知识的架构,工作站的父概念包括网络硬件、局域网节点等,从而达到更好的查准率。

4 结语

本文结合当前信息检索所存在的不足之处,以图书馆信息检索为例,引入本体技术来构建数据检测和索引优化的科学方法,通过构建图书信息的本体属性架构,实现了复杂语义信息的表达和识别,从而在很大程度上提升了图书馆信息查询的效率。

信息通信的概念例3

[分类号]G250.76

1 引言

语义是指“数据(符号)”所指代的概念的含义以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示。语义通过两种途径产生:①人类赋予;②通过计算模型产生。通过第二种方式产生的语义可以被计算机理解和处理,可以被获取、传递、共享。根据实体资源(如文本和图像)来产生语义或挖掘出信息所蕴含的隐性语义是一个挑战性的任务。基于统计的聚类分析、共词分析、信息抽取和挖掘技术可以帮助实现语义的自动抽取。实现的关键在于建立一个语义模型,该模型既适用于显式语义,又适用于通过显式语义挖掘推导出隐含语义。语义模型是通过模型作为媒介来实现数据语义关系形式化描述的一种方式。基于本体的语义模型是通过以本体为核心的模型作为媒介,实现数字资源语义关系形式化描述的一种方式。本文基于本体构建了语义模型,并基于该语义模型探讨数字图书馆知识组织过程中信息抽取策略。

2 信息抽取与本体

信息抽取是从分布的、异构的文本中提取出特定的事实信息,将其中隐含的语义提取出来并以更为结构化、更为清晰的形式表示,为用户使用提供便利。信息抽取与语义标注总是融合在一起、互相支持的;信息抽取需要在语义标注的基础上进行,语义标注的内容是经过信息抽取提取出来的。因此,目前对于信息抽取研究离不开对抽取对象的语义分析和描述。语义分析与描述技术的研究热点是本体技术。

本体是对面向计算机语言的、已被组织的知识的描述,而信息抽取是面向自然语言,分析文档表达的事实和从这些文档中提取相关信息片段。信息抽取和本体是相辅相成的:作为抽取相关信息的理解程序,本体被用于信息抽取,是信息抽取的语义知识依据;信息抽取可以丰富本体,因为信息抽取出来的文档可以作为设计和丰富本体的知识资源。

这两方面的任务被结合在循环中(见图1)。本体可以有效地、准确地、解释信息抽取出来的数据,而信息抽取从文档提取出来的新知识可以整合进入本体从而丰富本体。

2.1本体对信息抽取的支持

在抽取过程中,本体知识对文档的语义解释具有重要作用。

本体对领域概念以及概念的多种形式进行了规范性说明,因此在信息抽取中可以用来进行字符串的语义分析,进而进行概念识别;在信息抽取过程中,需要领域本体对文档中实体名称进行识别与分类。本体中的类可以对信息抽取文档进行概念识别、语义标注和概念规范。

本体的概念层次结构。传统信息抽取的重点是使用同义词集而不是层次关系。例如,在wordNet中,同义词集可以用于语义标注和消歧,但上下类关系还需要本体参与。本体中包含的语义类型或语义的层次关系,有助于通过抽取内容进行推理和忠实释义。

更先进的信息抽取系统也需要利用领域本体的概念节点、概念节点的属性和相互关系予以描述。本体中的概念与属性值能够清楚地描述信息抽取对象的本质。对于文档中抽取对象的分析既能提高自然语言处理,又能指导概念框架的实体构成,而相应的规则即是基于短语模型,更多是基于语义分析的。

领域概念模型。领域概念模型本身用于推理,它能合并不同表现形式的同一概念,并且能够揭示出隐含的语义。

2.2信息抽取对本体的丰富

本体构建一直是公认的语义进程中的瓶颈,而信息抽取有助于本体构建。已经提出各种方法用于语料库的建设以利于本体构建,如基于规则的信息抽取即是对本体构建方法的补充。基于推理规则抽取出基本数据,通过已有本体对该数据进行概念及概念关系分析,在此基础上将数据中新的概念或概念间的新关系整合到本体。

实体命名抽取:实体命名通过在本体中以实例的形式表示。从这个角度看,需要自动地不断地为本体增添一些热门领域的实体名称。而信息抽取被广泛应用于识别和分类文档、网页、数据库等中的实体。

关系抽取:在结构化本体中,概念与概念之间存在着语义关联。目前从文档中获取本体关系的方法主要有三种:基于共词分析方法、基于知识库方法和基于信息抽取模式方法。信息提取模式方法提升了前两种方式:第一种方法需要对基本关系类型进行解释,而信息抽取中的规则就是特色化关系;第二种方法原有的知识可以帮助设计一个提取规则。

信息抽取通过本体进行基于领域的语义分析,提升信息的语义性,为智能检索打下基础;本体通过信息抽取不断学习,不断演化,解决本体构建的瓶颈问题。鉴于此,本文基于本体构建数字图书馆知识组织语义互联的语义模型,利用语义模型探讨语义互联实现过程中各个重要环节的策略,进而最终完成数字图书馆知识组织的语义互联。

3 数字图书馆互联的语义模型

语义模型是对内容语义、语义类型及语义关系进行描述和组织的机制,它试图在用户的信息需求和信息资源之间搭建一座桥梁,将两者灵活而有机地结合起来,从语义的角度来解析信息资源,进而从互理解的角度来提升用户检索的准确度和召回率,更好地满足用户的信息需求。语义模型是影响数字图书馆知识组织语义互联的核心要素。本文构建了以元数据、领域本体、桥本体和本体解析体系为组成要素的语义模型,利用语义模型实现数字图书馆知识组织过程中的数字资源、用户需求表达的语义解析,完成数字图书馆用户交互层、内容管理与功能层、内容层之间的语义映射。其中,元数据进行资源的标准化描述,领域本体进行概念以及概念之间关系的语义标注,桥本体用于资源之间语义聚合,本体解析主要解决本体的具体效用发挥的方式,如图2所示:

3.1元数据

元数据是数字图书馆用来解决语义互联的重要基础工具。数字图书馆由资源构成,而资源是可以被标识的。元数据提供了对资源各种属性的描述。元数据通过定义数字图书馆中资源的信息结构以及定义由数字对象构成的资源库的组织结构,决定着数字图书馆知识组织和知识服务方式。元数据发展比较成熟,已经形成完整规范的元数据体系,包括元数据格式、元数据标准、元数据方案、元数据应用纲要、元数据注册系统等等,这些为数字图书馆知识组织语义互联打下了基础。

3.2领域本体

领域本体是知识组织体系中重要组成部分,其目标是捕获相关领域的知识。领域本体是对领域内共享概念模型的明确的形式化的规范说明;概念以及概念之间的关系是经过精确定义的,提供了对领域知识的共同理解与描述,能够为计算机所使用并可用数学方

式表达。在领域本体技术驱动下,信息资源以全新方式进行组织,组织原理发生如下改变:①从用户可理解到机器可理解;②从信息描述到知识表现;③从语义隐含到语义揭示;④从“以概念为中心”到“以概念一关系为中心”;⑤从信息表示到智能推理。这些变化要求知识组织理论、形式、方法、技术、体系以及知识组织过程都要随之改变,实现对资源从语法层面向语义层面深入,最后直至语用层面的组织,在获取、表示、加工、存储、重组、提供、共享、利用、控制等知识组织过程中,充分体现语义性,在数字图书馆系统的各层之间,在用户、资源、服务之间,形成语义互理解和互操作。

3.3桥本体

桥本体是一种特殊的本体,完成不同领域本体概念之间关系的映射,进而实现本体整合,形成领域内的共享本体。桥本体记作Obridg。,可以用一个六元组表示:

Obridge={cb,Acb,Rb,Arb,hb,xb}(1)

其中,cb表示桥本体概念的集合,Acb表示桥本体概念所对应的属性集的集合,Rb表示桥本体之间关系的集合;Arb是桥本体之间关系所对应的属性集的集合,Hb代表了概念的层次结构,xb是一系列公理集合。

在概念上,桥本体具有四层树形结构(见图3):第一层是最普遍的概念,标记为T;第二层具有概念桥和关系桥两个概念,它们分别表示了两种不同的桥关系;第三层由10种不同类型的子类桥组成;第四层是一系列动态创建概念的集合,它们的属性描述了不同本体之间关系的信息。其中上面三层是固定的,称之为静态层,第四层的概念是根据已知的多本体动态产生的,为动态层。

3.4本体解析体系

数据存储模式的选择直接影响使用的效率。本体是系统多层之间语义联系的纽带,因此本体、桥本体的存储方式影响数字图书馆知识组织和知识服务的质量。本文选用的本体描述语言为W3C推荐的OWL,将其存储到关系数据库。关系数据库存储本体既有缺点,对本体含有的丰富语义缺乏精准的表现,又有无可比拟的优点。已有文献对本体到关系数据库模式映射进行了详尽的阐述,在此仅谈及桥本体的解析。

根据桥本体的概念结构和关系数据库的形式化定义,下面给出它到关系数据库模式的映射规则。

以桥本体建立数据库,取名为database-brid―geO。

桥本体中的十个桥关系分别为桥本体的子类,分别以这十个桥关系建立十张表,表名为table―Bcequal、table_BCdifferent、table_BCisa、table_Bcinstan―ceof、table BCoverlap、table BChasa、table_Beopposed、ta-ble_BCconnect、table_BRsubsume和table_Brinverse。

将桥本体的属性映射为各个表的属性,属性类型为字符型;各表属性个数并不相同,主要包括三类:一类表示具有该种桥关系的两个领域本体的名称;一类表示具有该种桥关系的领域本体的类名称;一类属性代表该类所对应表的地址。

属性值分别取值为领域本体名、领域本体中类名和类对应的表名。

不同领域本体概念之间的关系构成表中的记录。

表中的主键为复合主键,由不同领域本体名称和不同概念名称组合而成。

4 基于语义模型的信息抽取策略

抽取对象是异质的、异构的、多语种的、半结构化甚至是非结构化的,并且可能存在着语义模糊、语义缺失,因此对抽取对象实体命名识别、实体间关系的识别变得更加困难,需要多种技术协作完成。语义模型能有效协助信息抽取:利用元数据对数字信息资源和用户信息资源进行规范化描述,利用领域本体集和桥本体实现数字资源和用户信息资源语义关系形式化描述,而语义模型中本体解析体系为信息抽取为利用本体提供了途径。因此,利用语义模型可以有效地进行实体命名识别和信息抽取规则制定。基于规则进行信息抽取能有效过滤掉噪声,增加新的结构信息。大体过程如图4所示:

4.1数据采集和数据清洗

通过各种数据采集工具对数据库、文档和网页进行数据采集。数据库中的数据是结构化的,采集相对简易;而文档和网页结构各异,先将它们抓取入系统;数据清洗目的是对有信息价值的各种数据通过处理产生纯文档。首先对抓取的原始数据进行结构分析,去除噪声,分析数据是表结构、文档结构还是网页结构,网页结构是内容型网页还是表单型网页,并对各种结构进行识别剥离;然后进行内容分析,例如网页中的广告、图像、版权信息等等;最后对用户关心的信息内容进行提取,产生待处理的纯文档,如图5所示:

4.2文档预处理

文档预处理的任务是自然语言处理,将文档处理切分为待处理的词汇和信息单元。首先将待处理的纯文档进行词语切分和词性标注,取出分词结果中的名词和动词;然后按标点符号进行短句分割,作为信息单元,并以此作为信息抽取的粒度;最后对短句进行语法词法分析,并实施初次筛选,保留其中至少包含两个名词和一个动词的信息单元。该过程需要相关领域知识的术语表、词汇表、主题词表等,对分词系统中的词表进行二次加工。语义模型中的领域本体可以提供规范化的概念及概念中所涉及术语的多种形式,可以对词表进行丰富和规范,如图6所示:

4.3规则生成

信息抽取规则的生成利用了本文构建的语义模型。语义模型中的领域本体描述了概念、属性、实例以及本体内部概念与概念之间的关系,桥本体描述跨本体的概念之间的多种关系。领域本体和桥本体用OWL描述,将OWL本体映射到关系数据库,形成语义模型数据库;数据库中含有若干个表,通过表、表的属性、表的主键与外键以及属性之间的约束对本体进行解析。信息规则在此基础上生成:首先从语义模型数据库抽取类、抽取属性、抽取实例、抽取关系,对于桥本体还需要抽取表名;然后通过其解析出的本体中描述的概念、关系、层次结构等来生成三元组,再将此三元组作为信息抽取的规则存入规则库。如图7所示:

4.4实体抽取

信息抽取主要是对信息单元进行解析后,对信息单元中的名词基于语义模型中的概念和实例进行实体命名识别,充分利用本体对概念规范描述的优势,提高实体命名识别的准确性;再对信息单元重新规范,形成具有主、谓、宾三元关系的分析树。将该分析树与抽取规则三元组进行匹配,如果匹配成功则将该三元关系存入数据库中,完成信息抽取;如果匹配不成功,对该三元关系的概念与语义模型进行语义相似度计算,根据计算结果,形成本体中的新概念或新关系,添加到语义模型中,完成本体学习,丰富领域本体,如图8所示:

信息通信的概念例4

中图分类号: TP271+、31 文献标识码:a DoI: 10.3969/j.issn.1003-6970.2012.02.014

Research on the Conceptual Modeling Method in Distributed Multimedia Information System fU Da-jie(Jiangxi Vocational College of Finance and Economics, Jiujiang, Jiangxi, 332000)

【Abstract】Conceptual modeling is the important technology to improve the quality of demand analysis. There are problems in the

distributed multimedia information system, which include heterogeneity, different forma of mass data and time-space inconsistency. this paper introduces some common conceptual modeling methods such as structured conceptual modeling, object-oriented conceptual modeling and ontology conceptual modeling, then describes and represents the concept model of the distributed multimedia internet teaching system using UML class diagram, and establishes the translation of UML class diagram to ontology model.

【Key words】Distributed; Multimedia Information System; conceptual modeling; UML; ontology

0 引 言

多媒体信息系统涉及文字、图形、图像、动画、音频、视频等各种信息媒体,特别是分布式多媒体系统,其数据结构的复杂性、系统功能的多样性、交互实现的实时性对系统提出了更高、更新的要求,从而加剧了系统开发的难度。实证研究表明在系统开发过程中一半以上的错误是由需求的不准确和不完整引起的,在开发的早期阶段的质量保证要比在末端测试的效益高出33倍多[1]。而概念建模是提高需求分析的质量的重要技术。研究多媒体信息系统概念建模方法,对于多媒体信息系统的开发、引进、改造、标准化和集成都具有积极的质量保证作用。

1 分布式多媒体信息系统概念建模面临的问题

文献[2-6]从不同角度对概念建模进行了定义,不难发现,信息系统的概念建模是并不考虑系统底层的具体实现技术,它从需求的角度表述了系统的主要特征并形成抽象的轮廓。对于多媒体信息系统而言,概念建模并不涉及到媒体存储、转换、检索等相关的技术问题,但需考虑媒体的相关应用和类型。要在一个分布式多媒体信息系统中实现各种多媒体对象的集成、同步、交互和展现,就必须为其建立一个独立于现实环境的抽象的表示模型。当前,分布式多媒体信息系统概念建模主要面临如下问题:

(1)分布式系统的异构性。分布式多媒体信息系统的跨平台的特点,涉及不同的计算机体系结构、不同的操作系统、不同的网络协议标准和不同的数据库,从而产生各种异构,导致应用系统开发的复杂化。

(2)海量数据存储和格式的差异性。多媒体数据有别于一般数据,它集成多种形式的内容,其数据量是海量(MASS DATA),数据量大,且数据格式差异极大,不利于信息系统的组织和存储,增加了数据处理的难度。

(3)时空的不一致性问题。很多多媒体数据带有时间属性和空间属性,如音频数据、视频数据、图形数据,在分布式多媒体信息系统中,由各计算节点的计算延时、网络传输延时、节点空间坐标系不同等容易造成的时空不一致问题,从而影响概念建模的准确性和适应性。

2 分布式多媒体信息系统概念建模方法介绍

概念建模方法是提供使用概念建模语法的程式,通常主要规定如何把对一个领域的观察结果映射为概念模型[7]。从上世纪70年代起新的概念建模方法开始激增,据不完全统计,大概有1000多种概念建模方法,而且每年还在不断地增长[8]。文献[9-11]结合应用领域对概念建模方法做了实践性研究,从理 论上讲,当前概念建模方法主要有三种:结构化概念建模、面向对象概念建模、本体概念建模。

(1)结构化概念建模。即根据“自顶向下、逐步细化、模块化设计”的思想,将采用自顶将整个系统功能划分成一系列实现独立功能且可相互调用的模块,用模块结构关系来表示系统模型。但其存在“需求冻结”的隐患,不适合结构复杂的分布式多媒体信息系统。

(2)面向对象概念建模。使用类、对象、继承和消息机制进行概念建模。分析阶段通过类或对象的认定,确定类之间(或对象间)关系,然后对它们的属性、所提供的方法和所需要的方法进行描述,并按照它们之间的关系进行组织,得到类(或对象)结构。面向对象概念建模,就是要将类和对象映射为概念,只要找出类和对象并建立了类结构,也就建立了概念模型[12]。面向对象建模单个对象表示的行为粒度过于精细,难以把握问题的实质和总体结构,容易造成系统结构不合理及各部分关系失调等问题。

(3)本体概念建模。通过对静态的领域本体和动态的任务本体两个部分进行分析描述,并结合用户需求分析,获得语义层面上的概念模型;借助本体描述语言及建模工具将概念化的实体与过程图形化表达,形成具体的功能模型 [13]。本体作为共享概念形式化建模工具,可增强系统模型的语义表达能力,以便更好的消除语义差异,实现不同系统间的知识共享和互操作,是未来建模技术的发展方向和趋势[14]。

3 分布式多媒体信息系统概念建模实践

通过上述介绍,可以发现几种概念建模方法各有所长,下面笔者以分布式多媒体网络教学系统中课程实例为例,简要说明面向对象概念建模念建模方法与本体概念建模方法的具体应用。

3.1 基于UML的面向对象概念建模

UML是国际对象管理组织OMG制定的可视化建模语言标准,主要用于面向对象建模,UML的核心是以面向对象思想来描述客观世界,即通过类图、构建图、部署图等表示系统静态结构的静态模型和对象图、用例图、顺序图、协作图、状体图、活动等表示系统动态结构的动态模型来描述系统的及其内在的联系。其中,UML类图是面向对象概念建模的核心,对于系统的核心概念,用类、属性和方法表示,概念间的关系主要采用聚合、组合、泛化(继承)以及依赖、关联等关系来表达。

基于UML的概念建模,主要用于系统需求与分析阶段人与人之间的沟通交流,它只对问题域的对象(现实世界的概念)建模,而不考虑定义系统中技术细节的类(如处理用户结构、数据库、通信和并行性等问题的类),从这一点上来讲,分布式多媒体信息系统比较适合采用基于UML的面向对象概念建模。同时,UML统一了Booch、OMT和其他面向对象方法的基本概念和符号,汇集了面向对象领域中的多种思想,为概念模型的表达提供了科学的、通用的、标准化图形符号表示,并能被交互的可视化建模工具所支持,使得领域内的系统相关者都可以通过概念模型了解相关概念。另外,UML包括概念的语义、表示法和说明,提供了静态、动态、系统环境及组织结构的模型。图1为网络教学系统中用类图表示的用户(User)概念模型。

图1 网络教学系统用户(User)类图

3.2 类图与本体模型的转换

在信息系统领域,本体的核心是描述领域的本质概念及其之间的关联,是领域共享概念模型的形式化规范说明[15]。本体表达的概念间关系通常包括部分关系、所属关系、实例关系、属性关系。比较本体与UML类图,可以看出:本体中的类或概念相当于UML中的类,以及类的属性和方法;本体中的基本语义关系可以与UML类图中的关系相对应,比如,部分关系可以对应类图中的聚合或者组合关系,所属关系对应类图中的泛化(继承)关系,实例关系可以对应UML中的类与对象的关系,属性关系实际上对应一个类图中类与其本身属性的所属关系[16]。将图1中的类图转换为本体模型如下:

O-User =

至于本体概念建模的实现,一般采用OWL(Web Ontology Language)标准描述语言完成。OWL本体包括类、属性和它们的实例(即个体)的描述,通过采用OWL对复杂的跨平台、异构性的分布式多媒体信息系统系统概念模型及其之间的联系进行形式化描述,使得系统概念模型表达为语义和语法准确规范的领域本体,能够被计算机自动识别处理,在同一领域不同信息系统之间共享知识,从而有效保证分布式多媒体信息系统的最终质量。具体实现可参考其他相关文献[18-19]。

4 结束语

信息系统建模,实际上是对信息系统进行认识、描述、分析并抽象表示的过程。对于复杂的分布式多媒体信息系统,如何综合权衡各种概念建模方法利弊,“择其善者而从之,其不善者而改之”,直接影响了未来系统质量。本文结合UML类图对面向对象概念建模和本体概念建模做了具体的实证分析,下一步笔者将结合OWL语言针对分布式多媒体信息系统建模做进一

步研究[19]。

参考文献

[1] Moody DL,Shanks GG.Improving the quality of data models: empirical validation of a quality management framework[J], Information Systems,2003,28(6):619-650.

[2] Mylopoulos J.Conceptual modeling and telos.Loucopoulos P,Zicari R.Conceptual modeling,database,and case:an integrated view of information systems development[J].Wiley,New York,1992.49-68.

[3] 孙凡.信息系统概念建模方法绩效评价的研究[J].计算机系统应用,2009,(4):15-17.

[4] 吴永波,何晓晔,谭东风,等.军事概念模型研究综述.系统仿真学报, 2005, 17(12): 3076-3080.

[5] Horrocks I, Patel-Schneider P F, Harmelen F V. From SH I and RDF toOWL:The making of a web onto logy language[J]. Journal of Web Semantics, 2003, 1(1): 7-26.

[6] GrahamWidemana.ConceptModeling: What It Is, and where’s The Software? -Intelligence and Change in Enterprises [EB/OL].[1999-03].http:省略.

[7] Wand Y,Weber R.Research Commentary: Information Systems and Conceptual Modeling--A Research Agenda. Information Systems Research,2002,13(4):363-376.

[8] Siau K, Rossi M.Evaluation of information modeling methods a review [J]. System Scences,1998,5:314-322.

[9] 贾美英,杨炳儒,张文海,等.情报信息系统概念模型建模方法研究[J].情报研究,2009,53(22):35-39.

[10] 谢春燕,李为民.区域反导组网作战战术信息分发系统军事概念建模研究[J]. 军事运筹与系统工程,2005,19(3):34-35.

[11] 华玉光,徐浩军,刘凌,等.军事体系对抗复杂系统概念建模方法[J].系统仿真学报,2008,20(23):6507-6510.

[12] 徐宝祥,刘爽. OOA在信息系统中概念建模方法[J].情报科学,2001,19(1):66-68.

[13] 张维明.信息系统建模[M].北京:电子工业出版社,2002:35-53.

[14] 唐晓波,韦贞,徐蕾.基于本体的信息系统建模方法[J].情报科学,2008,26(3): 391-395.

[15] 曾宪文,陈向东,杨明福.基于UML的本体建模研究[J].计算机应用与软件,2006,23(7): 42-43.

[16] 严璐,李利.从UML类图到本体的自动映射[J].科学技术与工程,2008, 8(13): 3645-3648.

信息通信的概念例5

一、 引言

自美国注册会计师查尔斯霍夫曼Hoffman等(1999)开创性的将有丰富语义表达能力的XML技术应用于财务报告,并逐渐形成了可扩展的商业报告语言(eXtensible Business Reporting Language,XBRL)的概念以来,XBRL在全球范围内实践和发展已经经历了十五载。

在XBRL财务信息元素理论(张天西 (2006))的研究中,“财务信息元素是构建XBRL财务报告分类标准(以下简称XBRL-FRT)的基本单元”已成为许多研究者的共识(杨周南and 赵秀云,2004;Graning等,2011;张天西等,2011;Kim等,2012;Vasarhelyi等,2012)。对于格式固定的财务报表类信息的确如此,然而财务报告的附注中还存在大量格式可变的多维表格,它们也是以财务信息元素为构建XBRL-FRT的基本单元吗?

目前,财务报告附注中多维表格的构造模式可以分为元组模式和维度模式。本文在深入剖析多维表格不同微观模式的基础上,对两者进行了形式化描述,提出了在构造多维表格信息时,元组模式中财务信息元素是构建XBRL-FRT的最基本单元;维度模式中表信息元素、轴成员信息元素和项目概念信息元素是构建XBRL-FRT的最基本单元;由轴成员和项目概念信息元素构造了影子财务信息元素。对现有的XBRL财务信息元素理论进行了细分和扩展。

二、 微观模式

1. 元组模式。

元组(tuple)是一种组合信息的建模技术,其中既可以定义财务信息元素,也可以嵌套定义其他元组,对于采用元组技术建模财务报告附注中的多维表格的方式,可称其为元组模式。财务信息元素是元组模式中构建XBRL-FRT的最基本单元。在表达数据表格信息时,元组模式直接定义和引用了财务信息元素的标签、来源、表达和计算等关系,构成XBRL-FRT的模块。中国采用元组模式的XBRL-FRT有:上交所制定的“上市公司信息披露分类标准”、“金融业上市公司信息披露分类标准”、“基金公司信息披露分类标准”、深交所制定的“上市公司信息披露分类标准”和证监会制定的“证券投资基金信息披露分类标准”等。以上交所制定的“上市公司信息披露分类标准”表达财务报告附注中的货币资金明细表为例,货币资金明细表元组中直接定义的财务信息元素有:货币资金外币币种、货币资金外币金额、货币资金外币汇率和货币资金外币折合人民币金额等。通过分析货币资金明细的XBRL语法的定义,可以得出货币资金明细的语义层次结构图如图1。

图1可以看出,元组模式下,财务信息元素是构成财务报告附注明细表信息的最基本单元,财务报告附注中的多维表格由财务信息元素集合直接构造而成,企业通过直接定义新的财务信息元素来扩展财务报告附注的多维表格。

2. 维度模式。

由轴和项目构造的维度也可以建模财务报告附注中的多维表格,可称其为维度模式。维度(Dimension)是由轴、成员、项目、概念和事项等原子概念构造而成(Hoffman,2012),其中:表由行(轴)和列(项目)构成,用于构造表格类事项信息,用Table表示,表中的轴可以是一维也可以是多维,但是项目只能是一维的;轴描述了财务报告中经济事项的特征,用Axis表示,成员是轴的可能取值,用member表示;项目描述了财务报告中经济事项的概念,用Line items表示,概念是项目的可能取值,用concept表示;事项定义了财务报告中可观测的和可报告的信息片段,用fact表示。

维度模式基于多维表格的微观结构特征,将表格类信息拆分成轴成员(行)和项目概念(列),其所表达的信息内涵由轴成员和项目概念共同决定,即:通过维度的行集合成员和列集合成员的笛卡尔乘积间接构造了财务信息元素,该财务信息元素并未在XBRL-FRT中直接定义,而是通过轴成员和项目概念的定义构造而成。为了与直接定义的财务信息元素相区别,可以将该模式下形成的财务信息元素称为为影子财务信息元素。中国采用维度模式的XBRL-FRT有:“通用分类标准”;“石油和天然气行业扩展分类标准”和银监会“银行监管报表 XBRL 扩展分类标准”等。

多个行集合和一个列集合的组合建模可以构造一个n*1型维度。最简单的情况下,一个行集合和一个列集合的组合建模可以构造一个1*1型维度。以通用分类标准①金融工具列报模块(CAS 37)中的货币资金年初期末余额表格(参见表1)信息为例,该表格信息采用了2*1型维度建模方式构造(参见图2)。

该维度模式的第一个轴元素集合反映了货币资金类别,其中包含了三个成员:库存现金、银行存款和其他货币资金;第二轴元素集合反映了货币种类,其中包含了三个成员:人民币、美元和欧元;唯一的概念元素集合中包含了三个成员:原币金额、折算汇率和人民币金额。通过对上述两个轴元素集合成员和一个概念元素集合成员进行笛卡尔乘积,可以得出该2*1型维度可以构造出27个影子财务信息元素【3*3*3】。例如,可以用它来构造库存现金美元原币金额、银行存款欧元折算汇率和其他货币资金美元人民币金额等影子财务信息元素。

图2可以看出,维度模式下,表、轴成员和项目概念信息元素是构成财务报告附注明细表信息的最基本单元,维度中的影子财务信息元素由轴成员信息元素集合和项目概念元素集合间接构造而成。企业通过扩展轴成员和项目概念中的信息元素来间接定义新的财务信息元素,形成了对财务报告附注明细信息的扩展。

三、 财务信息元素理论的扩展

黄长胤 (2012)通过集合论的方法对财务信息元素、实例的财务信息元素空间和分类标准的财务信息元素空间进行了形式化表达。即:分类标准的财务信息元素空间可以形式化为:

Φ={ej|j∈J},?摇(1)

式中:j用来指定某个报告主体的财务报告中某个具体的列报项目,j∈J,J是列报项目集合。该形式化没有对财务报告中的信息元素进行细分,通过上节对财务报告附注微观结构的解析可知,构造财务报告附注多维表格的模式有元组和维度之分。我们将财务信息元素理论做如下扩展。

1. 元组模式。

元组模式以财务信息元素为构建XBRL-FRT的最基本单元;企业在表达明细信息的时候,通过元组直接定义和引用财务信息元素的标签、来源、表达和计算的细节,形成了以元组为纽带连接财务信息元素和XBRL-FRT的桥梁。元组t可以形式化为:

t=Uv l=1{e1},(2)

式中:e1用来表达财务报告附注中的元组模式中的财务信息元素,1∈[1,v],v是元组模式中的财务信息元素的数量。

2. 维度模式。

在表达财务报告附注中结构不固定的多维表格信息时,维度模式将表格类信息拆分成轴成员信息元素和项目概念信息元素,其中的财务信息内涵由表、轴成员和项目概念等结构信息元素共同决定。表信息元素传递表格整体信息,轴成员元素反映表格中的行信息,项目概念信息元素反映表格中的列信息。结构信息元素是构造XBRL-FRT多维表格的基本单元。以通用分类标准的无形资产增减变动信息表为例,为了反映了无形资产增减变动的结构明细表,分类标准制定者构造了一个维度表信息元素来表示无形资产增减变动表,一个轴成员集合来建模无形资产的类别和一个项目集合来建模无形资产的概念。轴成员集合中包含了两个信息元素:“土地使用权和专有技术”;项目概念集合中包含了十六个信息元素:“无形资产原价年初账面余额、无形资产原价本期增加额、无形资产原价本期减少额、无形资产原价期末账面余额、累计摊销年初账面余额、累计摊销本期增加额、累计摊销本期减少额、累计摊销期末账面余额、减值准备年初账面余额、减值准备本期增加额、减值准备本期减少额、减值准备期末账面余额、无形资产净价年初账面余额、无形资产净价本期增加额、无形资产净价本期减少额和无形资产净价期末账面余额”。其中的19个信息元素构成了建模无形资产增减变动信息表的结构信息元素【1+2+16】。

维度模式可以是1*1型,也可以是n*1型。n*1型维度是dj由表、轴成员和项目概念等结构信息元素构成,可以形式化为:

dj=dj,t∪dj,v∪dj,w,(3)

式中:dj,t表示维度表信息元素集合,dj,v表示维度轴成员信息元素集合,dj,w表示维度项目概念信息元素集合。其中,

dj,t=Uz j=1{tj},(4)

式中:Uz j=1{tj}表示维度表集合,tj用来指定维度表信息元素,j∈[1,z],z是维度表集合的势。

dj,v={Uv1 x1=1{rx1}}∪{Uv2 x2=1{rx2}}∪…∪{Uvn xn=1{rxn}},(5)

式中:dj,v由有限个轴成员信息元素集合构成;Uv1 x1=1{rx1}表示第1个轴成员信息元素集合,rx1用来指定维度表中的第1个轴成员集合中的信息元素,x1∈[1,v1],v1是第1个轴成员集合的势;以此类推,Uvn xn=1{rxn}表示第n个轴成员信息元素集合,rxn用来指定维度表中的第n个轴成员集合中的信息元素,xn∈[1,vn],vn是第n个轴成员集合的势。

dj,w={Uw y=1{1y}},(6)

式中:Uw y=1{ly}表示唯一的项目概念信息元素集合,ly用来指定维度表中的唯一的项目概念信息元素,y∈[1,w],w是项目概念集合的势。

维度模式中的轴成员信息元素集合和项目概念信息元素集合的笛卡尔乘积构造了影子财务信息元素集合,形成了以维度模式为纽带连接影子财务信息元素和XBRL-FRT的桥梁。仍以建模通用分类标准的无形资产增减变动信息表为例,通过对轴成员信息元素和项目概念信息元素进行笛卡尔乘积,可以得出该建模方式可以构造出32个影子财务信息元素【2*16】。如:土地使用权原价年初账面余额,专有技术原价本期增加额和专有技术期末账面余额等影子财务信息元素。所以,影子财务信息元素集合ej,可以形式化为:

ej=Uv1 x1=1{rx1}×Uv2 x2=1{rx2}×…×Uvn xn=1{rxn}×Uw y=1{ly},(7)

式中:ej由n个轴成员信息元素集合和1个项目概念信息元素集合的笛卡儿乘积构造而成,Uv1 x1=1{rx1}、Uv2 x2=1{rx2}、Uvn xn=1{rxn}和Uw y=1{ly}的含义与公式5和公式6的含义相同;表示集合的笛卡儿乘积。

3. 财务信息元素。

财务信息元素有广义和狭义之分。广义的财务信息元素是企业利用有关概念、术语、数字和短语等,对企业已经发生的交易和事项、执行的会计政策与制度、企业的财务环境等单独和综合性状况进行描述,是财务信息的最小语义构成单位。所以,广义的财务信息元素是XBRL-FRT的基本单元(张天西,2006)。广义的财务信息元素包含了前文中的结构信息元素。狭义的财务信息元素是将结构信息元素从广义的财务信息元素剔除后的财务信息元素,包含了非表格类信息中直接定义的财务信息元素以及由结构信息元素构造的影子财务信息元素。以通用分类标准的管理费用明细信息为例,其中的职工薪酬、咨询费和排污费等信息元素就是非表格类的财务信息元素,属于狭义范畴;同样,上文中的土地使用权原价年初账面余额是影子财务信息元素,也属于狭义范畴。广义的财务信息元素包含了狭义的财务信息元素,反之则不然。

影子财务信息元素没有在XBRL-FRT中直接定义,而是由多维表格中的轴成员信息元素和项目概念信息元素组合建模而形成,为了与非表格类信息中直接定义的财务信息元素相区别,可以将该财务信息元素称为影子财务信息元素。

四、 结论

元组和维度是构造财务报告附注中多维表格信息的两种微观建模方式。本文在深入剖析两种微观模式的构造的基础上,对其进行了形式化描述,提出了在构造多维表格信息时,元组模式中财务信息元素是构建XBRL-FRT的最基本单元;维度模式中表、轴成员和项目概念等结构信息元素是构建XBRL-FRT的最基本单元;由轴成员和项目概念信息元素构造了影子财务信息元素。对现有的XBRL财务信息元素理论进行了细分和扩展。

参考文献:

1. 张天西. 网络财务报告:XBRL标准的理论基础研究. 会计研究,2006,(09): 56-63+96.

2. 杨周南,赵秀云. 会计标准国际化与我国财务信息分类法的构建. In 中国会计学会第六届理事会第二次会议暨2004年学术年会,中国陕西西安,2004:6.

3. Graning,A.,Felden,C.,Piechocki,M. Status Quo and Potential of XBRL for Business and Information Systems Engineering. Business & Information Systems Engineering,Aug,2011,3 (4): 231-239.

4. 张天西,黄长胤,吴忠生. XBRL中的财务信息元素的粒度研究. 会计之友,2011(21): 22-30.

5. Kim,J. W.,Lim,J.-H.,No,W. G. The Effect of First Wave Mandatory XBRL Reporting across the Financial Information Environment. Journal of Information Systems,2012,26 (1): 127-153.

6. Vasarhelyi,M. A.,Chan,D. Y.,Krahel,J. P. Consequences of XBRL Standardization on Financial Statement Data. Journal of Information Systems,2012,26 (1): 155-167.

7. Hoffman,C. Digital Financial Reporting Using an XBRL - based Model. DIGITAL FINANCIAL REPORTING,2012,(DRAFT VERSION)(8): 76.

8. 黄长胤. XBRL财务报告分类标准的层级扩展研究. 上海交通大学博士论文,2012:105-122.

信息通信的概念例6

信息伦理学是20世纪70年代形成的一个新兴学科,它的出现是与社会的发展变化相一致的,它是现代社会的产物。作为一门在信息科学与伦理学交叉点建立起来的信息伦理学,是一门以信息伦理为研究对象,探讨信息伦理的生成、本质、功能及其发展规律的科学。当今,人类身处新世纪的初始阶段,社会信息化给信息伦理学的繁荣提供了前所未有的发展契机。经过国内外学者近30多年的初步探索,信息伦理学学科体系初步形成。随着信息伦理理论研究的深入,构建科学的、具有中国特色的信息伦理学理论体系,已成为信息界理论工作者和实践工作者共同关心的一个课题。

1.构建我国信息伦理学理论体系的原则

任何一门学科,都必须有它不同于其它学科的理论体系,形成独特的理论体系,这是一门学科建立的标志。学科理论体系是否完善,在很大程度上反映一门学科的发展水平。关于理论体系在学科发展中的重要性,黑格尔在谈到哲学的理论体系对哲学的重要性时的看法很具有代表性。他曾提出,“哲学若没有体系,就不能成为科学。没有体系的哲学,只能表示个人主观特殊心情,它的内容必定是偶然性的。哲学的内容,只有作为全体中的有机环节,才能得到正确的证明,否则便只能是无根据的假说或个人的主观确信而已。鉴于理论体系在学科发展中的重要作用,构建学科理论体系一直是学科建设的重心所在。因此,著名科学史学家G霍尔顿提出;科学的主要任务,就是要从那些混乱和不断变化的现象中探索出一个有秩序和有意义的协调一致的结构,并以这种方式解释和超越直接的经验。”对于信息伦理学学科而言,这些道理同样是适用的。

万物皆系统。信息伦理学及其理论也不例外。我们在构建信息伦理学理论体系时,除了应用唯物辩证法外,还应以系统论所提示的一系列科学方法、原则作为指导。

1.1整体性原则

我们不能将视野仅仅局限于传统的伦理和伦理学,而应开阔视野,将宏观信息与传统的伦理学统一起来,透过各个子系统、要素之间的组织性、相关性、有机性,从总体上构建信息伦理学理论体系。

1.2有序性和动态原则

有序性原则认为,系统内部诸要素之间的相关性有一定规则,而不是杂乱无章的,认识一个系统也就是要认识相关性中产生的“有序性”或规则性。这一原则表明,系统内部的“序”必须在与环境的物质、能量信息的动态交流中,才能保持和发展起来。人们从系统内在的有序过程和系统与环境的交换过程来分析系统,认识就进入到系统整体性的本质中。这就要求我们在构建信息伦理学理论体系时,要充分考虑理论体系内部各个理论要素之间的相关性,使之保持有序性;同时,要从动态上研究信息伦理学理论与信息环境之间的关系。以社会信息环境作为研究的起点,可深入到信息伦理系统整体性的本质中。

1.3等级系统和系统发展原则

等级系统原则就是将系统与系统之间的关系划分为等级式的不同层次。系统的形成是从无序向有序、从低级有序向高级有序、从低级系统向高级系统不断演化的历史过程。因此,系统的等级存在本身是系统自身发展变化的产物。我们必须从发展的观点,从有序性不断飞跃的观点来看待事物的系统。这就要求我们在构建信息伦理学理论体系时,要充分考虑各个子系统之间的层次性。

2.构建信息伦理学理论体系的方法论基础

科学方法论是关于科学认识活动规律的概括和总结,是关于科学研究方法的理论。科学发展史表明,任何一门学科的理论研究,只有应用科学的方法才能

真正揭示事物的内在规律,建立起科学体系。科学的方法论是构建一门学科的根本前提,也是一门学科走向成熟的标志。因此,构建信息伦理学理论体系,必须以科学的方法论为基础。

2.1确定学科的逻辑起点是构建学科理论体系的关键

一门学科的理论体系,是指该门学科的概念和联结这些概念的判断所组成的逻辑系统。构建学科理论体系,关键就在于确定学科的逻辑起点。所谓学科的逻辑起点,就是学科理论体系中最抽象、最简单的概念,是范畴体系的出发点或称逻辑始项[3]。作为构建学科理论体系逻辑起点的概念,必须符合以下几个规定:

首先,作为逻辑起点的概念必须是科学的概念。从逻辑学的角度看,概念有科学概念和日常概念之分。作为逻辑起点的概念必须是科学概念,必须是反映客观现实的概念而非主观臆造的概念,必须是经过分析、综合、抽象、概括等思维过程所形成的具有明确的内涵和外延的概念,人们对该概念所指代的东西不会产生误解和歧义。

其次,作为逻辑起点的概念必须是学科概念中最基本、最简单、最抽象的概念。任何一门学科都会有很多科学概念,但并不是任何一个概念都可以充当逻辑起点,作为逻辑起点的概念必须是一个高度抽象化的、在科学理论体系中属于核心地位、起着基础性作用的概念,本门学科的其它概念均可以通过它加以说明。

再次,作为逻辑起点的概念必须是包含了所有研究对象的一切矛盾的“胚胎”和“萌芽”的概念,从这个概念出发,可以推演出学科理论体系中的所有概念和关系。

最后,作为逻辑起点的概念必须能体现逻辑与历史的统一。恩格斯指出:历史从哪里开始,思维进程也应当从哪里开始,而思维进程的进一步发展不过是历史过程在抽象的、理论上前后一贯的形式上的反映,这种反映是经过修正的,然而是按照形式的历史过程本身的规律修正的。这时,每一个要素可以在它完全成熟而具有典范形式的发展点上加以考察。”[4]从恩格斯的话可以看出,学科理论体系的逻辑起点应与学科研究对象领域内人类实践活动的起点相一致,学科理论体系的逻辑演进应与学科研究对象领域内人类实践活动的发展相吻合,能够体现逻辑与历史的统一。

2.2从抽象上升到思维的具体是构建学科理论体系的基本思路

从逻辑学的角度看,任何理论体系都是一个范畴体系,都是通过范畴体系来解释其所研究的全部对象的。那么,怎样确立范畴体系呢?马克思在《政治经济学批判》导言中指出,人们对事物的认识是沿着从具体到抽象、由抽象到具体两条道路进行的。按照马克思的看法,学科理论体系的展开(叙述)虽然必须在对具体材料的研究基础上进行,在研究工作完成之后,“现实的运动才能适当地叙述出来”,但学科理论体系的展开方法(叙述方法)与研究方法不同,它是从呈现在我们面前的先验结构开始的。总之,根据马克思主义的观点,构建一门学科理论体系的方法就是从抽象上升到具体。

2.3逻辑分析、演绎推理等思维过程是构建学科理论体系的主要手段

我们把学科理论体系中最抽象、最简单的概念作为构建学科理论体系的逻辑起点,相应地,我们把与之相对应的最具体的概念、原理称之为逻辑终点。从逻辑起点向逻辑终点,即从最抽象的范畴向最具体的概念推进,必须通过分析、综合、归纳、演绎等思维过程,推演出一系列中介概念,使理论体系的构建沿着最抽象的概念这个逻辑起点经一系列中介概念到达逻辑终点,同时找出概念间的相互关系、原理间的必然联系,从而构建起学科的理论体系。

在构建学科理论体系的过程中,分析、综合、归纳、演绎等思维过程都起着重要的作用。我们通过归纳、分析、综合对经验事实进行整理总结,形成学科理论体系赖以建立的基本概念和基本原理,之后又通过分析、综合特别是演绎推理揭示概念间的相互关系和原理间的必然联系,从而构建一个逻辑严密的理论体系。单纯依靠其中某一种或几种思维过程去构建一门学科的理论体系,都是不现实的。

以上是构建学科理论体系的科学方法论的基本精神。按照这种方法论构建学科理论体系的典范就是马克思的《资本论》。那么,按照这种方法论构建的信息伦理学理论体系又是什么样的呢?

3我国信息伦理学理论体系的结构和内容

按照科学的方法论构建信息伦理学的理论体系,就是要将信息伦理学的理论体系按照从抽象上升到思维的具体的思路展开。首先,要找出该门学科的最基本、最抽象的科学概念作为理论体系展开的逻辑起点。由于确定逻辑起点的实质是揭示该门学科的研究对象是一种什么样存在,因此一般将这一部分内容称之为存在论。其次,从作为逻辑起点的最基本、最抽象的概念推演出能够抵达逻辑终点的中介概念,形成与之相联系的相应的判断,即该门学科的基本原理和规律,揭示事物的本质。由于这一部分主要是揭示事物的本质,因此,一般将这一部分称之为本质论。最后,从基本原理和规律向逻辑终点推进,推演出基本原理和规律在具体中的体现,得出各种具体的逻辑结论。在应用性学科中,逻辑终点就是基本原理和规律在实践中的应用,因此这一部分一般称之为实践论。

3.1信息伦理学存在论

存在论部分的中心任务就是确定信息伦理学的理论体系的逻辑起点。我们认为信息伦理学的理论体系的逻辑起点是信息伦理观(即规范信息人员行为的伦理道德观念)。那么,这一概念是否符合一门学科的逻辑起点所必须具备的规定性呢?答案是肯定的。首先,信息伦理观是一个科学概念,它所反映的是现实的客观存在,具有明确的内涵和外延,是广为人们接受的概念。其次,信息伦理观是信息伦理学学科中最基本、最简单、最抽象的概念,其它概念(如信息伦理意识、信息伦理关系、信息伦理活动)均可以通过信息伦理观加以说明,它们都是客观存在和发展的。信息伦理观在信息伦理学理论体系中居于核心的地位,起着基础性作用。再次,信息伦理观包含了信息伦理学一切矛盾的“胚胎”和“萌芽”。由此我们可以推演出信息伦理的本质、信息伦理的基本规律、信息伦理准则、信息传播伦理等一系列下位概念。

存在论部分主要讨论以下三个方面的问题:

(1)信息伦理的历史沿革。由于学科理论体系的逻辑起点应与学科研究对象领域内人类实践活动的起点相一致,学科理论体系的逻辑演进应与学科研究对象领域内人类实践活动的发展相吻合,因此,存在论中我们首先从信息伦理的历史发展来探讨信息伦理学是如何顺应社会的需要而产生和发展的。20世纪70年代,信息伦理问题的研究始于美国信息学家WeihergG.M,他于1971年出版了《计算机程序编写心理学》—书,首先对信息技术对社会伦理问题的影响进行了研究。

(2)信息伦理与社会发展的关系。信息社会中出现了一系列的信息社会伦理问题,如侵犯知识产权、非法存取信息、信息技术的非法使用、信息责任归属、信息授权、侵犯个人隐私权和肖像权等。这些社会信息伦理问题应用以往的社会伦理法则是难以定义、解释和调整的,而且,以往的相关法律法规又具有相对的滞后性。这种现状需要信息人员、科研人员和法律界共同研究和探讨[6]。

(3)信息伦理的存在价值。信息伦理是社会信息现象中的伦理道德,是一定的社会道德和道德因素在社会作用下的综合体。它可以指导和纠正个人的信息行为,又可以指导和纠正团体的信息行为,使其符合信息社会基本的价值规范和道德准则,从而使社会信息活动中的个人与他人、个人与社会的关系变得和谐和完善。

3.2信息伦理学本质论

信息伦理学本质论,主要是探讨信息伦理的基本原理。这一部分主要讨论两个方面的问题:

(1)信息伦理的本质。信息伦理是信息伦理学的研究对象,对信息伦理的认识直接制约着人们对信息伦理学的理解和把握。信息伦理又称信息道德,它是调整人们之间以及个人和社会之间信息关系的行为规范的总和。信息伦理不是由国家强行制约和强行执行的,而是依靠社会舆论的力量,依靠我们的信念、习惯、传统和教育的力量来维持的m。

(2)信息伦理学的研究对象。信息伦理的形成有其特定的社会背景,即信息的激增、信息经济的崛起与壮大、信息技术日新月异的发展以及人们观念的更新。因此,我们可以说,它的形成根植于社会实践的需要,其存在和发展有牢固的根基。因而,我们可以认为信息伦理学的本质是一门应用性和综合性的伦理学,是一门以信息伦理为研究对象,探讨信息伦理的生成、本质、功能及其发展规律的科学。

3.3信息伦理学实践论

揭示信息伦理学的本质和研究对象,目的在于用理论指导实践。由于信息伦理学主要是一门应用性学科,因此,实践论在信息伦理学理论体系中占有十分重要的地位。实践论部分主要讨论的问题有:

(1)信息伦理学原理:主要研究信息伦理学的基本理论问题,包括学科性质、研究对象、体系结构、理论基础和相关学科等。

(2)信息伦理学方法论:主要研究信息伦理学方法体系构成及其内容。

(3)信息伦理学发展史:人类的信息伦理可追溯到古代传统的伦理,因而,研究信息伦理的历史沿革无疑是必要的。通过对其发展史的研究,我们可以借鉴以往的经验,为现代信息伦理流动提供有益的启示。

(4)信息资源理论研究:以信息资源作为研究对象,研究信息资源的基本概念、类型、结构、布局以及信息资源的成本、价值问题,目的是对信息伦理作进一步深入的研究。

(5)信息政策研究:主要以信息政策的作用、类型,制定的原则、程序等为研究方向,从理论上为信息政策的制定和有效实施提供保证。

(6)信息伦理教育学:该分支学科探讨社会环境对信息伦理研究人员的知识结构、实际技能、人才本身的素质等方面的要求,教学方法与手段的研究,以及如何确定培养目标和课程体系以更利于人才的培养等等。

(7)信息心理学:该分支学科主要研究人与信息的关系,信息对人的心理和行为的影响及如何消除信息给人们造成的不利心理影响,如何培养健康的心理素质等。

信息通信的概念例7

用户在信息空间中的“迷航”会使他们感到厌倦而丧失获取信息的信心,分析其原因,主要包括以下几个方面[1,2]:

(1)网络的巨大信息量使人们必须依赖于自动化的处理技术。但是目前因特网的各个网端的技术支持环境比较复杂,信息资源的内容范围、组织结构和存储方式各不相同,呈现出分散、无序、变幻多端的特点,这使自动信息处理技术的应用困难重重。因此要提高信息导航的效率和质量,必须先解决资源异构的问题。

(2)网络信息空间中的数据大多以半结构化和非结构化的形式存在,对信息资源的内容缺乏形式化的语义描述,而且大部分资源间的链接也没有反映语义关系,这使得机器很难对网络信息空间进行深层次的理解和处理,对信息的自动导航也无法像人工操作那样准确有效。

(3)目前的网络导航系统缺乏个性化的信息服务。由于知识背景的差异和一词多义等方面的原因,不同的网络用户之间、用户与系统设计者之间对于问题和信息内容可能会具有不同的理解与认识,当用户按照自己的思路查找信息时,他所选择的导航路径可能是错误的或者低效的。因此信息导航必须考虑具体用户的特殊性,有针对性地提供导航服务。

(4)网络导航系统的设计缺乏规范。门户网站各自依据不同的标准建立自身的分类导航系统,网站的划分随意性较大,常常引起用户的困惑。一些著名的信息搜索引擎也各自采用不同的检索规则,有些系统不能利用历史信息或者不提供二次检索,给用户的使用带来不便。另外,在网站内部的导航系统设计上,也存在着导航结构不合理,导航要素不完整,导航界面不统一等问题。这些都可能造成用户的导航障碍。

由此可见,造成信息“迷航”问题的主要原因在于缺乏信息空间的合理组织和有效的导航机制,这也是第二代web网络技术难以克服的困难。为此,人们正在研制第二代web网络——SemanticWeb,它以结构化信息表示为主,为网络导航研究开辟了新天地。

2SemanticWeb技术

TimBernersLee在1998年提出了SemanticWeb的概念。2001年2月,W3C组织正式推出SemanticWebActivity,使网络环境下的语义处理技术研究渐入佳境。SemanticWeb研究活动的目标是开发一系列可由计算机理解和处理的语义表示语言和技术,通过显式的语义表示和领域本体将网络信息空间编织成为一个巨大的机器可读的知识网络,以支持自动化的信息访问和知识管理,实现高质量的网络信息服务。目前关于SemanticWeb的研究主要集中在网络信息资源及其内容的语义和语义关系表征,基于语义的数据自动分析、理解和处理,不同应用领域和系统间的数据自动交换、转换和复用[3]。SemanticWeb虽然是现有web网络的延续,但在信息导航方面具有许多普通web没有的优势。SemanticWeb中的节点既可以代表物理页面,也可以代表知识实体;SemanticWeb中网页的内容不但可以被人理解,而且可以被机器理解;SemafiticWeb中的链接不再是任意的,而是遵循一定的语义关系。通过SemanticWeb技术,可以改变现有网络松散的数据结构,将信息资源结构化并赋予含义,使网络信息的整合和自动处理都变得更加容易[4]。

2.1本体

所谓本体(Ontology),实质上是描述特定应用领域知识的公认的术语集。关于奉体的定义,比较著名的观点是“本体是概念模型的一个显式的规格说明”和“本体是共享概念的一个形式化的规格说明”,其中,“概念模型(Conceptualization)”是指通过对某个客观现象的相关概念进行辨析和提取而获得的关于该现象的抽象摸型;“显式(Explicit)”是指对所使用的概念的类型,以及这些概念在应用上的约束都给予明确的说明;“形式化(Formal)”表示本体以计算机可读的形式存在;“共享(Share)”表示本体中反映的是共同认可的知识”[5]。

本体通常表达为一组对象(概念)、关系、函数、定理和实例。本体中的对象类按照等级关系组织成基本的结构体系。等级关系包括例化(is-a)关系、类属(kind-of)关系和整部关系(part-of)。上层的对象类为父类,下层的对象类为子类。对象类具有各自的属性,并可依据父子关系继承。对属性的取值对象、取值范围、取值基数等都可以加以限制,还可以对属性的交换性、对称性、传递性、唯一性等进行定义。除了等级关系,本体中的对象类间还可以具有其他语义关系,形成语义网络形式的概念模型。本体是机器自动推理和智能化高级信息服务的基础,对网络而言,一个简单的本体的典型例子就是网络的分类索引(如Yahoo!的分类目录)。本体的应用对于提高网络导航的精度和效率具有重要的意义[1,4)。

2.2RDF和RDFS

RDF是由W3C开发的元数据描述机制,其目的主要是为元数据在网络上的编码、交换和重用提供一个基础。它允许在XML的基础上以一种标准化的、互操作的方式对数据语义进行定义[4],提供了一个描述web资源的数据模型。RDF包含描述资源的属性和关系的声明。资源是任何用URl(UniformResourceIdentifier)唯一标识的实体对象。资源具有属性,属性则具有一定的值,该值可能是简单的字符串或数字,也可能是自身也具有属性的其他资源。这样,资源、资源属性和属性值构成了RDF声明中的三元关系模式,任何本体或描述性元数据都是这种三元关系模式的具体体现”[1,7]。

为了描述元数据元素间的复杂语义关系,W3C进一步定义了RDFS(RDFSchema)。它可以看成是一个本体定义语言,用来建立概念类体系结构、属性层次和类关系。

3基于SemanticWeb的智能导航机制

SemanticWeb的出现为网络信息导航提供了新的研究思路,SemanticWeb技术是解决无序网络空间中“迷航”问题的关键技术。基于SemanticWeb的智能导航是一种以结构化、语义化的概念知识网络为基础,自动形成个性化导航结构的方法。它分为两个方面,一是基于SemanticWeb的信息组织,即利用参考本体对各信息源进行语义描述和整合;二是基于SemanticWeb的个性化导航结构模型的构建,即在有序语义组织的基础上,构造用户语义模型,并据此建立导航结构。图1显示了基于SemanticWeb的智能导航机制的概念结构[8]。

3.1基于SemanticWeb的信息组织

基于SemanticWeb的信息组织的基本思想是,将来自于多个异构信息源中的数据整合到一个语义统一的参考本体中。参考本体是通过分析领域中的各个信息资源集合,提取公共概念、属性和关系而构建的本体,它为所有信息资源提供统一的概念集合和通用语义。

信息整合的方法是先分别将各个信息源中的数据转换为通用的数据模型,然后建立各个数据模型和参考本体之间的映射关系。网络中的信息源具有各种各样的数据格式,其中大部分是HTML页面,有的包含表格和列表。另外还有XML文档、RDF文档以及关系数据库文档等。为了解决分布式异构信息源的语法相异问题,需要将数据转换为公用的数据模型格式,例如RDF。对于非RDF格式的信息数据,可以利用外覆包(wrapper)技术将其自动地转换为基于RDF的数据模型。外覆包对特定格式的数据文档进行解析,并采用RDF声明对其内容进行标注。下面是三种常用的外覆包:

(1)HTML外覆包。由于HTML页面属于半结构化的信息数据,因此HTML外覆包采用的是半指导性的标注方法。即预先手工标注一组HTML页面,然后对新的HTML页面进行结构分析,将新页面与标注页面进行比较,从中提取相关信息。HTML外覆包还可以处理异构的XML文件[1]。

(2)XML外覆包。根据DTD和Schema所定义的XML文档的内容结构和内容元素,建立概念集与DTDSchema之间的映射关系,从而自动地将XML文献中的DTD内容元素标记转换为对应的概念集元数据标记。

(3)关系数据库外覆包。将关系数据库中的数据元素和二维数据关系映射到概念集中,形成语义基础,以便从关系数据库中自动创建RDF声明。

由于不同的信息提供者可能会使用不同的词表来标注数据,因此在建立通用数据模型后,还必须在信息数据源和参考本体之间建立概念和关系的映射,以消除语义差别。根据RDF声明,在参考本体中注册相关内容的来源,使参考本体成为一个知识内容的集成文件。另外,采用基于本体的元数据发现和漫游技术,探测相关的RDF声明,可以自动地添加新的信息资源[8]。

3.2基于SemanticWeb的个性化导航

通过建立参考本体以及进行信息整合,无序异构的网络信息数据通过语义概念及语义关系被组织到一起,形成一个有序的公共语义知识模型。但是对于具体网络用户的信息导航,并不直接在全部公共语义模型上进行,而是依据用户语义模型有针对性地进行。

3.2.1用户语义模型

用户语义模型是反映用户观点的概念集合和概念关系。概念集合的确定可以由用户直接提交或者根据用户的注册信息(用户的兴趣、爱好和知识背景等)按照一定的规则计算选择。而构建用户语义模型的关键步骤在于建立用户概念集合与参考本体间的语义映射,寻找参考本体中与用户相匹配的概念和关系。

为了将参考本体映射到用户语义模型,需要预先对参考奉体和用户概念集合进行数据训练,方法是为每个本体概念和用户概念各标注一定的相关资源作为训练数据,然后利用向量空间模型为每个概念生成向量,并计算其标准权重。

建立语义映射的过程通过计算用户概念集合中的概念向量uc与参考奉体中的每个概念向量间的匹配度来完成。假设在n维向量空间中,用户概念向量uc中第i项的权重为的匹配度为[9]:

首先将计算结果中匹配度高于阀值的若干概念向量与uc建立映射,形成从用户概念集合到参考本体的一对多的对应关系。如果参考本体的一些概念被重复映射,则需要选择其中匹配度最高的映射,以保证从参考本体到用户概念集合的一对一关系,即一个本体概念只能和一个用户概念相关,但一个用户概念可以和多个参考概念相关。在建立用户概念集合与参考奉体对应关系的同时,用户概念也继承了本体中的概念层次结构和其他语义关系,成为一个独立的语义模型。

原则上应该将参考本体中的所有概念都映射到用户语义模型中,但是由于用户语义模型是范围相对较小的概念集合,因此参考奉体中的概念实际上不可能被完全映射。为了保持映射的完整性,可以在用户语义模型中设立一个“其他”概念类,参考本体中的所有没有被映射的概念将成为它的子概念[9]。

举例来说,假设用户提供的信息表明其在体育领域感兴趣的概念为“足球”、“足球世界杯”、“足球亚洲杯”、“NBA”、“围棋”、“奥运会”,图2显示了这些用户相关概念经过映射后形成用户语义模型的过程。

用户概念集合中的每一个概念都在参考本体中找到了与之相对应的一个或多个概念,将这些概念从参考本体中提取出来,并根据其语义关系重新组合,就形成了用户语义模型的结构。例如:用户概念“NBA”的对应概念为“篮球”、“篮球赛事”和“美国篮球职业联赛(NBA)”,因此这三个概念都被包含在用户语义模型中,且它们之间的父子关系(即等级关系)保持不变。又如,虽然参考本体中的“其他赛事”概念和用户概念集合没有直接对应关系,但由于该概念和“足球赛事”与“篮球赛事”两个概念间有语义关系,且这两个概念均与用户相关,因此该概念也被包含在用户语义模型中。另外,“世界杯足球赛”概念实际上与“足球”和“足球世界杯”两个概念间都具有对应关系。但由于它与后者的匹配度比前者高,因此将它映射到后者。

3.2.2个性化导航结构模型

导航结构模型显示了导航系统组织、关联和显示信息内容的方式。站点地图就是一种最简单直接的导航结构模型。个性化导航结构模型是基于用户语义模型创建的针对特定用户的导航结构,是个性化导航服务的实现。

导航结构的设计需要考虑三个基本要素:卡片、页面和链接。一张卡片只包含一种类型的信息内容,是导航结构模型中的最小组成单元。页面与物理的web页面相对应,一个页面上可以包含若干个卡片。链接则用于连接各个页面中的卡片以形成整体结构[8]。通常,导航结构模型总是从一个缺省的根页面开始,每一级页面都包含了到下一级页面的链接,信息内容通过卡片和页面进行分类和聚合,导航通过链接来进行。在个性化的导航结构建模中,导航结构是根据用户语义模型来确定内容和链接关系的。图3显示了一个导航结构的部分示例,它是在图2中的用户语义模型的基础上建立的。

导航结构的建模过程就是对各级贞面中的卡片的内容、类型和表示样式的确定过程。卡片的内容根据触发点和用户语义模型来选择,不同的用户将获得不同的信息内容。

导航结构中的卡片被分为两种类型:静态卡片和动态卡片。静态卡片的内容独立于数据源,主要包含静态文本、图片等。导航结构中的根页面通常都包含静态卡片,具有预先定义的锚点,指向下一级的页面。动态卡片的内容视数据源而定,如果数据源改变,则卡片的内容必须重新计算生成。动态卡片还可以细分为四种类型,每一种都代表了对信息进行结构化的一种典型方法:

(1)列表型(List)卡片:显示实体的实例列表,每一条实例都可具有指向该实例具体内容的链接入口。列表中的实例可以按照某种属性排序或索引。图3中的页面P2、P3、P4、P5都包含了列表型卡片。

(2)事实型(Fact)卡片:详细地显示一个实例的具体内容,如图3中的页面P4包含的“新闻内容”卡片和页面P5包含的“赛事内容”卡片。

(3)幻灯片型(Slide)卡片:顺序显示一组实例的具体内容,每次一个实例,且具有浏览附近实例的超链接,待显示的实例可以按照某种属性排序或索引。图3中的页面P6包含该类型的卡片,其中每个足球俱乐部的相关信息将被依次显示。

(4)查询型(Query)卡片:要求用户先填写一组实体属性的值,然后查询符合该值的实例并显示,通常该类型的卡片用于导航系统中的信息检索,如图3中的页面P7包含的卡片[8]。

另外,不同的卡片具有不同的表示样式,表示样式描述各种表示元素的属性,例如字体、颜色、布局等。表示样式可以根据用户喜好确定。

个性化导航机制的导航方法采用用户语义模型的查找与语义链的触发相结合的方式。当导航结构中的一个链接被触发时,该链接将被赋予一个查询式Q(C,T,S),式中三个变量的含义分别代表卡片的内容、类型和表示样式,在用适当的值填充变量后,即可利用查询式计算生成链接末端的卡片。例如在图3中,当链接L1被触发后,L1的查询式为:Q(“体育”,List,Stylel),其计算结果为页面P2中的卡片。Q中的变量C的值为L1的触发端点的概念“体育”,Q在计算时将检索用户语义模型,获取此概念的相关概念或相关资源作为卡片的内容。Q中变量T的值为List,因此Q生成的卡片将具有列表型的信息结构。同时,由于Q中变量S的值为Stylel,因此Q还要读取样式表中名称为Stylel的表示样式,并据此决定卡片的外观。同理,链接L2的查询式为Q(“足球俱乐部”,Slide,Stylel),其结果是生成一个信息结构为幻灯片类型,表示样式为Stylel,内容与足球俱乐部相关的卡片”[11,12]。

导航机制采用SemanticWeb技术,揭示和整合网络信息资源的深层语义知识模型,能有效解决无序、异构网络信息空间中的“迷航”问题。它利用映射方法建立用户语义模型,可以充分表达用户需求的语义知识,以提高个性化导航的效率。

4结束语

网络信息的利用状况不容乐观,迫使人们努力探索更为先进更为成熟的导航理论、方法和技术。第二代web技术——SemanticWeb在信息服务中的应用,促进了网络导航新技术的发展。它作为导航系统的信息组织框架,能够使复杂的信息空间变得有序、清晰和直观,它采用机器可读的形式化的知识表示方式,有利于知识内容的自动获取。目前,SemanticWeb技术正获得越来越多的应用,相信经过不断地研究和优化,以SemanticWeb为基础的高级网络信息服务将逐步成熟,智能、高效、个性化的导航系统将成为开发网络信息资源的主流工具。

【参考文献】

1丛敬军,阎辉.数字图书馆的知识信息导航技术研究.中国图书馆学报,2003,29(145):51~53

2马瑞民,衣治安.Web上超文本数据导航方法的研究.情报学报,2001,20(5):538~544

3张晓林.SemanticWeb与基于语义的网络信息检索.情报学报,2002,21(4):413~420

4刘柏嵩.基于知识的语义网:概念、技术及挑战.中国图书馆学报,2003,29(144):18~21

5MikeUschold,MichaelGruninger.Ontologies:Principles,MethodsandApplications.KnowledgeEngineeringReview,1996,11(2):93~155

6JeffHeflinetal.Requirementsforawebontologylanguage./TR/webont-req/

7张平,郭金庚.语义网描述语言分析.电脑开发与应用,2003,16(4):31~33

8OntoWebberModel-DrivenOntology-BasedWebSiteManagement.www-db.stanford.edu/pub/gio/2001/Ontowebber01.pdf

9Ontology-BasedPersonalizedSearchandBrowsing.ittc.ku.edu/~sgauch/selectedpapera/WLAS2003.pdf

信息通信的概念例8

2002年10月美国财务会计准则委员会(FASB)和国际会计准则理事会(IASB)决定联合制定趋同的概念框架。2006年7月,FASB向公众了《财务会计概念框架:财务报告目标与决策有用的会计信息质量特征》(初步意见稿),同样的文件也被IASB,旨在征求各方意见以更好的完善相关理论。随后FASB和IASB共收到了179份回信。FASB考虑了所有的评论和外界的其他看法,在2008年5月,同IASB一起了“征求意见稿”,此次FASB收到了142份回信。之后,在2010年9月FASB同IASB一起促成了《财务会计概念框架:第八号公告》的诞生。第八号概念公告包括两大部分,分别取代了FASB原来的第一号概念公告――《企业财务报告目标》和第二号概念公告――《会计信息质量特征》。本文拟就第八号财务会计概念公告的财务报告目标部分试做探析。

一、第八号概念公告与第一号概念公告的比较

1.报告目标表述上的不同。在第二号概念公告中,财务报告的目标是提供对现在和潜在的投资者、债权人及其他使用者进行投资、信贷及类似决策有用的信息。而第八号概念公告中,财务报告的目标是为方便现在与潜在的投资者、出借人及其他债权人进行企业资源配置决策而提供有用的财务报告信息。

2.报告主要使用者方面的不同。定义财务报告的主要使用者,才能使财务报告的目标与要求更加明确。第八号概念公告中明确指出财务报告的主要使用者是投资者、出借人和其他债权人。第二号概念公告虽指出与权益和债务投资有关的使用者是财务报告的主要使用者,但其所指的投资者和债权人是广义的,包括提供建议的人和人,而第八号概念公告虽不排除为决策者提供建议的人,但更直接地关注为企业提供资源的使用者。

3.报告信息的关注点不同。第八号公告指出财务报告不应当把有关财务状况或是经营成果的信息作为财务报告最重要的信息。第一号概念公告认为财务报告最重要的信息是企业的收益及其构成即经营成果方面的信息,但第八号公告认为财务报告要想对决策有用就必须提供有关企业资源、权利及其变动即财务状况方面的信息。因为企业的收入、损失、利润等都依赖于企业的资源与权利。此外第八号公告指出财务报告应当关注资源配置决策,因为资源配置决策还能同时反映出管理者履行受托责任的情况。其他方面的不同:(1)报告局限性方面的不同。第八号概念公告客观地指出了第一号概念公告中没有指出的财务报告的局限性。第八号概念公告中指出:财务报告只能提供通用的信息,不能保证为主要使用者提供所有信息。(2)第八号概念公告对通用财务报告目标的实用性有了客观认识。FASB清醒地认识到随着信息技术的发展,可扩展商业报告语言(XBRL)的使用,通用财务报告的目标可能会过时。但就目前来看,第八号公告中提出的财务报告目标仍是最有效的。

二、评议

(1)世界各国都越来越重视资产负债表的准确性。因为利润表是动态报表,发生舞弊的可能性较大且较难审核,而资产负债表是静态报表,审核更为方便。(2)第八号概念公告认为财务报告的目标同决策有用观一致,认为决策有用观涵盖受托责任观,但并没有忽视管理者受托责任履行情况的反映。例如公告中指出通过关注企业资源与权利的变化,有助于了解企业管理层是如何履行受托责任、保证企业资源的安全性和收益性。我国向来重视决策有用观,但同美国相比,我国股权分散程度小,中小股东维权意识薄弱,应该更加重视反映包括中小投资者在内的报告使用者所需要的信息。(3)虽然FASB把报表扩展到了报告,但却未明确指出报告应当包含哪些信息。目前国际上越来越要求财务报告进行前瞻性信息披露、分部披露、现金流量信息披露、社会责任披露、针对非本国使用者的特殊披露、公司治理披露和网络经营报告披露。我国也应当在这些报告信息的披露方面有所完善。

参考文献

[1]美国财务会计准则委员会.《财务会计概念框架:第八号公告》.2010(9)

信息通信的概念例9

[分类号]G253

目前,数字图书馆正在向为用户提供个性化服务发展。通过研究,我们发现个性化服务的质量往往取决于图书推荐技术、检索技术。因此建立用户兴趣模型,是整个个性化服务系统建设的关键。建立用户兴趣模型的实质是将潜在的用户需求用显性的方式表达出来,并借用计算机技术和信息处理技术,由系统对用户服务进行维护、管理。

基于本体的用户个性化服务是一种借助领域本体,通过自动保存用户查询历史记录文件,运用所构建的用户兴趣模型对本体构建用户需求和服务资源内容进行匹配的机制。

1 本体及其构建的相关理论基础

本体概念来源自哲学学科,主要用来揭示事物的本质,是“共享概念模型的明确的形式化规范说明”。本体不仅能够准确描述某一概念的内涵、外延及其内在联系,还可以通过逻辑推理进行语义表达。作为能在语义和知识层面上进行概念描述的工具,本体在知识工程以及图书情报等领域得到了较多的实践和应用。

本体作为知识的一种组织方式,既定义了组成该领域词汇表的基本概念和相互关系,又定义了这些关系外延的规则,能够真实地反映事物本质。具体而言,本体就是由一个词汇术语和推理规则所组成的规范组合。

1.1 本体的定义

本体从形式上定义了领域内相关概念间的关系,通过对概念、术语及其相互关系的描述,显现某一领域的知识体系,将概念层次结构和逻辑推理融为一体。

本体是由六元组集合0{C,Ac,R,AR,H,X}组成,其中c是概念集合,Ac是属性集,R是关系集,AR是关系属性集,H是概念层次,x是公理集。其中,cj表示某一领域内相同类型对象的集合,可以由A。(ci)的属性集来进行描述;r;(cp,cq)则表达概念cp和cq之间的相互关系,rj的属性由A“(ri)来表达;H是从集合c中抽取的概念结构,属于c中概念的超类/子类关系集合。

1.2 确定本体的领域与范围

构建领域本体,首先要明确其覆盖的领域和范围,并且,本体的目标、作用和其系统开发、维护以及应用的对象,这些元素对领域本体的建立有很大的关联性,所以应当在构建领域本体前引起注意。此外,能力问题是由基于该本体的知识系统可以回答的一系列问题所组成,通常被用来检验该本体是否满足领域需求,包括:该本体能否拥有足够的信息来回答这些能力问题?而这些问题的答案是否需要特定的领域表示?在领域本体创建的开始阶段,需要我们尽可能列举出该系统的所有概念。

1.3 建立领域本体库

领域本体库是用于描述指定领域知识体系的一种专业性本体,它包括:该领域本体概念及各概念间的相互关系、领域行为以及所属特性和发生规律的一种显性化描述。领域本体确定了该领域内普遍认同的确切概念,通过对概念之间的关系进行语义描述,使用户与机器之间的交流既可以通过语法层次,又可以使用语义层次进行。因此,将领域本体应用到信息过滤的程序中,可以弥补传统信息过滤技术的缺陷。

领域本体库是一个在某领域内的概念层次结构集合,这些概念既可以自己创新,也可以借用已有的主题或词义库。就数字图书馆领域来讲,目前的一些图书馆网站提供了自助创建的在线层次主题,每个主题对应着一系列相关的页面供个性化用户浏览,这种形式为本文构建数字图书馆动态用户兴趣模型提供了借鉴。

2 构建数字图书馆领域本体个性化服务

2.1 建立本体框架

基于领域本体所产生的概念集,需要按照特定的逻辑规则对这些词汇进行重新组合,形成各自不同的领域,而对于同一领域的词汇概念而言,其相互之间的关联性应该较大。

另外,还需要对各个领域中每一个概念的重要性进行科学评估,遴选出关键术语,剔除掉那些不必要的或相关性较低的概念,用准确而精简的概念词汇来表达该领域的知识体系结构。至此,则形成了该领域知识的概念框架体系,也就是领域本体的框架结构。

根据这一原理和要求,数字图书馆领域本体框架包括:用户、资源库、查询处理、检索等。

2.2 设计元本体

为了描述领域本体的框架结构中的各个概念,需要运用术语对各个概念进行一一标识,并对各个概念的内涵和外延进行确切定义。因此,本文设计元本体来定义概念。对于某个概念,我们既可以选择使用元本体中定义的元概念来定义,也可以选择在本体中已经有定义的概念进行再定义,还可以重新使用已有的本体。

元本体是本体的本体,是用于定义本体的概念,例如:实物、关系、角色、行为等。元本体可以理解为更高层次的本体,是领域本体内概念的抽象表达。

目前,网络上有许多可以使用的本体词汇资源库。使用已有的本体,既可以减少开发的成本,又能增强与其他系统的交互能力。目前来讲,对于数字图书馆,有许多本体都可以通过网络获得。除了定义概念,还要定义概念之间的逻辑关系。而这些逻辑关系不仅要涉及同一工作领域的概念,还可以表达相关工作领域的概念,而所有这些关系都隶属于同一个工作领域。

而在自行创建的概念中,很大一部分属于类,目前来讲,对于类层次的定义主要有以下3种方法:①自上向下法:即先定义领域中那些综合的、概括性强的概念,然后再逐步分解细化说明;②自下向上法:先定义具体的、例外的概念,从定义最底层、最细微类的定义开始,然后再利用这些定义对综合性的概念进行解释;③混合法:即自上向下法与自下向上法混合使用,先建立那些常见的、普遍的概念,然后分别向上泛化与向下细化。

以下,本文将综合运用这三种方法,建立数字图书馆领域本体的动态服务模型。

2.3 动态用户兴趣模型的个性化服务框架

对于数字图书馆这个本体领域来讲,提供基于动态用户兴趣模型的个性化检索服务,需要综合利用搜索技术、查询技术以及用户兴趣调查,寻求满足用户动态需求的最佳结果。建立动态用户兴趣模型在个性化检索中的作用是:在用户发出检索要求时,这些信息被采集用来创建动态用户兴趣模型的基础数据,当动态用户兴趣模型和查询要求一起传输到服务器的时候,向搜索引擎提交查询请求,搜索引擎经过对本体集合的匹配,返回相应的检索结果。检索结果是依据用户的搜索要求内容与动态用户兴趣模型的相似度进行匹配,匹配处理的结果就是返回给用户的选项。基于数字图书馆领域本体的个性化检索服务模型如图1所示:

在基于数字图书馆领域本体的个性化检索服务框架中,个性化搜索推荐的原理是利用用户兴趣模型寻找与之匹配的资源,或寻找具有相近要求的用户群,互相推荐浏览信息。服务器通过动态收集用户的信息要

求和兴趣,自动应用用户兴趣模型,向用户推荐合适的信息资源,并能根据用户的反馈进一步改进推荐。基于领域本体的数字图书馆个性化服务正是依据本体表达的用户兴趣概念,发现与用户要求相关的资源信息,作为结果推荐给用户以及具有相似要求的用户。基于领域本体的个性化服务的推荐框架如图2所示:

其中,信息发现是通过运用元搜索引擎技术,根据用户兴趣模型本体库所表达的用户要求信息,从资源信息库中检索出与用户要求相匹配的资料;信息过滤则是通过用户兴趣模型,在领域本体库的范围内,对检索结果进行过滤处理;处理后的结果就可以通过智能推送给用户,同时通过发现相似用户,把这一检索结果推送给具有相似兴趣的用户,实现协同推荐;最后,根据用户的评价和反馈修正用户模型本体库。

3 基于领域本体的动态用户兴趣模型构建

完整构建一个动态用户兴趣模型的过程主要包括以下内容和环节:获取用户兴趣和检索要求信息、分类用户兴趣和检索要求信息、匹配用户兴趣模型、发送检索结果和动态更新用户兴趣模型等任务。其中,获取用户兴趣和检索要求信息的过程为动态用户兴趣模型的建立提供必要的数据信息资源;用户兴趣信息分类则是将用户兴趣信息按照不同的维度进行分类,得出用户的主题兴趣;匹配用户兴趣模型是将用户兴趣信息与已有的领域本体库进行匹配,以获得动态用户兴趣模型;用户兴趣模型的动态修正就是根据用户不断变化的需求更新用户的兴趣数据库。

3.1 用户兴趣信息的获取与分类

在数字图书馆的服务中提供个性化信息服务,首先要解决的问题是如何从用户浏览网页的数据信息中提取出用户的主题兴趣信息,即通过收集查看用户的浏览行为来确定用户的兴趣主题。常见的用户兴趣主题的收集方法主要有显式方法和隐式方法。显示方法是用户在数字图书馆的网页上选择符合自己兴趣的信息,可以确切地反映用户需求所在。隐式方法是指整个用户兴趣发现的过程都不直接由用户提供,而是通过数字图书馆管理系统自动获取用户的兴趣信息资料,经过专业工具分析处理后,输出到用户的动态兴趣模型。由于用户兴趣具有很强的时间性和动态性,本文采用隐式方法来获取用户兴趣信息资料。

通过隐性方法获取用户兴趣信息数据的途径很多,包括计算机日志信息、用户访问行为数据、访问页面的链接信息、访问内容、访问时间、下载行为、书签标记情况等。这些用户活动信息资料存储在用户缓存文件夹中,包括用户在检索查阅时间内的所有兴趣数据。然后将这些内容通过归一化、特征向量提取和特征权值计算等过程,用内容向量空间表示其内容分类。

3.2 基于领域本体的用户兴趣信息匹配

用户兴趣信息匹配过程就是通过计算信息内容的向量,计算该结果与领域本体库中概念向量之间的相似度。向量间的相似度计算公式常用内积运算,但是由于领域本体的用户信息兴趣内容文档的长度不一,尤其是长文档具有高词频特点,所以在进行匹配的过程中,需要对长文档进行规范化处理,排除长文档比短文档具有的优势。余弦规范化是同时针对长文档的两个特点进行归一化处理,这也是向量空间模型中最为常用的一种处理方法。

同时,还需要考虑的是访问时间和页面长度。如果用户在一个页面上停留了较长时间,则对这个页面的兴趣值应增加。然而,如果页面长度很长,则时间因素的影响效果应降低。

3.3 用户兴趣模型的构建

根据计算出来的文档向量与领域本体库概念向量的相似度大小,页面被分类到相似度最大的概念下。初始状态下,领域本体库下的所有概念的权重都是0,随着访问的页面不断被分类到领域本体库中相应的概念下,概念权重得以标注和不断累积,产生一个最初的用户兴趣模型。概念的权重代表用户的兴趣分数,权重越高表明用户对该概念的兴趣越大。

3.4 用户兴趣模型的动态更新

为了更好地满足数字图书馆用户的动态、个性化服务需求,需要对用户兴趣模型进行及时更新修正。一般来讲,最初的用户兴趣模型需要根据用户行为的变化而进行更新和维护。随着用户与数字图书馆管理信息系统的不断匹配,用户不断选择新的文档,新的文档又不断被分到相应的类概念下,这时就可以通过扩展激活模块来更新动态用户兴趣模型中的概念兴趣分值。兴趣分值根据激活值进行更新。同时根据实际需要踢掉兴趣分值低的概念,添加用户兴趣分值高的概念。由此,基于领域本体的数字图书馆动态用户兴趣模型框架如图3所示:

由图3可见,本文所提出的动态用户兴趣模型实质上是一个带有概念权重的领域本体实例,是领域本体库的子部分,其构建综合运用了本体和向量空间模型的原理。因此动态用户兴趣模型的描述是基于本体的表示方法和基于向量空间模型表示方法的综合应用。利用本体概念表示用户的兴趣节点,利用概念分数表示用户对此概念的兴趣度。由此动态用户兴趣模型可以由一个三元组来表示:{c,,c:,…,c,}={(c1,w1,T1),(c2,w2,T2),…,(ci,wi,Li)}。

信息通信的概念例10

关键词: 概念;本体;信息抽取;领域本体

Key words: concept;main body;information extraction;domain main body

中图分类号:TP391 文献标识码:A文章编号:1006-4311(2010)14-0158-02

0引言

最近几年来,为了使人们能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的内容,把本体广泛应用于各个信息领域中,同时已经成为目前信息科学研究的一个热点和难点,备受世界很多国家的重视。在信息检索和抽取[1]等领域中,本体发挥着越来越不可缺少的作用。信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。基于领域本体的信息抽取系统,可以实现让用户得到具有个性化的信息服务,同时通过领域本体为信息源提供相应的语义标注,这样可使系统对本领域内的概念以及概念之间的联系有统一高度的认识,从而在一定程度上提高信息服务的查准率和召回率,实现为用户更有针对的信息服务。

1领域本体与信息抽取

1.1 本体的基本概念本体论(ontology)是一个哲学上的概念,是指哲学中研究世界的本原或本性的部分。不少哲学家把本体论看作是西方传统哲学思想(从柏拉图到黑格尔)的主干或”第一哲学”。从本体论的基本概念出发,哲学上把本体论定义为”对世界上客观事物所进行的系统描述”。

1.2 领域本体的概念领域本体(Domain ontology)是用于描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述[2]。

1.3 领域本体[3]在信息抽取中的应用基于领域本体信息抽取是新型的信息抽取方式,它利用领域本体而不是扁平结构的辞典与词表来识别抽取信息,领域本体信息抽取可以在语义层而理解抽取信息,同时可以通过领域本体实例对抽取信息内容进行语义标注,从而提高了信息抽取的查准率和召回率。

1.4 信息抽取检索系统中领域本体的构建知识工程中的本体是人为设计的关于某个领域的概念模型的一种表示。目前己有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过程也是各不相同的。由于没有一个标准的本体构造方法,不少研究人员出于指导人们构造本体的目的,从实践出发,提出了不少有益于构造本体的标准。

2领域本体的构建

2.1 领域本体的设计原则通过分析总结,本体的设计原则可以概括如下[4]:①明确性和客观性:即本体应该用自然语言对所定义术语给出明确的、客观的语义定义。②完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。③一致性:即由术语得出的推论与术语本身含义是相容的,不会产生矛盾。④最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其己有的内容。⑤最小承诺:即对待建模对象给出尽可能少的约束。⑥最小编码偏差:本体的建立应尽可能独立于具体的编码语言。⑦使用多样的概念层次结构实现多继承机制。⑧尽可能使用标准化的术语名称。

2.2 领域本体的构建步骤在实际的构建过程中,根据问题领域和具体工程的不同,形成多种构建本体的方法。目前,知识工程界比较成型的建模方法主要有:如骨架法[5]、企业建模法[6]等。参照这些构建领域本体的方法,结合信息抽取中的具体情况,并参考软件工程中的某些思想,领域本体的构建步骤如下所示。

具体如下:①确定领域本体的范围:明确构建的本体将覆盖的专业领域、应将本体的目的、作用以及本体的用户范围。②列出领域中的重要术语:列举出本系统想要陈述的或要向用户解释的所有概念。③建立本体框架:这时需要按照一定的逻辑规则把它们进行分组,形成不同的工作领域,在同一工作领域的概念,其相关性应该比较强。④设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。⑤对领域本体编码、形式化。⑥领域本体的检验评价。

3信息抽取在手机领域本体的实现

根据以上关于领域本体的设计原则和实施步骤,本文在开发领域信息抽取原型系统时,主要使用手工和半手工的方式实现了手机领域本体,在系统的销售领域中起了很大作用。

3.1 手机领域本体的框架设计基于领域本体的web页面信息抽取主要是利用本身的描述信息进行抽取,因此对网页结构的依赖较少。采用这种方法进行信息抽取,预先需要领域专家采用手工方式书写某一应用领域的本体(其中包括对象的常值、关键字的描述信息)。根据领域本体的概念、概念属性以及属性之间的关系需要建立相应的关系数据库。然后根据本体中常值和关键字的描述信息产生抽取规则。对每个无结构的文本块进行抽取获得各语义项的值,最后将抽取出的目标信息放入根据领域本体的描述信息生成的数据库中。那么,下面对比较重要的数据表及其作用进行各个说明如下。

①实体概念数据表用于保存手机领域中可能相关的实体概念。刚刚建成时,可以通过人工查找、识别出领域实体的一些概念,并保存到数据库中。在此以后,可通过计算机辩别出领域实体概念,并把它追加到数据库中手工进行检验。②实体概念特征词数据表,该表存储每个实体概念在文本中又可能出现的近义形式或术语。例如实体概念“手机”而言,在文档中有可能变成为“大哥大”、“手提”、“mobile”、“mobilephone”。③属性概念数据表用于存储手机领域中可能存在的属性概念。该表主要用于保存属性概念中在真实文本中有可能出现的近义术语或形式。④属性值概念数据表用于保存领域中可能的属性值概念。该表主要用于保存每个属性值概念在文本中出现的术语或形式。⑤概念关系表主要描述手机领域的实体概念之间存在的种种关系。

3.2 领域本体中概念间关系的实现手机领域本体中概念间的关系的表示通过几个概念关系表和各数据表之间的关系来实现。该领域本体由多个数据表组成,它们不仅描述该领域的实体概念、属性概念、属性值和相对应的特征词,而且对实体概念之间的关系、实体概念、属性、属性值之间的关系进行描述。而实体概念关系表描述的是实体概念表中的两个实体概念之间的关系。实体概念、属性、属性值关系表描述的是实体概念、属性、属性值之间的相互关系,如表1所示。

3.3 手机领域本体的具体应用本文的信息抽取原型系统的命名实体识别、实体关系抽取和任务抽取3个抽取任务,对显示器领域本体都有大量的应用,主要集中在如下几方面。

①命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。在命名实体识别阶段,领域本体可以提供许多语义信息。利用这些语义信息对本体中的实例进行实体和关系的抽取有非常重要的意义。基于领域本体的抽取检索系统可以利用本体中的实例进行实体和关系的抽取,并不试图运用规则来发现新实例,不对知识库进行丰富,其目标是抽取的精准率和效率。②信息抽取系统基本上主要采用机器学习算法来实现抽取任务,其目标是最大程度地实现关系的抽取。它实现的关键是算法在关系识别任务中的正确率和效果,适合应用于精粒度的信息抽取。③信息抽取系统基本上都是基于模式匹配的,即首先从文本中学习出事件抽取模式,然后再用抽取模式去发现新的事件。而领域本体的语义信息能够用于抽取模式的获取过程事件抽取模式的自扩展过程,能够对已有的抽取模式进行语义扩展。④此外,在进行文本或某些网页的段落中的一些重要概念提取时,领域本体起了非常重要的作用。

参考文献:

[1]万捷,滕至阳.本体在基于内容信息检索中的应用[J].计算机工程,2003,29(4):122-123.

[2]张志刚.领域本体构建方法的研究与应用[D].大连:大连海事大学,2008.

[3]肖敏.领域本体的构建方法研究[J].情报杂志,2006(2):70-72.