基于RDF的学术资源整合模型-turnitin查重

本论文是一篇本体类学术性论文格式,关于基于RDF的学术资源整合模型相关毕业论文范文。免费优秀的关于本体及知识管理及信息检索方面论文范文资料,适合本体论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘要：论文之类的学术资源可以抽象为知识库,在对论文资源库进行特点分析后可以发现,可以在传统数据格式的基础上容易地利用RDF描述关于网络对象（论文资源）的简单陈述句,利用OWL语言创作论文资源本体,给出相应的查询和逻辑推理机制,最终部署出具有新一代网络特征--语义Web的学术资源知识发现系统,将极大地方便用户的查询和组织者的管理.

关键词：语义Web；RDF；学术资源；本体

中图分类号：TP391文献标识码：A文章编号：1009-3044(2012)09-1985-03

An RDF-based Integration Model of Academic Resources

YAO Jin-feng1, CHEN Lei2

(1.School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China, 2.Department of Computer and Information Engineering, Huainan Normal University, Huainan 232038, China)

Abstract: Resources like papers or thesises can be abstraced as knowledge base. After analysed, we find it is appropriate to describe the Web objects of the academic resources using the Resource Description Frame(RDF) statements, and also, we can create the academic ontology with OWL. This paper proposes a mechami of the semantic query and logical inference, deploys a academic resource knowledge discovery system which has the characters of the Semantic Web, and it will faciliate the user query and the management.

Key words: semantic web, RDF, academic resources, ontology

1概述

对于高校的教师和学生而言,论文之类的学术资源是一种从事学习和科研的重要知识资源,对它们的搜索与发现也是教师和学生的知识获取的重要手段.为了帮助用户的搜索,各高校和一些相关机构都推出了一些论文查询机制（如万方、维普等）,极大地方便了相关人群的使用.

论文资源的组织本质上属于知识管理工程.知识管理所关注的是在一个组织中获取、处理和维护知识.对于大型论文资源库而言,有效地进行知识管理,在机构内部实施先进科学的知识组织与维护方式,对外则提供高效、高质量的用户查询（咨询）服务则是相关机构创造新的价值和增强竞争力的有效保证.目前大多数可用信息只具有弱结构组织形式,从知识管理的角度来说,现有技术存在以下诸方面的局限[1]：

1）信息搜索.当今的互联网通常依靠基于关键词的搜索引擎,这使得搜索的结构总是“高匹配、低精度”,而且从搜索结果的形式来看,总是单一的网页,如果所需要的信息分布在不同的文档中,则用户必须给出多个查询来收集相关的页面,然后自己提取这些页面中的相关信息并组织成一个整体.

2）信息抽取.需要人工浏览搜索的文档,当前的信息组织形式还不能满足智能代理软件（Intelligent Agent）的要求.

3）信息维护.比如术语的不相容性和无法移除过时的信息等.

4）信息挖掘.虽然可以用数据挖掘（Data Mining）等手段提取隐藏在信息数据库中的新知识,但对于分布式的、弱结构化的文档集合,这个任务仍然是困难的.

5）信息视图.经常需要限制某些用户对某些信息的浏览权限.“视图”意味着隐藏某些信息,在传统数据库中很容易做到这一点,但对于论文资源服务网站来说尚难以实现.

基于本体的论文资源语义网的研究的主要目的就是解决上述问题,并借助于自动推理机从给定的知识演绎出一些结论,从而使隐含的知识外显出来,并以期通过相应的代理（Agent）收集和整理信息,为用户提供备选方案.

2语义Web技术基础

语义Web研究的重点就是如何把信息表示为计算机能够理解和处理的形式,即带有语义.它主要基于XML和RDF/RDFS[2],并在此之上构建本体和逻辑推理规则,它完全基于语义的知识表示和推理,从而能够为计算机所理解和处理.

语义网的核心是本体.R.Studer给本体的定义是“一个本体是一个概念体系（Conceptualization）的显式的形式化规范”[3].一个典型的本体由有限个术语以及它们之间的关系组成.术语（Term）指给定论域中的重要概念（如对象和类）.例如,以论文资源为例,标题、关键字、主题、作者等,都是术语.本体中概念之间的关系通常包括类的层次结构.除了子类关系外,本体还可以包括以下信息：属性、值约束、不相交描述和对象间逻辑关系的规定等.语义网通过网络本体语言来定义本体,以本体清晰明确地表达各种词汇集和网络上的不同数据资源间的语义关系,从而在网络上实现不同词汇集和数据资源间的共享以及基于网络的语义查询和推理.因此,在Web中,本体提供了对给定领域的一种共识,这种共识对于消除术语差别是必要的.本体尤其可以用于提高网络搜索的精确度,这是因为搜索引擎可以精确地根据本体中的概念查找相关页面,而不是收集所有出现某些关键词的页面,这样就保证了查询的结果.另外,可以利用本体在网络搜索中试探更一般或更特殊的查询.如果一个查询失败了,没有找到相关文档,看见过引擎可以向用户推荐更一般的查询.甚至可以考虑让搜索引擎主动执行这样的查询.

W3C推荐标准是RDF（Resource Description Framework）[2].它实际上是一个数据模型（Data-Model）.它由一系列陈述（Statement）即“对象－属性－值”三元组,由此,RDF的数据模型可以很方便地描述对象以及它们的关系.实际上,RDF只提供二元谓词（属性）.由于任何复杂的关系都可以分解为多个二元关系,因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型.通过RDF,可以将基于关键词的检索更容易地推进到基于语义的检索.

语义网的基本技术主要包括表示语言（本体开发）、查询语言、转换和推理技术以及相关工具等.其中本体的开发是整个语义网的构建基础,它包括以下一些阶段：确定范围、考虑复用、列举术语、定义分类、定义属性、定义侧面、定义实例和检查异常等.可以充分利用已有的本体或元数据,如都柏林核心元数据（Dublin Core metadata terms）[4]是广为使用的用于资源描述与发现的标准,在利用RDF描述资源时,可以使用其中的一些概念,都柏林核心元数据中典型的概念包括：Title、Creator、Subject等.

从现有知识源（如文本、词典、遗留知识库或本体、数据库模式等）获取领域知识、以（半）自动方式构造或改编本体即所谓的本体学习（ontology learning）,是开发本体的有效途径.由河海大学许卓明教授等提出的“从ER模式到OWL DL本体的语义保持的翻译”较好的实现了这一问题,从而使用户可以方便地将ER模式翻译成OWL DL本体[5].

逻辑推理是语义网的重要内容,根据RDF和RDF Schema建模原语,它所使用的形式语言是谓词逻辑（predicate logic）,这通常被认为是所有（基于符号的）知识表示的基础.用逻辑描述RDF和RDFS的语义排除了二义性,并且是机器可读的,同时也为借助逻辑推理机制支持RDF/RDFS的自动推理提供了基础.但是,对于RDF和RDFS而言,它们可以表示某些本体知识,主要建模原主涉及以及类型层次组织起来的词汇,包括子类关系和子属关系、定义域和值域限定以及类实例,然而,还是有很多特性不支持,如属性的局部辖域、类的不相交性、类的布尔组合、基数约束和属性的特殊性质等.为此,在OWL中增加了一些原语以提供更强的表达能力,从而确保OWL的一些子语言（如OWL DL）对应于一个已经得到充分研究的描述逻辑系统.

3基于RDF的学术资源整合模型研究

在对论文资源库进行特点分析后可以发现,论文资源库属于知识库,传统的论文资源基本上有着良好、统一的格式且有着较好的隐藏数据开发潜力,可以在传统数据格式的基础上容易地用XML根据用户自定义的词汇表编写结构化网络文档,再利用RDF编写关于网络对象（论文资源）的简单陈述句,利用OWL语言创作论文资源本体,给出相应的查询和逻辑推理机制,最终将开发出具有新一代网络特征的论文资源语义网络,极大地方便了用户的查询和组织者的管理.

主要任务包括：

1）本体的产生

语义网上存在着各种本体,包括领域本体和全局本体.为了在进行信息检索时有一个较为统一的模式,以便进行语义推理和检索,要求定义全局本体的概念.可以从下几个方面进行定义.

①领域本体：领域本体又称为全局总体,它是对领域知识的明确清晰的表达,通常用本体语言来进行表述.在一些特定的实际应用中,领域本体及领域本体的合成是很有必要的.

②子领域本体：假定领域D能被分成n个子领域,那么领域D的领域本体也可以被分割成n个子领域本体.由于语义网上不同的领域本体通常用各种不同的本体语言来表述,在进行语义网信息检索的时候需要将这些用不同本体语言表述的领域本体转换成统一的形式.转换过程中不可避免地会出现一些信息的丢失,因此,在进行转换的同时,对来自同一个领域的领域本体进行一定的事例,得到新的领域本体.经过转换后的本体就变成了全局本体,也就是用统一的形式表达的各种领域知识集,它能够用更为精确和统一的方式来表达世界的知识集.领域本体转换成全局本体的过程可以通过本体转换工具半自动化地完成.

2）语义推理

推理是指从RDF文档的显式（explicit）知识出发,得到文档中没有显式描述的隐藏（implicit）的知识.在OWL-DL所依赖的描述逻辑中,推理主要分为概念之间的包含推理（subsumption relationship inferences）和实例与类之间的实例推理（instance relationship inferences）,可以利用这两种推理在论文资源文档中发现传统搜索搜索不到的隐含信息.在RDFS的推理中,需要在前向链、反向链以及混合方式之间进行选择.前向链将所有数据都交给推理引擎,产生新数据后加入到数据集中；而反向链采用逻辑编程技术,当数据模型接受查询时,将查询翻译成目标,引擎利用反向链规则通过匹配三元组进行目标归结.而混合方式则根据实际情况进行不同的推理选择.

3）信息检索

与传统的基于SQL的检索方式不同,用户提交的检索形式是语义检索,它有两个目的,一是将用户从具体苛刻的检索关键词中解放出来,用户只需要了解一组与领域词汇相关的本体词条就可以构建成查询语句；第二是可以通过推理查询查询到更加完备的结果.SPARQL[6]查询语言是W3C的推荐标准,它以子图匹配的方式在一组RDF数据集中进行匹配查询.

系统的框架如图1所示.在图1中,用户向系统提交语义查询,系统在已有的语义资源库中进行语义匹配,最终生成查询结果.仍然可以对查询结果进行语义相关性排序,限于篇幅,该文不对此进行研究.

学术资源库主要通过对传统的资源库进行语义转化而得到,这种转换可以是实例的转化,也可以是建立在传统资源库上的虚拟RDF视图[7].

图1系统结构图

4总结

该文提出一种基于语义Web相关技术的学术资源整合平台模型,它以RDF、OWL本体形式组织学术资源,为用户提供语义查询的结构,通过OWL-DL的内部推理机制,满足用户的推理查询要求,是对传统的查询系统的一种极大的改进.

基于RDF的学术资源整合模型

相关论文

整合学术资源和出版资源,提升数字化服务能力

基于WebService的教学资源整合

基于WebService的教学资源整合

高校双语教学中的教学资源整合

政府审计与注册会计师审计人力资源整合

经济管理类学科实践教学资源整合利用问题

大学物理实验教学资源整合的

刍议高校图书馆信息资源整合系统的设计与应用

抓基础建设分布推进档案目录资源整合

推荐栏目

热门阅读