对异构资源统一检索热的冷

时间:2024-02-17 点赞:47360 浏览:93223 作者原创标记本站原创

本文是一篇数据库论文范文,数据库类有关学年毕业论文,关于对异构资源统一检索热的冷相关研究生毕业论文开题报告范文。适合数据库及图书馆及资源方面的的大学硕士和本科毕业论文以及数据库相关开题报告范文和职称论文写作参考文献资料下载。

[摘 要]从统一检索后台维护人员的角度出发,探讨统一检索系统在代码、全文访问权限、检索字段、二次检索与结果集去重以及巡库维护等方面存在的固有问题,提出相应地对策,即为优化目前统一检索系统功能,呼吁Web开发人员提高专业素质、广大资源厂商能够开放各自的裸数据库.

[关 键 词]数字图书馆 统一检索 跨库检索资源整合

[分类号]G250

近年来,国内很多图书馆都在进行异构数据资源统一检索的研究,许多软件公司也在开发类似系统.据初步统计,国内投入使用或正在测试的统一检索平台已达十余种.在图书情报界,近几年关于统一检索平台、跨库检索系统的研究论文也有大幅增长.笔者在CNKI网站以“统一检索”为检索词进行篇名检索,得到68篇检索结果,其中2007~2010年发表的论文37篇,2004~2006年25篇,而2004年以前发表的论文则非常少.以上迹象表明,当前国内数字图书馆界逐渐掀起了一股“统一检索”热潮,统一检索技术得到了很多图情人的热情追捧,统一检索平台也透着耀眼的光环.

不可否认的是,在数字图书馆电子资源极大丰富的今天,统一检索系统在解决读者检索多个电子资源需要重复多遍登录、检索的问题上,起到了关键性作用.但透过这股统一检索热的背后,笔者发现统一检索在资源整合方面实际上存在瓶颈.由于数据库开发人员的研发习惯、数据库厂商拒绝开放接口等主观人为原因以及统一检索平台同样需要遵守版权协议等客观因素,直接导致了当前统一检索前台开发人员的力不从心、后台配置人员的无可奈何,给统一检索工作带来极大困难,也直接影响到统一检索的用户体验.因此,笔者认为面对当前异构资源统一检索的热潮,图情工作者需要冷静思考,以良好的心态、清醒的认识、有效的措施应对这一现象.

1 统一检索资源整合问题分析

统一检索平台旨在对高校图书馆的各类型电子资源进行有效整合,对分布在本地和异地的各种异构资源提供统一的检索界面和统一的检索语言,为用户提供一种更好的整合检索服务,从而提高资源利用率.笔者从事多年统一检索平台异构资源配置工作,累计已为CAMS统一检索平台配置了70多个数据库厂商的近500个数据库资源,配置库次达到数千次.在实际工作中,笔者发现统一检索平台并不像人们想象中的那么几近完美,在散发耀眼光环的背后,也存在着一些资源整合方面的疑难问题,而这些问题仅依靠有经验的前台开发人员和后台配置人员都是无法解决的.以下将对这些问题进行简要地说明分析.

1.1 代码混乱

一般情况下,对于各类型电子资源页面内容的抽取,统一检索平台是通过对页面代码进行解析后由配置人员进行分析、定位并获取有用信息.可以说,网页分析与提取技术是实现统一检索资源整合的基础,在模拟用户与Web资源交互的过程中,有部分参数值及检索结果中的元数据都是通过网页分析与提取获得的.

如果所有的源代码都严格的符合标准,那么解析就变得比较简单,但是实际上电子资源的源代码情况很糟糕.由于各数据库厂商的开发人员水平、习惯不同导致很多电子资源的Web页面代码散乱,垃圾语句成堆;而Microsoft的IE浏览器又具有非常强大的容错性,很多不符合标准的页面往往也能正确显示,这也纵容了网页设计者制造出大量的不完全符合标准的网页;同时,计算机技术的飞速发展,硬件性能及网络速度的快速提升让垃圾语句成堆的页面也能流畅显示,而一般用户却根本感觉不到页面代码的赘余.上述原因导致并助长了电子资源代码的严重混乱,使得解析变得困难.在这种情况下,开发统一检索平台需要增加额外的工作,平台运行的性能也会降低,即便这样资源配置人员仍然无法将一部分代码混乱的电子资源整合到系统中来.

1.2 全文访问权限问题

当前越来越多的Web电子资源都能提供全文电子资料,加之网络速度的大幅提高,让读者下载或者在线查阅全文文档变得十分便捷.但是对于电子资源整合来讲,全文库的配置则会涉及到版权问题.

正常情况下,数据库厂商在出售电子全文数据库时,都会与图书馆签订相应的全文访问权限协议.相应地,统一检索资源整合也需要遵守该协议.因此,统一检索平台厂商一般都不会代替用户去资源平台获取全文,而是将访问全文的超链接地址直接发送给用户.在提取原检索平台的结果集元数据时,如果是全文库资源,页面显示有链接到全文的URL地址,一般做法是将此URL作为一个元数据信息提取出来,再放到Web页面显示为超链接.此链接对于用户来说是静态的,用户是否能得到全文,完全取决于用户本身的权限以及原资源平台的session控制程度.大多数提供全文的原资源平台都需要通过身份认证来决定用户的使用权限.在高校,身份认证大多是通过IP是否合法来判断,也有一些数据库是通过账号方式.但是,还有一类数据库不仅要求读者IP在合法范围内,还需要访问全文的URL中必须包含有效的session信息才能得到全文.对于这种情况的数据库,统一检索平台整合该库资源时需要查看原资源平台的session控制是如何实现的如果原数据库平台服务器缓存中记载了统一检索服务器模拟访问时的连接信息,即数据库平台认为通过统一检索服务器发送过来的请示是合法的.这时,当读者将获取全文的请求发送给数据库平台时,实际上是以一个与统一检索服务器不同的客户端来访问原资源平台,这种情况下资源平台服务器并不认识该用户机器,会认为这是陌生人,陌生的会话,将提示会话已经过期或者身份不合法之类的信息.这种情况下,用户在使用经过统一检索平台整合后的全文时,其用户体验是非常差的.

1.3 检索字段不同

统一检索涉及不同类型的电子资源整合,如图书、期刊、学位论文以及会议论文等,而每种资源都有自己的检索元数据字段.例如,图书资源常用的元数据有:书名、著者、译者、出版社、ISBN号、出版年等,而期刊资源则包括:题名、作者、关 键 词、刊名、ISSN号、卷、期、开始页、DOI等.

在统一检索资源整合过程中,常见的做法是将资源平台的检索字段与统一检索平台进行一对一的映射,这样当用户在统一检索平台选择某资源检索时,统一检索会将后台配置时映射的所有检索字段呈现出来供用户选择,让用户感觉还在原检索平台上进行操作.在用户只检索同一类型的电子资源时这样做的效果非常好,但是当用户选择多个类型资源同时进行检索时,由于资源不同检索字段差别很大,这种情况下如何取舍检索字段,以提高用户的查准率与查全率就成为资源整合配置时的一个大问题.

目前常见的处理方式仍是将检索字段进行一对一的映射,当用户同时检索多个资源时,后台会将不同的检索字段进行归并.一种归并方式是先按资源类别将检索字段进行划分,按资源类型定义一些共有的检索字段.当读者选择的多个资源属于同一类别时,将该类别共有的检索字段呈现给读者.另一种归并方式是定义最为常见的少数几个字段,例如title、auther、keyword、all.实际上,这些归并方式在给用户提供更多检索功能的同时也存在着隐患.例如,某数据库A提供篇名与作者两个检索字段,数据库B仅提供关 键 词的检索.当读者同时选择这两个资源时,必定会有一个资源是检索不到任何数据的.

1.4 二次检索与结果集去重

统一检索平台提供的二次检索功能是以原资源的高级检索功能为基础来实现的,而不是原资源库的二次检索功能.这就意味着,原资源数据库所具备的高级检索功能是统一检索二次检索功能实现的前提.但实际上有很多数据库并不具备二次检索的高级检索功能,对于这部分数据库在统一检索平台的二次检索用户体验是非常糟糕的.


对于结果集合并去重功能,一直是大家争议的问题.去重功能在理论上是很难做到完全去重的,而统一检索平台要实现这一功能更加困难,这是因为统一检索面对的是不同数据库厂商千差万别的不同种类的数据资源,去重难度更高.如果统一检索平台想达到比较好的去重效果,必须使用专业的去重算法及软件.

1.5 C/S结构

在实际资源配置工作中,笔者发现很多资源库的运行平台特别是一些古籍文献库采用C/S框架结构.访问这类资源需要在读者机器安装客户端程序,检索与获取文献的模式与通常的B/S结构完全不同.对于此类结构的资源库在整合过程中不能按传统流程进行模拟访问,给统一检索资源配置技术人员带来很大的困难.

1.6 iFrame技术及Aiax技术

某些资源平台采用了iFrame框架结构,在整合这类资源时,网页分析程序不能解析到iFrame页面中的内容,无法完成信息抽取.而Ajax技术主要目的在于局部交换客户端及服务器之间的数据.应用Ajax技术的页面,无可避免地会有部分业务逻辑在客户端的实现,或者是一部分在客户端一部分在服务器.Ajax技术给模拟用户访问资源进行检索的流程增添了难度.所以对于部分Ajax复杂应用,统一检索无法完成整合.

1.7 巡库维护成本高

由于数据库厂商对各自数据库平台会不定期地进行升级、更新HTML源代码、URL等信息,统一检索后台资源配置人员需要定期巡库,检查上述问题并逐个修改统一检索后台配置.如果只有几十个数据库时,这一工作尚可完成.但当资源配置人员面对的是上百个数据库的近千种资源时,这一工作量是很大的.更重要的是,在数据库已经更新而统一检索尚未更新时,这些数据库是无法检索成功的,用户的体验相当糟糕.

2 解决统一检索资源整合问题的对策

目前图书馆对统一检索平台的需求非常强烈,如何对各类异构资源进行有效整合也一直是数字图书馆领域需要不断研究和解决的问题.笔者认为,如果一个统一检索平台能较好的解决上述问题,那么其整合能力将会非常出众,带给读者的也将是良好的用户体验.但实际上,一个优秀统一检索平台的诞生需要电子资源设计人员、统一检索开发人员、后台资源配置人员的通力合作.对目前异构资源统一检索整合过程中的上述疑难问题,笔者认为可以从以下几方面进行改进、加以完善.

2.1 简化统一检索功能

事实上简单实用的才是最好的.一般情况下,用户都喜欢界面简单清爽、功能直观易用的软件.从这个角度来说,统一检索本身应该好好反省.统一检索平台的主要目标是引导读者利用资源数据库,扩大读者使用资源的范围,帮助读者从更多的资源中获取文献.而不是大包大揽,让读者完全摒弃原电子资源平台精心设计的检索功能.读者利用统一检索多库同时检索的功能可以大致了解自己希望查阅的文献的收录情况,但是当读者真的需要对某个具体文献进行查阅或是对某个资源库进行详细的检索研究时,他当然可以也更应该直接进入原资源平台的检索界面使用其个性化的高级检索功能.

基于此,笔者认为对于一些&#

本文是一篇数据库论文范文,数据库类有关学年毕业论文,关于对异构资源统一检索热的冷相关研究生毕业论文开题报告范文。适合数据库及图书馆及资源方面的的大学硕士和本科毕业论文以及数据库相关开题报告范文和职称论文写作参考文献资料下载。

8220;众口难调”的功能,应当坚决舍弃.例如检索字段归并、二次检索、结果集去重甚至全文下载的功能都可以去掉.

2.2 遵循标准化协议

OpenURL是目前较为常见的一种互连机制,国外的很多数据库厂商都可以提供该接口.笔者了解到国内的厂商中维普数据库也采用了OpenURL标准;另外还有Z39.50、Zing、OAI以及WebService等接口,都是标准的协议.但目前仍然有很多数据库平台并不支持这些接口,有的平台虽然支持,但厂商也并不轻易开放,更多的资源还是通过HTTP协议模拟用户行为来进行统一检索整合.

为了更好地实现开放链接,更好地实现统一检索,希望更多的厂商能遵循和支持国际标准的检索协议,并能以开放的态度欢迎第三方应用平台进行集成,从而实现双赢.

2.3 提高Web开发人员专业素质

前面提到很多电子资源的Web页面代码散乱,垃圾语句较多.浏览器的良好兼容性又将这些不规则的代码掩盖了,一般用户不会在意.但无论是从专业素质还是节约电脑、网络资源的角度讲,Web页面的开发人员都应该养成良好的代码编写习惯、规范这些不规则的代码,这样就会尽可能避免低级失误和不必要的麻烦,从而加速研发进程,提高研发质量,也为通过TCC-IP协议模拟用户行为进行统一检索整合提供了保障.

2.4 顺应新技术

随着技术的进步,新技术将不断出现和普及.例如:OpenSearch、SRU、MXG、Ajax、RSS、WebService、语义网、面向服务的开发模型等技术.SRU和MXG是国际新发布的标准检索协议,协议制定的目的就是使各种资源支持统一的接口,便于被统一检索系统集成.统一检索平台厂商需要时刻不停地对自身做出调整,以应对技术的更新.

2.5 支持裸数据库

支持直接通过裸数据库进行整合,能解决某些仅有数据库信息或者因为某些原因无法整合的资源,通过增加一个统一检索的整合中间层直接读取低层数据库来完成整合.这样的话,就基本能做到100%的整合成功率了.不过这种做法必须得到资源厂商的配合,他们需要开放各自的裸数据库.

相关论文

异构数据库的跨库检索技术综述

本文是一篇图书馆论文范文,图书馆方面本科毕业论文范文,关于异构数据库的跨库检索技术综述相关在职毕业论文范文。适合图书馆及自动化及参考。

基于XML的高校异构数据交换平台设计

此文是一篇数据库论文范文,数据库相关论文范文素材,与基于XML的高校异构数据交换平台设计相关在职毕业论文开题报告。适合不知如何写数据库。

异构分布式对象互操作

关于信息化及分布式及对象方面的免费优秀学术论文范文,信息化相关论文注释格式,关于异构分布式对象互操作相关论文范文素材,对写作信息化。

异构的数据映射技术

本文关于数据及标记及属性方面的免费优秀学术论文范文,数据类论文范文文献,与异构的数据映射技术相关毕业论文范文,对不知道怎么写数据论。

沿黄异构视频监控系统互通平台设计

为您写视频毕业论文和职称论文提供视频类硕士学位毕业论文范文,与沿黄异构视频监控系统互通平台设计相关论文例文,包括关于视频及节点及系统。

高中地理“同题异构”中存在的问题

本论文为学生方面毕业论文题目,关于高中地理“同题异构”中存在的问题相关毕业论文开题报告,可用于学生论文写作研究的大学硕士与本科毕业。

同课异构,需要我们做些什么

本文是一篇历史论文范文,历史类有关毕业论文格式,关于同课异构,需要我们做些什么相关毕业论文的格式范文。适合历史及教师及课堂方面的的大。

网络开放存取的学术资源其检索

这篇图书馆论文范文属于学术论文免费优秀学术论文范文,关于图书馆方面大学毕业论文,与网络开放存取的学术资源其检索相关学术论文翻译成英文。