政府电子文档全文数据库建设检索方法

时间:2024-02-19 点赞:48063 浏览:96467 作者原创标记本站原创

本文是一篇数据库论文范文,数据库类电大毕业论文,关于政府电子文档全文数据库建设检索方法相关硕士论文范文。适合数据库及电子政务及信息安全方面的的大学硕士和本科毕业论文以及数据库相关开题报告范文和职称论文写作参考文献资料下载。

〔摘 要〕本文通过对电子政务新环境下的政府文档的电子化、标准化、全文检索及安全策略等的研究,提出了政府纸质文档电子化及全文数据库建设的模型.并基于该模型,提出了解决政府文档电子化问题及建设全文数据库的方案.

〔关 键 词〕电子政务;电子文档;全文数据库;全文检索

DOI:10.3969/j.issn.1008-0821.2013.10.013

〔中图分类号〕TP399〔文献标识码〕B〔文章编号〕1008-0821(2013)10-0059-04

政府电子文档也称为电子公文,是实施电子政务的必然产物,是提高效率、降低成本、加强安全的有效手段[1].与纸质公文相比,政府电子文档具有存储体积小、检索速度快、远距离快速传递及同时满足多用户共享等优点.目前,我国各级党政机关已广泛应用电子公文,并逐步确立了政府电子文档的格式规范、传输、管理和归档等方面的标准和要求.相关法规规定,政府电子文档与相同内容的纸质公文具有同等法定效力.

由于政府电子文档有别于一般电子文档,如政府电子文档有密级的限制,政府电子文档的类别多、归档难,而这些文件是不可再生的资源,如何集中存储并提供简洁、方便的服务是新时期电子政务建设的重要课题,严格按照国家制定的相关电子公文管理规范,借电子政务发展的良机,提出有效解决政府电子文档管理中突出问题的方法,探索出政府电子公文管理一体化创新模式,具有重要的现实意义和实际价值.

通过对国内较早开展电子文档管理研究或全文数据库建设城市的典型案例进行了针对性的调研,发现主要存在电子文档制作为完全规范化;电子文档全文数据库建设存在不足;未考虑全文检索的需求;文件安全性较低等不足之处.建立政府电子文档全文数据库必须确保数据的真实性、完整性、有效性、安全性[2];全文检索将直接针对数据资源的内容进行检索,可以多角度、多侧面的综合利用信息资源.

1国内外研究现状分析

1.1国外电子文档管理及全文数据库建设现状

国外在电子文档管理方面起步较早,研究多偏重于标准制度的研究,如澳大利亚、美国、英国等国都把国家政府文档管理标准、规范、制度作为研究的重点,其研究的基础是以各国的档案工作实际为主,对于文件以及纸质档案电子化工作流程的研究较少.

美国及欧洲等很多发达国家和地区的电子文档的全文数据库建设都不约而同地经历了从机构层面自行研发到国家层面有组织规划、从分散管理到集中管理的转变过程[3].这些国家电子文档的全文数据库建设日趋成熟和完善,这其中比较有代表性的全文期刊数据库有:EBSCO、SpringerLink、ElsevierSDOL、Wiley、ScienceDirec等,这些全文数据库可以实现结构化数据和非结构化数据的全文入库,也可以根据用户需求制定基于全文检索的功能完备的个性化检索服务.在商业化软件方面,较成熟的有微软公司的SQLServer2008及甲骨文公司的OracleTEXT,以及IBM公司的LotusDomino等电子文档处理系统的标志性产品,这些商业化电子数据管理系统解决了查询海量非结构化数据时效率低的问题,能通过全文检索技术高效地管理这些非结构化数据.由于中文信息自身的特点,国外成熟软件产品存在术语与编码不统一,资源不易共享,系统不易于推广等问题,特别是在处理政府电子文档时,存在保密信息可能会泄露的威胁,以及需要解决中文语言分词等难题,因而国内建立电子文档全文库的时候多独立自主开发或利用商业化软件的部分功能进行二次开发.

1.2国内电子文档管理现状

我国在电子文档管理方面起步较晚,目前尚处于探索阶段,但也取得了一定成果.从1996年起国家和地方档案部门开始着手电子文件管理的研究,先后制定了《中华人民共和国电子签名法》(2004年8月28日中华人民共和国主席令第18号)、《电子文件管理细则》(包括文书电子文件元数据方案)、《电子文件长期保存格式需求》、《基于XML的电子文件封装规范》等标准规范)、《电子公文归档管理暂行办法》(6号令)、《电子文件归档与管理规范》(GB/T18894-2002)、《纸质档案数字化技术规范》(中华人民共和国档案行业标准DA/T31-2005)等文件.电子文件管理的国家战略正逐步成型,主要表现为全国性的统筹规划、统一规范和业务指导正在全面启动,一些省、市已经启动了集中管理电子文件的项目,并取得实质性进展,如2005年10月19日,安徽省电子文件中心正式投入使用;2005年浙江省温州市依托地方特色资源,建立了“媒体看温州”全文数据库,取得了很好的社会效果.与发达国家相比,虽然我们的电子文档管理取得了一定的成果,但仍存在一些问题,如:电子文件管理与电子政务发展不相适应;电子公文归档复杂;缺乏统一的归档和共享机制,电子文档利用率不高;电子文件归档管理不规范等突出问题[4].

2全文数据库建设的模型研究

政府文档全文数据库建设一般包括政府纸质文档的电子化方法、政府电子文档全文数据库的建设、数据库的全文检索搜索策略、全文数据库的安全策略4个部分,根据对全文检索策略及关键技术进行的研究,提出了政府纸质文档电子化及全文数据库建设的模型,如图1所示:1图1政府文档电子化及全文数据库建设模型1

2.1政府纸质文档的电子化

按照国家标准《电子文件管理细则第二部分:电子文件长期保存格式需求》,目前国家认可的电子档案格式有TIFF、TXT、PDF和XML等,但每种格式既有自身的优势也有不足.

对于经过OCR后的文档,PDF和XML是较好的选择.但是XML的优势主要体现在数据交换上,且无法保持文件的原版原式.而PDF则能够“原汁原味”的记录文件,是真正的所见即所得.同时,PDF文件技术成熟,存储空间小,便于加密、权限控制和在线浏览,已被业界广泛认可.因此,PDF是入库前文档较好的保存格式.在政府文档的电子化过程中,需要保证数据的真实性、完整性、可靠性和版权的保护.目前我国在《电子文件归档与管理规范》(GB/T18894-2002)[5]中规定了4条措施:

(1)建立对电子文件的操作者可靠的身份识别与权限控制;

(2)设置符合安全要求的操作日志记录,随时自动记录实施操作的人员、时间、设备、项目、内容等;

(3)对电子文件采用防错漏和防调换的标记;

(4)对电子化的印章、数字签名等采取防止非法使用的措施.

具体实施时,主要采用加密技术、数字签名、数字摘 要、数字时间戳、身份认证、报文认证、信息隐藏技术、元数据管理技术等主要技术措施进行实施.

根据国家标准要求,将政府纸质文档扫描为多层PDF格式并加载数字签名,保证文档的合法性,同时,添加水印,保证数据文件的安全性.最后,将PDF文件解析后导入全文数据库,实现政府纸质文档的电子化.

2.2政府电子文档全文数据库建设的标准及电子文档入库方法利用电子文档数据中心的难点是将不同类别的政府电子文档加载入全文数据库,实现对电子文档的全文检索,提升对政府电子文档的利用率.主要包括全文检索数据库标准研究和数据库构建方法两部分内容,其中构建全文检索数据库建设标准主要满足系统性原则、实用性原则、开放性原则、安全性原则等基本原则;数据库构建方法主要从全文数据库选择、电子文档解析、数据结构倒排索引、组织数据、元数据抽取方面进行实施.完成电子文档的入库工作后,还需要制定全文数据库的检索策略,这样构建的全文数据库才能实现全文检索.

2.3电子文档的全文检索策略研究

全文检索[6]是一种将文件中所有文本与检索项匹配的文字资料检索方法,通过计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置;当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程.功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能.结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等.全文检索技术是现代信息检索技术一个重要分支,是处理电子文档这类非结构数据的强大工具,也是电子的核心技术之一.该技术对文档按各种策略进行分词,然后对切分得到的每个有检索意义的词建立索引,并指明该词在文章中出现的次数和位置,当用户输入检索关键字进行查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈用户.

电子文档的全文检索策略需要关心的问题是搜索效率,包括搜索的即时性、准确率、查全率,策略需要考虑引入给部分字段添加索引、装备采用倒排索引技术的引擎、多关键字共同限定、模糊搜索等技术来提高检索效率.

2.4电子文档全文数据库的安全策略

数据库安全包含两层含义:第一层是指硬件系统运行安全;第二层是指数据信息安全,系统安全通常受到如对数据库入侵、或篡改资料等威胁[7].前一层威胁可以通过数据备份来实现,有很成熟的技术去保证硬件的正常运行,对于政府的电子文档来说,后一层的威胁需要更多的关注.

(1)政府电子文档的特殊性之一在于具有密级(一般、秘密、机密、内部),密级与访问权限的设置是数据库建设中必不可少的.因此,电子文档查询和显示模块分为两类:一类为针对单个特殊文档控制查询权限;一类为针对普通文档控制查询权限.针对单个文件,指定哪些用户有查询此文件的权限;普通文档,先赋予用户与档案密级一样的权限,当用户查询权限大于或等于文档密级时,则可查看文档,否则不能查看文档.普通文档又可分类,针对每类文档分别赋予用户普通文档查询权限.

因政府电子文档涉及到大量的涉密文档,应严格按照《中华人民共和国档案法》和《中华人民共和国国家保密法》等相关法律法规的要求对相关操作人员进行保密教育,从源头上保证文档信息的安全.

(2)数据库系统的安全策略主要是针对数据而言的,通过数据独立性、数据安全性、数据完整性、并发控制、故障恢复等几个方面加强数据库系统的安全性来提高电子文档全文数据库的安全策略[8].

3全文数据库建设

根据政府纸质文档电子化及全文数据库建设的模型研究的结论,针对政府电子文档的特点,进行了政府电子文档电子化及全文数据库建设.

首先将纸质公文资源进行扫描后识别成具有水印的双层PDF文档,使用解析工具将PDF文件解析并导入全文数据库中,同时在前台根据用户权限提供全文检索及下载浏览功能,包括以下几个方面的建设内容:

3.1电子公文扫描管理

对电子公文进行扫描,在保证数字化存储格式的通用基础上,实现高清晰度的数字化存储利用,最后将扫描后的目录和文档交由专人集中管理保存.主要管理流程如图2所示:

1图2电子文档扫描管理流程1

3.2OCR识别及双层PDF制作

双层PDF格式文件一般有两种格式的,(1)图像型的,可以通过OCR软件经过去污、纠偏和OCR识别,然后再通过制作双层PDF软件直接生成可以检索的双层PDF文件;(2)文本型的,最常见的WORD转双层PDF文件

本文是一篇数据库论文范文,数据库类电大毕业论文,关于政府电子文档全文数据库建设检索方法相关硕士论文范文。适合数据库及电子政务及信息安全方面的的大学硕士和本科毕业论文以及数据库相关开题报告范文和职称论文写作参考文献资料下载。

,先将WORD文件转成单层的PDF文件,再将单层的PDF文件转成图像文件,然后通过OCR软件OCR识别,然后再通过制作双层PDF软件直接生成可以检索的双层PDF文件.本文主要是对扫描文件的内容数据进行获取分析提取,完成对数据基础信息数字识别转换,生成可识别处理的文本格式数据文件(可识别的双层PDF文件).

3.3电子签名与水印添加

政府电子文档同其他电子文档一样会遭遇伪造、篡改、增删、冒名等,公文的内容、公文发送者身份真实性和公文本身的合法性受到了威胁,如何保证政府电子文档的这些安全性不但是其在电子政务中发展的重要内容,也是电子文档全文数据库建设的重要内容之一.使用单向散列函数和RSA加密算法实现数字签名,同时向电子文档中添加某些数字信息以达到文件真伪鉴别、版权保护等功能,防止电子文档被篡改或替换.3.4全文数据库建设

政府部门产生的电子文件,是档案的“前身”,是不可再生的资源,集中存储并提供简洁、方便的归档操作是新时期电子政务建设的重要课题.充分利用这些电子文档数据中心的难点是将不同类别的政府电子文档加载入全文数据库,实现对电子文档的全文检索,提升对政府电子文档的利用率.根据已有的PDF资料构建全文数据库,即使是非专业人员也可以方便的通过系统入库加载PDF或WORD、TXT文档;同时,实现中文分词并构建全文检索引擎.


3.5前端平台提供检索等服务

通过文献共享服务平台,实现对不同类别的文档统一风格显示,提供政府电子文档全文检索、浏览及下载服务.其系统架构如图3所示,系统功能如图4所示.1图3系统架构图1

1图4前端检索应用平台功能图

4总结

本文以电子政务新环境下的政府文档全文数据库建设及全文检索方法为研究对象,总结分析了国内外对电子文档处理的成功案例与不足,以某政府部门电子文档管理的实际工作为基础,提出了政府纸质文档电子化及全文数据库建设的模型.在模型基础上,根据该类电子文档的特点,提出了解决政府文档电子化问题及建设全文数据库的方案.

相关论文

广东:稳步开展电子文档数据中心建设

本文关于电子政务及档案馆及管理系统方面的免费优秀学术论文范文,电子政务方面论文范本,与广东:稳步开展电子文档数据中心建设相关大学毕业。

新兴电子文档对档案管理的新要求

该文为关于计算机类毕业论文参考文献格式范文,与新兴电子文档对档案管理的新要求相关毕业论文格式要求,可作为论文格式专业计算机论文写作。

商务培训中电子文档制作

本文是一篇高质量论文范文,关于高质量方面学年毕业论文,关于商务培训中电子文档制作相关毕业论文格式范文。适合高质量及计算机及多媒体方面。

PDF和DjVu电子文档格式的与比较

本文是一篇操作系统论文范文,操作系统类有关毕业论文开题报告范文,关于PDF和DjVu电子文档格式的与比较相关学士学位论文范文。适合操作系统。

电子文档笔

本文是一篇出国留学论文范文,出国留学有关硕士学位论文,关于电子文档笔相关电大毕业论文范文。适合出国留学及胶带及齿轮方面的的大学硕士和。

优秀硕士文电子文档命名规则

本文是一篇数据库论文范文,数据库类毕业论文提纲,关于优秀硕士文电子文档命名规则相关硕士学位毕业论文范文。适合数据库及参考文献及论文方。

文档和文献资源检索和应用

本文是一篇数据库论文范文,数据库方面有关毕业论文开题报告,关于文档和文献资源检索和应用相关学年毕业论文范文。适合数据库及费用及条目方。