2006—2023年我国关联数据文的定量

时间:2024-03-10 点赞:46919 浏览:92777 作者原创标记本站原创

本文是一篇数据论文范文,关于数据方面学士学位论文,关于2006—2016年我国关联数据文的定量相关本科毕业论文范文。适合数据及互联网及图书馆方面的的大学硕士和本科毕业论文以及数据相关开题报告范文和职称论文写作参考文献资料下载。

【摘 要】以2006-2012年我国所发表的关于关联数据的论文为分析数据,采用文献定量分析的方法进行统计分析,从时间分布、作者分布、期刊分布、研究资助基金分布和主题分布几个方面来分析我国关联数据研究的现状.同时,总结研究中尚存在的不足,探讨研究发展的趋势.

【关 键 词】关联数据;定量分析;语义网

Abstract:ThepaperfocusedonLinkedDatawhichhasbeenpublishedby1990-2010inChinafortheanalysisofdata,thenusedquantitativeanalysiethodtocarryonthestatisticalanalysis,analyzedthesituationofLinkedDatafromtimedistribution,authordistribution,periodicalsdistribution,Scientificresearchfunddistributionandthesubjectdistribution.Atthesametime,thispapersummarizedtheshortinganddevelopmenttrendofLinkedDataresearch.

Keywords:LinkedData;quantitativeanalysis;SemanticWeb

关联数据的概念为WWW(WorldWideWeb)的发明者,被誉为互联网之父的TimBerners-Lee于2006年在《关联数据笔记》中首次提出,在该文中他分析了Web的发展与演变,提出了发展数据网络的思想,而数据网络的核心和关键则是关联数据.2009年在TED大会上,他提出关联数据就是一箱箱数据,当通过开放标准关联在一起时,从中可以萌发出很多新事物和新应用[1].

关联数据简单的说就是一些RDF格式的数据,也是用三元组(主体,谓词,客体)来表示资源.所以研究关联数据,知道数据的RDF(ResourceDescriptionFramework)格式是必不可少的.关联数据和RDF数据最主要的区别在于关联数据是要发布到网上,并供人搜索的,所以描述资源的三元组的不再是统一资源标志符(URI),而是URI和HTTP协议的组合,可称为统一资源定位符(URL),这样资源才能发布到网上.

有学者侧重对语义的认识,如白海燕认为关联数据是用来在语义网中使用URI和RDF发布、分享、连接各类资源,强调建立已有信息的语义标注和实现数据之间的关联,具有框架简洁、标准化、自助化、去中心化、低成本的特点,为构建人机理解的数据网络,提供了根本性的保障,为实现语义网远景奠定了坚实的基础[2].BoutinG也持同样的观点,认为关联数据是提供了关联结构化数据的新媒介,可以更好地让机器读取这些数据[3].

关联数据由于提出的时间还不长,尤其在国内对这个概念的研究还比较少,但国外关联数据的发展方兴未艾,越来越多的部门和企业发布了关联数据,加速了信息化的发展.为了使未来我国的下一代互联网技术不再落后于国外,研究关联数据的发展和动态是很有必要的.

本文利用CNKI中国期刊全文数据库高级检索系统,它是目前国内收录期刊较全,文献量大的综合性文献数据库之一,特点是文献收录全面,来源广泛,真实性强.本文以“关联数据”为主题词进行精确检索,对所得数据进行整理,统计出2006年到2012年8月关于关联数据的有效论文共203篇.

1.论文数量及年代分布

研究论文的数量在一定程度上反映了某领域学术研究水平和发展速度,论文的年代分布反映了该领域研究的历史过程.由表1可以清晰地看到国内关联数据的研究虽然自2006年已开始,但关联数据概念及其应用价值自2008年后才得到国内学界的重视和关注.而自2008年后,每年质量较高,较有价值的关联数据研究论文总体来看稳步增长,根据文献的规律,可知任何学科的发展,其初期在研究论文上都呈现文献量较少、中前期文献量快速递增、中后期文献趋于稳定的现象.从整体趋势来看,关联数据的研究尚处于中前期,预计未来几年,随着研究的深入、技术的发展、研究主体的扩展,关联数据研究的文献量会不断攀升.

2.论文作者分析

2.1核心作者分析

核心作者一般是指在某专业领域期刊上发表论文较多、影响较大的作者集合[4].现在利用普莱斯定律N≈0.749*(其中N为核心作者发表最低论文数,Nmax为最高产作者发表论文数),对该领域研究的核心作者进行统计分析,结合表1中数据得出N≈0.749ⅹ≈1.67.所以,发表2篇及2篇以上论文的作者都可以被称关联数据研究核心作者,共计19人.根据普莱斯定律,只有“核心作者发文量约占总发文量的50%”时,学科的高产作者群才可以形成.由表1数据可知19位核心作者发表论文数量为79篇,仅占论文总数的38.9%,远低于普莱斯定律的要求.因此,可以说我国尚未形成稳定的关联数据研究核心作者群.

2.2作者所属机构以及学科分析

通过对作者单位分布的统计,既可以了解某学科研究队伍的分布现状,又可以获取在某学科科学研究领域具备较强科研实力的单位信息,促进学术研究与交流和衡量论文研究的深度和广度.关联数据研究机构分布以及发文量在3篇以上的单位分布见表3、表4.从中可以发现,除了高校院系,图书馆等主力研究机构外,国家级科研院所以及部分企业科研机构也都有相应的研究成果.这表明关联数据研究已受到了各界的广泛关注.

载文学科分布研究主要是反映本学科领域的深度与广度,从而反映该学科近年来的研究情况.载文涉及的学科越广,研究的人数越多,说明其研究越具有高的研究价值和现实意义.作者的学科分布见表5.由表5作者学科分布可见,关联数据研究的学科领域分布非常广泛,是一门应用性和综合性非常强的学科,有着计算机学科背景的作者在关联数据研究方面具有很强的研究实力,因此他们的发文量最大,占到47.29%;其次是图书情报与数字图书馆、基础科学及工程科技,分别占25.12%、10.34%.其它领域及多学科交叉研究论文的比例虽然目前还不高,但充分说明了我国现阶段对关联数据的研究正逐步由相关性强的计算机与图书情报领域延伸到其他各领域,由理论研究为主向技术应用研究发展.例如各领域探讨的有关关联数据的研究课题,关联数据在图书馆中的应用研究综述[5],基于关联数据开放政府数据[6],关联数据在网络信息管理中的应用[7],基于关联数据的农业信息空间数据组织研究[8],生物医学关联数据研究进展与比较分析[9].应用到其他领域的成果虽然还不多,但也充分说明了关联数据研究的不断深入,研究外延在不断拓展.为此,加强学科之间的交流与合作,真正充分利用各学科的学科优势和资源优势,应是未来关联数据研究发展的方向.

3.论文期刊源分析

对关联数据论文的来源期刊进行统计,表6中列出刊载关联数据研究论文前10种期刊.这10种期刊所占论文数为72篇,占论文总篇数的35.47%.对以上期刊进行分析,发现刊载关联数据研究论文的两大主要期刊类型有:图书情报学类和计算机及网络类.这两类刊物是从事关联数据研究的重要情报源.

2008年以来核心期刊刊载的关联数据相关论文数量急剧上升,经统计,发表于核心期刊的关联数据研究论文共128篇,占论文总数的63.05%.这表明国内研究人员对关联数据的关注度越来越高,并且研究深度和质量在迅速上升,关联数据在图书情报和网络技术领域已成为近年来的研究热点.

4.研究资助基金的分析

基金资助项目的论文往往代表着一个研究领域内的新动向、新趋势,具有较高的难度和较高的水准,在一定程度上能反映出它的科研创新和学科前沿动态.基金资助级别及数量的统计可以对研究成果的科技含量、科研水平做出客观的分析与评价.关联数据基金资助论文数量分布见表7.

表7数据显示关联数据研究论文共得到国家及地方资助基金61项,占发文量30.05%.其中国家自然科学基金25项,国家社会科学基金13项,省部级基金13项,这充分说明关联数据的研究得到了国家、省、市及高校各级各类部门的重视和支持,吸引了大量研究者参与进来,促进了研究的发展.从基金名称来看,关联数据的应用已经涉及到我国的多个领域.如其中有国家高技术研究发展计划(863计划)成果12篇、国家重点基础研究发展计划(973计划)成果2篇(1)、国家科技基础条件平台建设计划成果1篇、上海市重点学科建设基金1篇.

5.论文的主题分析

关 键 词是一篇文章的核心内容的浓缩和体现,通过关 键 词读者可以对文章内容有个大致的了解,通过对关 键 词的分析,还可以进一步明确该领域内现阶段研究所关注的的重点和热点问题,研究的发展趋势及影响.

对现有的203篇论文的关 键 词进行统计,得出出现频率较高的关 键 词见表8.

笔者对研究者的研究成果进行仔细研读与分析,并根据表8统计的关 键 词,总结和归纳得出:关联数据的研究主题除了多数人描述的基础概念之外,主要集中在以下几方面:

5.1关联数据的意义,原则和技术体系研究

Berners-Lee提出的关联数据遵循四个方面的基本原则,获得了业界的广泛认同:

①使用URI作为任何事物的标识名称;

②使用HTTPURI让任何人都可以访问这些标识名称;

③当有人访问某个标识名称时,提供有用的信息(采用RDF、SPARQL标准);

④尽可能提供相关的URI链接,以使人们可以发现更多的信息[1].

大部分的文献认为,关联数据作为一种数据发布技术,由于支持了语义描述,同时提供标准的服务接口,有效地提高了数据的可查找性和可重用性,其影响力正在日益显现,潜力十分巨大.已成为影响互联网基础结构的关键技术之一.[10]

5.2关联数据的创建与发布研究

对关联数据发布的研究,主要集中在研究如何将结构化或非结构化的数据转化为关联数据的形式.关键之处在于积极地使数据单元之间的联系具有一定的语义(属性或关系,即三元组中连接主客体的“谓词”),它利用URI进行对象标识,并通过HTTP协议进行揭示和访问.目前已有以下几种关联数据的发布工具:

①实现关系型数据库RDF转化的工具:

D2R[11]、Triplify[12].

②直接生成RDF数据的工具:

VirtuosoUniversalServer[13]、SparqPlug[14].

③其他发布RDF数据的工具:

Pubby[15]、Talisplatform[16].

5.3关联数据的互联研究

为了扩展万维网的能力,万维网联盟的TimBerners-Lee在1998年提出了“语义网”概念,它的

本文是一篇数据论文范文,关于数据方面学士学位论文,关于2006—2016年我国关联数据文的定量相关本科毕业论文范文。适合数据及互联网及图书馆方面的的大学硕士和本科毕业论文以及数据相关开题报告范文和职称论文写作参考文献资料下载。

;核心是:通过给万维网上的文档(如HTML)添加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介[1].关联数据可以看成是语义万维网的一种简化实现.随着发布到网上的关联数据集之间、或者和“遗留数据集”(例如非关联数据化的网络数据库)不断构建起联系.它们将遵守“整体大于部分”的规律,越来越具有实用价值,当最终能够形成一片几近没有“缝隙”数据集云的时候,就可以认为语义网的基础已经奠定.

5.4关联数据的应用研究

随着大量关联数据发布到网络上,基于关联数据的应用方面的研究亦层出不穷,目前大体上可分为两类:关联数据的浏览和搜索、关联数据在特定领域的应用.

目前常见的关联数据浏览器如表9所示.

常见的关联数据搜索引擎如表10所示.

自2006年以来,关联数据得到了广泛的认同和快速的发展,应用已扩展到网络通用本体、大型传媒、商业企业、政府部门、图书馆、医药学、农业信息等众多领域.目前比较知名的大型应用有美国国会图书馆及其主题标目(LCSH)、瑞典国家图书馆LIBRIS国家书目[18]、英国广播公司(BBC)的关联数据应用[10]、纽约时报[19]等.国内的关联数据研究尚处于初级阶段,大型应用较少,但也出现了一些较好的实际应用项目,比如宁波市数字图书馆服务外包产业信息门户(SOIP)[20].5.5关联数据面临的问题研究

关联数据有着良好的前景,但也正面临着众多难题和挑战.只有这些挑战被克服,关联数据才能给Web数据的获取与应用带来新的机遇,使互联网发生深刻的变革.目前关联数据研究遇到的主要问题有:

(1)用户界面问题;

(2)资源整合问题;

(3)数据维护问题;

(4)隐私保护问题.

6.总结与建议

通过上面的统计分析,笔者对近年来关联数据研究的发展状况有了相当程度的了解,在整理这些论文资料的同时,也发现了一些值得思考的问题.


我国对关联数据的研究具有以下几个特点:

①近年来关于关联数据研究的论文数量骤增,说明关联数据在下一代互联网发展中的应用前景已引起了我国学者的高度重视.

②论文的参考文献较多为外文文献,尤其是大规模实践应用研究的对象多为国外应用项目,表明我国关联数据的研究和实践还处于初级阶段或者说探索阶段.必须清醒地认识到,与国外的关联数据研究相比,我们还存在不小的差距.

③对关联数据的研究已经逐渐形成了中科院国家科学图书馆、中国科学技术信息研究所等几个核心单位,这些单位研究主题除了综合性阐述,主要集中于关联数据的创建、互联与架构方面,数据发布与实践研究较少.而关联数据的应用研究覆盖面越来越广,涵盖经济、电子政务、医学、农业、新闻媒体、地理测绘等多个领域,但深入全面的研究较少.这说明关联数据的应用有着广阔的前景,在后续的研究中,关联数据相关技术的研究固然是目前的主要任务,也应当鼓励对数据转化和一些技术门槛较低的研究.以应用实践促进研究的深入,形成一支层次分布合理的研究队伍.

④随着关联数据规模的不断扩展,会出现更多并不是靠技术就能解决的问题,例如封闭系统资源问题、数据资源的可信度、质量评估问题、数据资源整合的法律许可问题等等.需要有各领域专家、内容管理专家和网络应用开发人员共同参与,仔细调研,合作研究,并随着关联数据相关技术的发展,相信这些问题会得到妥善解决.

关联数据作为语义网的一种简化实现方式,具有坚实的技术基础、完整的系统结构和简便的发布方式,是一个值得关注的新概念,它还在不断的发展中,为了在下一代的互联网发展中,我国占据一席之地,加快研究和开发关联数据的应用是很有必要的.

相关论文

2006―2023年我国数字图书馆文的计量

本文是一篇图书馆论文范文,图书馆类大学毕业论文,关于2006―2016年我国数字图书馆文的计量相关电大毕业论文范文。适合图书馆及信息安全及知。

我国纺织服装2023年进出口贸易数据

本文是一篇纺织服装论文范文,纺织服装类有关大学毕业论文,关于我国纺织服装2016年进出口贸易数据相关毕业论文提纲范文。适合纺织服装及加工。