科学知识图谱的文献计量学范式

时间:2024-03-03 点赞:43992 浏览:84788 作者原创标记本站原创

本文是一篇参考文献论文范文,关于参考文献专科毕业论文开题报告,关于科学知识图谱的文献计量学范式相关开题报告范文。适合参考文献及图谱及范式方面的的大学硕士和本科毕业论文以及参考文献相关开题报告范文和职称论文写作参考文献资料下载。

[摘 要]针对目前科学知识图谱研究范式多元化、主流研究范式是基于引文分析理论的文献计量现状,对该研究范式的理论基础、基本研究框架和主要研究策略三个方面进行理论性阐释和思考,以促进国内研究实践中所存在问题的解决.

[关 键 词]科学知识图谱 文献计量学 科学计量学

[分类号]G301

1 引言

近现代以来科学技术的迅猛发展,使科学活动本身逐渐成为一个重要的学术研究对象,得到来自不同领域学者的广泛关注,并由此诞生了一门崭新的学科――科学计量学(scientometrics).世纪之交,信息可视化技术的异军突起及其在学科发展历史描述、学科(专业)结构分析、前沿研究趋势探测等诸多科学计量学研究课题中的成功应用,将科学计量学推进到一个更高的研究发展阶段――基于可视化工具的科学知识图谱绘制(mappingknowledgedomains).

所谓“科学知识图谱”,是用于显示科学知识的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征:既是可视化的知识图形,又是序列化的知识谱系,可对知识单元或知识群体之间存在(或形成)的网络结构及其互动、交叉、衍化等诸多复杂关系进行表达和描述.事实上,有关科学知识图谱的早期研究可以追溯到20世纪60年代.1964年,GaffieldE等人就开始尝试应用引文分析方法研制一个精确有用的、导致特定学科取得重大进展的累积性研究的网络图,以便考察它在科学史和学科结构关系分析等方面的有效性,并以IsaacAsimov博士的《遗传》一书作为研究基线,手工绘制完成了DNA研究领域的知识演进图谱;1965年,PriceD也运用类似的引文数据和方法完成了其经典论文――“NetworksofSeientificPapers”的写作,文中对物理学和它的一个分支领域的结构进行了分析.这些早期具有开创性的研究活动,对科学知识图谱的后续发展起到了非常巨大的影响和推动作用.

目前,国内外的科学知识图谱研究异常活跃,研究人员的来源学科广泛,研究视角及范式也非常多元.例如,以文献调研和综述分析为主的传统研究范式;以MertonRK创立的科学社会学(sociologyofscience)为基础的理论研究范式;基于引文分析的书目(或文献)计量(bibliographicalorbibilometrical)范式;基于复杂网络(plexwork)理论的社会网络分析范式,等等.作者认为,尽管研究范式非常多元化,但对于目前的科学知识图谱研究而言,文献计量学研究范式(以下简称“Bib范式”)应是其中最为重要的一种.因此,本文主要就该研究范式进行论述分析,涉及内容包括Bib范式的理论基础、基本研究框架和主要研究策略等.

2 Bib范式的理论基础

科学史的研究工作表明,科学的发展和知识的增长具有明显的继承性和累积性,任何的知识创新与技术进步,都是在原有科学或技术基础上发展、分化和衍生出来的.另外,科学的统一性原则也可以证明,不同的学科之间存在着广泛的交叉、关联和渗透.那么,作为由全部人类智慧积累而建立起来的这样一个复杂而庞大的科学系统,它的特性、知识结构、演化规律及发展趋势等,是如何被记录、保存和展示的我们又该如何对其进行研究和探索答案无疑是简单的――科学文献及其计量分析.众多科学文献集合起来,形成了对科学及其研究活动的一种客观表示;而科学文献之间普遍存在的引用和被引用关系,则隐含反映了科学知识之间的内在关联性.不难设想,一旦大量的文献及其引用数据被聚集起来,并基于各种数学和统计学方法以及可视化工具的加工处理之后,就可以形成对特定文献集合及其引文网络(citationwork)结构规律的显性化揭示,进而解决相应科学知识图谱的有效绘制问题.自20世纪60年代以来科学知识图谱的大量研究实践也证明,基于引文分析的文献计量学方法,因无需专业知识、可基于计算机系统处理大规模数据以及方法自身的客观性等,为科学知识图谱绘制提供了一种崭新而有效的研究范式.

那么,如何来认识和评估Bib这一研究范式的有效性及合理性其理论基础是什么对这一问题的回答,我们可以从1999年瑞典学者WoutersP在其博士学位论文中对“科学表示”问题的研究中找到答案.他认为,对科学(活动)的“表示”(representation)可以概括抽象为如下的三个不同层次:①第一级表示(firstorderrepresentation):科学文献(scientificliterature);②第二级表示(secondorderrepresentation):引文分析(citationanalysis);③第表示(thirdorderrepresentation):引证文化(citationculture).

WoutersP的这种“科学表示”论断以及将科学文献中蕴涵的引文机制及其学术价值上升到“引证文化”(citationculture)的高度、并把它视作一种“科学亚文化”(subcultureinscience)所进行的理论性分析,是Bib范式下科学知识图谱研究合理性和有效性的一个有力阐释,也为相关研究活动奠定了一个较为坚实的理论基础.

不过也必须承认,与实验室里科学家们每日进行的科学观察、实验、分析和具体操作等科学活动相比起来,上述不同层次的每一级“科学表示”都并不是“镜像现实”(mirroringreality),其中可能存在一些简单的线性变换(1inearreflection)以及平移(translation)、畸变(distortion)、变形(tranormation)等其他风险.不过,这些可能性和表示风险的存在,也正是科学知识图谱的其他研究范式得以形成、并与Bib范式共存互补的原因之一.

3 Bib范式的基本研究框架

前已述及,Bib研究范式的理论基础来自于对“科学表示”问题的深入认识,因此,其基本研究框架的建立,自然应该从对科学表示的第一级载体――科学文献(集合)的分析着手.由于学术期刊文献最能体现科学研究的质量和水平,因此以下以期刊文献为例进行说明.

图1是一个描述期刊文献(集合)及其书目要素构成的简单模型图.该模型图看似简单,但可传递出的、对构建Bib范式基本研究框架有用的信息却是充足的,具体总结如下:

3.1 书目要素

对期刊文献而言,图1主要描述了7种不同类型的书目要素:①论文,最核心的一个要素,它与图中多个其他书目要素存在关联;②索引词,可反映论文内容的主题词;③参考文献,反映论文的研究基础;④论文作者;⑤参考文献作者;⑥发表论文的期刊;⑦发表参考文献的期刊.3.2 书目要素间关系

图1描述的所有书目要素间关系可以细分为以下三类:

3.2.1 直接书目关系(direetbibliographiclinks)

具体包括以下6种:“论文-论文作者”关系,“论文-索引词”关系,“论文-发表论文期刊”关系,“论文-参考文献”关系,“参考文献-参考文献作者”关系和“参考文献-发表参考文献期刊”关系,它们的路径长度均为1.


3.2.2 间接书目关系(indirectbibliographiclinks)主要由两个及以上的直接书目关系构造形成,共有14种情形.其中,路径长度为2的有8种,例如“论文作者-索引词”关系;路径长度为3的有6种,例如“论文作者-参考文献作者”关系.

显然,如果直接书目关系使用关系表(矩阵形式)进行表示和存储的话,那么,间接书目关系通过对存储直接关系的矩阵进行乘法运算即可获得.这两类关系的一个共同特点是反映了两个不同书目要素之间的关联关系.

3.2.3 共现关系(co-occurrencelinks) 主要指两个(或多个)相同书目要素之间形成(或存在)的相互关系,与书目关系不同.例如,两篇论文因为引用了一篇或多篇相同的参考文献而形成的“书目耦合”(biblio,graphiccoupling)关系;两篇参考文献因为被其他一篇或多篇论文引用而形成的“共引”(co-citation)关系;三个论文作者因共同发表一篇或多篇论文而形成的“合著”(co-authorship)关系;等等.

3.3 关系权重及其计算

图1中描述的所有书目要素间关系还应该考虑其权重问题.不同类型的关系,其权重定义或计算方式也有所不同.例如,“论文一索引词”关系的权重.可以用索引词在论文中的出现次数来表示;“书目耦合”关系的权重,可用所拥有的相同参考文献的数量来表示;而“共引”关系的权重,则以被不同论文共同引用的次数来表示;等等.

除了关系权重的确定外,在科学知识图谱绘制过程中,一般还需考虑不同关系权重计算时的归一化问题,以及在进行统计、聚类和可视化处理时,各种关系相似性(强度)的计算和比较问题.目前最为常见的相似性计算方法有余弦系数、Dice系数、Jaccard系数以及Pearson相关系数等.

至此,基于图1所进行的上述分析说明,即可作为对Bib范式基本研究框架的一种描述.事实上,已有和即将进行的所有基于Bib范式的科学知识图谱研究工作,本质上都可以被图1所示的模型图所涵盖和指导.

4 Bib范式的主要研究策略

目前,国内外的科学知识图谱研究大多基于Bib范式来开展,常用的研究策略主要包括:书目耦合分析、共引分析、词共现分析、作者合著分析以及基于多种研究策略的集成分析.不同的研究策略,由于采用的计量分析指标不同,所形成的研究结果及所绘制的科学知识图谱也各有不同和侧重.

4.1 书目耦合分析

书目耦合分析最早由KesslerMM于1963年提出.主要基于共同的参考文献对科学论文(集合)进行聚类处理,由于高被引参考文献(集合)通

本文是一篇参考文献论文范文,关于参考文献专科毕业论文开题报告,关于科学知识图谱的文献计量学范式相关开题报告范文。适合参考文献及图谱及范式方面的的大学硕士和本科毕业论文以及参考文献相关开题报告范文和职称论文写作参考文献资料下载。

常被视为一个专业领域的知识基础,因此耦合分析的结果主要应用于对特定专业领域不同研究分支的描述与识别.例如,2003年,MorrisSA等人曾基于时间线可视化(timelinevisualization)技术开展文献耦合分析研究,并通过图谱绘制来揭示2001年炭疽生物恐怖袭击事件以来炭疽学术研究领域中非连续性事件的发展及其影响情况.

事实上,科学论文集合中书目耦合现象的普遍存在,除用于知识图谱绘制以揭示学科内部结构外,在文献检索方面也有着非常重要的利用价值.KesslerMM最早也是把书目耦合关系作为一种新型检索途径来看待的,并认为基于耦合关系检索具有以下诸多优势:可以不依赖于任何人工检索语言和词汇,避免了由于语法、词汇等语言使用习惯不一致所造成的匹配错误:不需要专家阅读或判断,可由机器自动完成;便于突破传统学科分类的限制;随着时间的推移,与一篇特定论文具有耦合关系的文献集合,即“逻辑参考文献”(logicalreferences)会不断扩大,从而检索得到更多相关文献.另外,书目耦合关系还可以推广到不同的对象集合中,例如学科/专业耦合、期刊耦合、著者/机构耦合、国别/语种耦合等.对这些耦合关系进行分析和可视化,对科学知识图谱绘制也具有十分重要的研究价值.

4.2 共引分析

主要包括文献共引分析(1974年由SmallH和GriffithBC提出)、作者共引分析(1981年由WhiteHD和GriffithBC提出)和期刊共引分析(1991年由MaCainKW提出)等三种类型,它们主要基于共同的论文分别对参考文献(集合)、参考文献作者(集合)和发表参考文献的期刊(集合)进行聚类分析,其聚类结果可分别用于对特定专业领域的知识基础构成(structureofthebaseknowledge)的揭示、共用广义知识基础概念(broadbaseknowledgeconcepts)和共用知识基础档案(baseknowledgearchives)的识别等,进而绘制出该专业的相应知识图谱.

与耦合关系的静态和回溯性不同,共引关系通常是动态和展望性的(forward-lookingperspective),即两篇文献之间是否存在共引关系及其共引强度的大小,是会随着时间的变化而变化的,并且这种变化的趋势总是从无到有,从弱到强的.因此,各种共引分析策略在对学科结构、学科之间相互联系以及文献(或作者)之间联系等进行历时性研究方面,要比书目耦合分析具有更大的优越性.

4.3 词共现分析

词共现分析最早由CallonM等人于1983年提出,主要基于共同的论文对索引词(集合)进行聚类,其聚类结果可揭示特定专业领域的不同研究主题,进而用于对论文簇、参考文献簇等的标签标注.

4.4 作者合著分析

作者合著分析主要基于共同的论文对作者(集合)进行聚类,以揭示特定专业领域研究团队的合作及其社会性结构.1979年,BeerDD和RosenR率先对科学合作现象进行探讨,其后,不同领域的作者合著分析迅速展开,讨论的主要问题广泛涉及科学合作的类型、水平及合作结构图谱的绘制等.

4.5 集成分析

鉴于科学系统自身的复杂性,科学知识图谱的绘制工作也是相当复杂的.上述任何单一的文献计量学研究策略都无法胜任对某一特定专业领域研究活动的全面描述.因此,将多种不同的、具有互补性的研究策略结合起来,进而开展一些跨图谱分析,无疑是一种恰当的选择.目前,已有越来越多的研究工作是基于集成分析策略完成的.

5 结语

自2005年以来,国内的科学知识图谱研究一直处于十分活跃的状态.不过,仔细分析发现,所谓的活跃与繁荣,基本上都停留在应用性研究水平上,理论研究工作的沉闷滞后,已与之形成了鲜明的反差.而大量的应用性研究所引发的问题,诸如图谱绘制缺乏规范,图谱质量参差不齐且缺乏第三方质量评估,对图谱的各种不当解读(错误解读、过度解读、遗漏解读等),单张图谱信息量的过载导致图谱可视化直观程度的下降,图谱绘制工具的缺乏等,又迫切需要从理论研究中寻求有效的解决之道.为此,期望本文以上对Bib研究范式所做的理论性阐释,能够对国内科学知识图谱的深入研究和健康发展有所助益.

相关论文

国内知识检索的文献计量学

本文是一篇图书馆论文范文,关于图书馆类毕业论文的格式,关于国内知识检索的文献计量学相关研究生毕业论文开题报告范文。适合图书馆及统计分。

国内心理治疗效果的文献计量学

关于效果及个案及控制组方面的免费优秀学术论文范文,关于效果方面论文参考文献标注,关于国内心理治疗效果的文献计量学相关论文范本,对写。

国内电子商务网站评价的文献计量学

本文是一篇电子商务网站论文范文,电子商务网站方面大学毕业论文,关于国内电子商务网站评价的文献计量学相关学年毕业论文范文。适合电子商务。

我国特殊教育现状的文献计量学

这是一篇关于特殊教育方面硕士毕业论文范文,与我国特殊教育现状的文献计量学相关毕业论文开题报告范文。是文献综述专业与特殊教育及心理健。

国内心理治疗效果的文献计量学

本论文是一篇关于效果类幼儿心理健康教育论文,关于国内心理治疗效果的文献计量学相关本科论文范文。免费优秀的关于效果及个案及控制组方面。

2023年我国远程教育相关文献计量学

本文是一篇远程教育论文范文,远程教育相关毕业论文模板,关于2016年我国远程教育相关文献计量学相关开题报告范文。适合远程教育及现代远程教。

文献计量学图书馆学专业

该文是本科论文专业图书馆学论文范文,主要论述了图书馆学类大学毕业论文,与文献计量学图书馆学专业相关论文范文集,适合图书馆学及文献及。