基于EXCELCNKI题录文件实现对文献主题的计量

时间:2024-04-07 点赞:50789 浏览:104285 作者原创标记本站原创

本文是一篇核心期刊论文范文,关于核心期刊相关毕业论文,关于基于EXCELCNKI题录文件实现对文献主题的计量相关硕士学位毕业论文范文。适合核心期刊及互联网及文献方面的的大学硕士和本科毕业论文以及核心期刊相关开题报告范文和职称论文写作参考文献资料下载。

〔摘 要〕给出一种利用EXCEL的VBA编程语言,以CNKI中提供的RefWork格式题录文件作为数据来源,从中全自动抽取相关文献信息,从而快速获取文献基本计量信息的方法.文中对所提出的方法及程序进行了具体的实证检验,针对2005-2010年间CNKI数据库收录的以“微博”为主题的各类学术论文发表情况,实现了对其文献量、文献著者、文献所属学科、主要来源文献的统计分析,从而验证了这种分析方法在文献计量研究中的有效性和实用性.

〔关 键 词〕文献计量;论文题录;CNKI;RefWork;EXCEL;数据透视表;微博

DOI:10.3969/j.issn.1008-0821.2012.02.020

〔中图分类号〕G250.252〔文献标识码〕A〔文章编号〕1008-0821(2012)02-0073-08

BibliometricAnalysiorLiteratureTopics

BasedonEXCELandCNKIPaperIndexZouShuyang1ZouYimin2

(1.CentralUniversityofFinanceandEconomics,CultureandCommunicationInstitute,Beijing102206,China;

2.LanzhouPetrochemicalCollegeofVocationalTechnology,Lanzhou7300602,China)

〔Abstract〕AschemeisproposedtoobtainbasicliteraturequantitativeinformationofacademicpaperquicklyusingEXCELsVBAprogramminglanguage,whichextractedrelatedliteratureinformationautomaticallyfromRefWork-formattedpaperindexfilesprovidedbyCNKI.Anactualcasestudyforproposedmethodsandprocedureswasprovided.Withregardtopublishedacademicpapersontopicsrelatedto“Microblog”includedinCNKIdatabasefrom2005to2010,thequantitativeanalysisresultsrefertoamount,authors,subjects,mainsourcesoftheseliteratureswerealsogiven.Thus,theeffectivenessandpracticalityofthisschemeinbibliometricanalysisandresearchwereverified.

〔Keywords〕bibliometricanalysis,paperindex,CNKI,RefWork,EXCEL,PivotTable,Microblog

微博是新近兴起的一种互联网热门服务,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享.微博的出现使网民成为“草根”网络报道评论员.微博对网络舆论生成模式的主要影响是它强大的即时性、移动性和互动性,从而容许作者更好地即时反映发生在身边的新闻和意见,最后在用户之间的链式互动中形成舆论强势,进而影响网络舆情.

文献计量学从文献的外部特征出发,通过统计分析可以发现科学文献的生产、流通和应用等的内在规律[1],但来源数据的获取一直是文献计量的瓶颈.纵观以往以中国期刊网(CNKI)为数据源的文献计量研究,需要统计的文献基本信息多需繁琐的手工录入.笔者发现CNKI提供的RefWork题录文件中含有文献的众多基本信息,于是开发了一款基于EXCEL中VBA宏语言的小型程序,据此可方便地从RefWork题录文件中抽取所需信息,进而实现了初步的文献计量功能.

本研究结果是笔者主持的财经大学2010年度本科生科研创新项目“基于微博的社会舆情研判与预警”研究内容的一部分.本文首先对CNKI收录的2005年起至今(统计日期截止至2010年7月31日)关于“微博”的各类学术论文进行题录检索,并在此基础上利用所开发的VBA程序进行文献量、文献著者、文献所属学科、主要来源文献、关 键 词等方面的统计分析,努力梳理其发展脉络,从中发现我国相关领域研究的现状与特点,作为项目研究的参考依据.经验证,该方法不仅可以快速地获取文献基本信息,而且能根据研究者的需要进行各种个性化文献计量研究,从而大大提高了文献的检索效率,具有很强的有效性和实用性.

1基本信息的获取

1.省略”为扩展名的编码格式为UTF-8的半结构化文件文本,包含被检索论文的作者、篇名、期刊、年份、刊期、关 键 词、摘 要等文献基本信息.

EXCEL是一款优秀的电子表格软件,具有强大的数据处理功能,EXCEL内置的数据透视表则是一种从EXCEL等数据集中总结信息的分析工具,它有机的综合了数据排序、筛选、分类汇总等数据分析功能,可灵活地以多种不同方式展示数据的特征,成为最常用、功能最全的EXCEL数据分析工具之一.而EXCEL中内嵌的VBA(VisualBasicForApplications)语言则极大地丰富了EXCEL对数据的自动处理能力,可用于创建自定义的解决方案.

综上所述,CNKI的输出文件提供了基本的文献信息,如果配合EXCEL数据透视表等强大的数据分析功能,加上VBA的任务自动化编程,即可从中自动抽取所需的文献信息,打破文献基本信息依赖手工输入的瓶颈,并完成所需的文献计量分析.

2012年2月第32卷第2期基于EXCEL及CNKI题录文件实现对文献主题的计量分析Feb.,1.省略”的题录文件;

(4)对于其它页面的检索结果,可点按“下一页”以选择后续的论文,类似前述步骤可得到一组以“.”为扩展名的输出文件,这些文件即为本研究的数据来源文件.

2基于EXCELVBA的题录文件处理及文献计量统计获得上述全部论文的题录文件之后,即可利用自编的VBA编程软件,借助于EXCEL及数据透视表的强大功能完成对被检索论文的计量分析.

笔者通过VBA编程实现以上功能.为方便使用,在名为“论文统计.xls”的EXCEL文件中将新增一个名为“论文统计”的菜单,下含有“导入题录”,“论文汇总”及“论文统计”3个子菜单项,如后图1所示.本功能需使用内部的“Auto-Open”及“Auto-Close”VBA宏程序,以便完成用户菜单的设置与清除,其部分代码如下所示.

Subautoopen()

Application.CommandBars(″Worksheetmenubar″).Controls.Add(Type:等于msoControlPopup,before:等于1).Caption等于″论文统计″‘设定主菜单

Application.CommandBars(″Worksheetmenubar″).Controls(″论文统计″).Controls.Add(Type:等于msoControlButton,before:等于1).Caption等于″导入题录″‘设定子菜单项

Application.CommandBars(″Worksheetmenubar″).Controls(″论文统计″).Controls(″导入题录″).OnAction等于″importdata″‘设定子菜单项“导入题录”对应的VBA程序

等‘设定其它子菜单项“论文汇总”、“论文统计”及对应的VBA程序

EndSub

Subautoclose()

Setmymenubar等于CommandBars.ActiveMenuBar‘恢复原系统默认菜单

mymenubar.Reset

EndSub

2.1将CNKI的RefWork输出文件导入EXCEL

本功能使用“导入题录”子菜单项,在随后出现的标准文件选择窗口中选取先前由CNKI生成的一组RefWork题录文件,即可将多个题录信息文件导入EXCEL之中.此时,每一条题录占10~12行,多条记录依次以行序存放在名为“原数据”的EXCEL工作表中.

由于RefWork格式的题录文件使用UTF-8编码,若直接读入EXCEL表格将显示乱码.故本程序首先使用ADO的Stream数据流读入题录文件,经格式转换后存放至一个临时文件,最后再读入EXCEL数据表.其相应的主要代码如下:

Setobjstream等于CreateObject(″adodb.stream″)‘产生一个ADO的Stream数据流,以打开指定题录文件

filetoopen等于Application.省略),*.″,,″请选择要导入的题录文件″,,True)‘打开标准的文件选择窗口供用户指定需导入的题录文件

IfIsArray(filetoopen)Then

ForEachccInfiletoopen‘逐个打开选择的题录文件

Withobjstream

.Type等于2‘打开文本文件

.Mode等于3‘打开后供“读写”

.Open

.LoadFromFilecc‘指定文件名

.省略文件

.Position等于2‘读取位置

allstring等于.readtext‘读至allstring变量中

.Close

EndWith

cc1等于cc&″.省略.tmp的临时文件

Setfso等于CreateObject(″Scripting.FileSystemObject″)

SetMyFile等于fso.OpenTextFile(cc1,2,True)‘将allstring写入其中

MyFile.Write(allstring)‘并将文件格式由UTF-8转换为标准Unicode

MyFile.Close

j等于ActiveSheet.[a65536].End(xlUp).Row‘计算当前信息存放位置

WithActiveSheet.QueryTables.Add(Connection:等于″TEXT,″+cc1,Destination:等于Range(Cells(j+1,1),Cells(j+1,1)))‘读取指定文件,并在当前位置转存

.Name等于″data″

.TextFilePlatform等于936‘指定Unicode代码页为简体中文

.TextFileParseType等于xlDelimited‘指定数据分割符

EndWith

fso.省略.tmp的临时文件

Nextcc

EndIf

2.2论文汇总处理

本功能使用“论文汇总”子菜单项,用于从一组指定题录文件中忽略多余信息,仅提取感兴趣的作者姓名、作者单位、论文题名、期刊名称、发表时间(年/卷/期)、关 键 词、期刊中图分类号、中图分类名及是否核心期刊等信息,此时每条文献题录记录仅占一行,并存放在名为“已处理数据”的EXCEL工作表中.由于论文与其关 键 词的一对多关系,为方便对关 键 词的统计处理,另生成一个名为“已处理数据KW”的EXCEL工作表,以存放关 键 词信息,每一题录将产生与关 键 词数量对应的信息行.本程序除完成正常的信息提取之外,还对RefWork文件中部分信息缺失的题录作了容错处

本文是一篇核心期刊论文范文,关于核心期刊相关毕业论文,关于基于EXCELCNKI题录文件实现对文献主题的计量相关硕士学位毕业论文范文。适合核心期刊及互联网及文献方面的的大学硕士和本科毕业论文以及核心期刊相关开题报告范文和职称论文写作参考文献资料下载。

;理,使程序具有相当的鲁棒性.

考虑到核心期刊具有对期刊质量较好的指示作用,而由北京大学出版社编订的“中文核心期刊要目总览”每4年修订1次,每次变化并不大,故将以最新的2008年第五版“中文核心期刊要目总览”作为认定核心期刊的依据,保存在“2008中文核心”工作表中;为进一步了解不同作者的研究领域分布,以刊物的CN刊号中的中图分类号字段作为学科/领域的一个区分指标,分类号与分类码的关系保存在“中图分类码”工作表中,据此可确定论文所属的研究领域.因篇幅所限,此部分代码略去.

2.3论文的计量分析及图示

本功能使用“论文统计”子菜单项,借助VBA编程软件及数据透视表分析工具,用于从“已处理数据”工作表中提取出论文的相关信息,并完成对文献的文献量、文献著者、文献所属学科、主要来源文献的计量统计及其图示.

Sheets(″处理后数据″).Select


Range(″A1″).Select‘计算″处理后数据″工作表中全部数据块大小,并为其定义一个名称“DataArea”

i等于ActiveSheet.[a65536].End(xlUp).Row

j等于ActiveSheet.[z1].End(xlToLeft).Column

SetDataArea等于Range(Cells(1,1),Cells(i,j))

ItemNumber等于Application.InputBox(Prompt:等于″请输入前n项:″,Title:等于″请输入一个数值″,Type:等于1,Default:等于20)‘等待用户给定统计结果的最大显示项数

以下按“作者姓名”对文献进行统计,获得按“是否核心”分页;以“作者姓名”为行;以“年”为列,以“作者姓名”的计数项作为数据的数据透视表及其图表显示,其显示结果如后图2~4所示.

ActiveWorkbook.PivotCaches.Add(SourceType:等于xlDatabase,SourceData:等于

DataArea).CreatePivotTableTableDestination:等于″″,TableName

:等于″数据透视表1″,DefaultVersion:等于xlPivotTableVersion10‘新增数据透视表,按“作者姓名”统计

ActiveSheet.PivotTableWizardTableDestination:等于ActiveSheet.Cells(3,1)

ActiveSheet.Cells(3,1).Select

WithActiveSheet.PivotTables(″数据透视表1″).PivotFields(″是否核心″)‘指定分页方式

.Orientation等于xlPageField

.Position等于1

EndWith

WithActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)‘指定行数据

.Orientation等于xlRowField

.Position等于1

EndWith

WithActiveSheet.PivotTables(″数据透视表1″).PivotFields(″年″)‘指定列数据

.Orientation等于xlColumnField

.Position等于1

EndWith

WithActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)‘指定数据项

.Orientation等于xlDataField

.Position等于1

EndWith

Range(″A5″).Select

ActiveSheet.PivotTables(″数据透视表1″).MergeLabels等于True

WithActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)

.AutoSortxlDescending,″计数项:作者姓名″

.AutoShowxlAutomatic,xlTop,ItemNumber,″计数项:作者姓名″

EndWith

ActiveWindow.SmallScrollDown:等于0

ActiveSheet.Name等于″按作者统计″‘指定统计数据工作表名为:“按作者统计”

ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″计数项:作者姓名″).Caption等于″发表论文数″

Charts.Add‘增加一个统计图表

ActiveChart.SetSourceDataSource:等于Sheets(″按作者统计″).Range(″A5″)

ActiveChart.LocationWhere:等于xlLocationAsNewSheet

ActiveSheet.Name等于″按作者统计图″‘指定统计数据图表名为:“按作者统计图”

等类似的,以下分别实现“按期刊统计”、“按期刊的中图分类统计”、“按作者单位统计”、“按论文关 键 词统计”及“汇总统计”功能,产生相应的数据透视表及其图表显示,如后文中图5~10所示.

2.3.1文献量分析

文献量是指某一学科研究者在某一段时间内所发表论文数量的多少,而核心期刊则是指其中一部分学术水平较高、影响力较大的那些期刊,其收录情况分析可以更好地衡量论文在某一学术领域的科研成就与实力.

某一学科领域学术论文发表的时间分布,在一定程度上反映该领域学术研究发展的脉络.由图1可直观看出2006年无相关论文,2007-2010年(本年度末全部统计)相关研究论文数量无论是核心还是非核心均呈较明显的增长趋势,这和近年来我国微博领域的快速发展相吻合,已逐渐成为学术界研究的热点问题.数据同时表明:同期核心期刊所占比重并不高,如何进一步提高论文质量还需要一定的努力.一般而言,当学科处于诞生和发展阶段,科学文献呈指数增加;当学科进入相对成熟阶段,科学文献的增长就不能总保持原有指数速率,增长率变小,但文献寿命变长.从统计结果看,国内对“微博”领域的研究尚属于快速发展阶段.

从图1左上角可观察到新增加的菜单及菜单项.

2.3.2文献著者分析

(1)文献作者分析

文献作者的分析有助于确定某学科研究的核心作者.

图2与图3左上角“B1”单元格可供用户通过鼠标选择“核心”、“非核心”或“全部期刊”作为统计范围.

从图2可见,就全部期刊而言,“本刊编辑部”、“刘兴亮”、“喻国明”、“杨澍”、“闫肖锋”等5位作者名列前茅,发表论文4~9篇;从图3可见,就核心期刊而言,“喻国明”、“段钢”、“陈霞”3位作者名列前茅,发表论文2篇;从图4可见,就非核心期刊而言,“本刊编辑部”、“杨澍”、“闫肖锋”、“刘兴亮”4位教师名列前茅,发表论文4~9篇,而发表3篇论文的共有4人,发表2篇论文的共有23人.可见论文的发表无论在数量还是质量上均存在较大的不均衡.图2论文著者分析(全部期刊)

(2)文献作者单位分析

文献作者单位的分析有助于确定某学科研究的核心机构,并据此判断该机构在此领域研究的综合实力.

从图5可见,就全部期刊而言,“暨南大学新闻与传播学院”、“新周刊”、“中国人民大学新闻学院”、“互联网实验室”、“复旦大学新闻学院”5个单位名列前茅,发表论文4~5篇,发表3篇论文的还有3个单位;从图6可见,就核心期刊而言,“暨南大学新闻与传播学院”、“复旦大学新闻学院”、“中国人民大学新闻学院”、“上海广播电视台广播新闻中心采访部”4个单位名列前茅,发表论文2~5篇;可见各单位研究实力也有一定的差异.

注意:图5~6中的“空白”项的产生是因为CNKI题录文件所收录的部分文献末提供相关单位信息所致,主要是博硕士论文等.图5著者单位分析(全部期刊)


2.3.3文献来源期刊分析

(1)主要来源期刊分析

主要来源期刊是指刊载某领域研究论文较多的期刊,分析主要来源期刊有助于确立某研究主题的核心期刊,把握该主题的主要研究成果.在论文投稿时,我们也可优先考虑将研究成果投向这些期刊,这样既可提高命中率,也有利于扩大研究成果的影响.


从图7可以看出,就全部期刊而言,“青年记者”、“IT经理世界”、“互联网天地”、“广告大观(综合版)”4种刊物发文量较多,分别为11~25篇;从图8可以看出,就核心期刊而言,“中国记者”、“新闻与写作”、“新闻记者”、“新闻战线”4种刊物发文量较多,分别为4~8篇.

(2)来源期刊类别分析

来源期刊类别是指刊载某论文的期刊所属的学科领域.笔者利用CN刊号中的中图分类号作为学科领域统计的依据,得出图9.从图9中可见:“信息与知识传播”、“经济”、“自动化技术、计算机技术”、“工业技术”4类学科领域当前研究的重点,分别占45~104篇.图6著者单位分析(核心期刊)

2.3.4文献关 键 词分析

通过文献关 键 词分析可大体把握相关学术研究的重点问题及其变化趋势.从图10中可见:全部文献中,“博客”、“互联网”、“用户”、“网站”、“传统媒体”、“新浪”构成前6类关 键 词,其数量分别为“48~148”.

3结论

通过以上基于EXCEL以VBA技术对CNKI提供的题录图9来源期刊类别统计(全部期刊)

图10文献关 键 词分析(全部期刊)

信息的自动提取及计量分析,可以看出利用CNKI输出的RefWork题录文件快速自动获取文献基本信息的便捷性和可靠性.本文所介绍方法可以大大降低文献计量研究的劳动强度,提高工作效率,降低错误发生率,使研究者可以集中精力于更有价值的文献内容的深度挖掘.

通过本文方法,对“微博”这一研究领域进行了相应的实证研究,统计结果还客观上揭示了“微博”这一研究方向近五年学术论文的产出状况.从年份分布来看,近年来相关论文的数量快速上升,说明相关领域的研究方兴末艾,也表明还有众多工作需要完善.通过对本领域前人工作成果的研究,有助于梳理研究发展的脉络,更好的把握研究方面,借鉴前人成功经验,并发现研究中存在的不足,为笔者“基于微博的社会舆情研判与预警”研究项目的发展提供基础支撑.本文所述方法可简单地推广至其它研究方向和领域,所提供的小工具软件也为文献检索与挖掘提供了一种有益的思路及实现方法.

本文是一篇核心期刊论文范文,关于核心期刊相关毕业论文,关于基于EXCELCNKI题录文件实现对文献主题的计量相关硕士学位毕业论文范文。适合核心期刊及互联网及文献方面的的大学硕士和本科毕业论文以及核心期刊相关开题报告范文和职称论文写作参考文献资料下载。

339;J].农业网络信息,2005,(3):41-43.

[3]周春雷,王伟军,成江东.CNKI输出文件在文献计量中的应用[J].图书情报工作,2007,51(7):124-126.

[4]宋丽华,伍若梅.基于CNKI文献的我国个人数字图书馆的文献计量分析[J].现代情报,2009,29(11):76-80.


相关论文

生文题录

本文是一篇水土保持论文范文,水土保持有关毕业论文的格式,关于生文题录相关专升本毕业论文范文。适合水土保持及生物科学及硕士学位方面的的。

现代录(小三题)

该文是论文题目专业木匠论文范文,主要论述了关于木匠方面毕业论文开题报告范文,与现代录(小三题)相关论文范文集,适合木匠及家具及炼铁厂。

动物录(六题)

该文为老虎有关学年毕业论文范文,与动物录(六题)相关写论文步骤,可作为写论文专业老虎论文写作研究的大学硕士与本科毕业论文开题报告范文。

《海录碎事》其文献价值

关于类书及农业机械及自然科学方面的免费优秀学术论文范文,类书相关论文的参考文献,关于《海录碎事》其文献价值相关论文范文检索,对写作。

我国电子文件元数据的文献计量学

该文为关于档案学研究生毕业论文开题报告范文,与我国电子文件元数据的文献计量学相关论文参考文献格式,可作为参考文献专业档案学论文写作。

《扬州画舫录》作者李斗二题

为您写诗集毕业论文和职称论文提供诗集类有关毕业论文开题报告范文,与《扬州画舫录》作者李斗二题相关论文范本,包括关于诗集及戏曲及诗作方。

CNKI输出文件在文献计量中的应用

本文是一篇数据库论文范文,关于数据库相关毕业论文,关于CNKI输出文件在文献计量中的应用相关电大毕业论文范文。适合数据库及参考文献及文献。

导游资题库的建设与

本文是一篇旅游管理论文范文,关于旅游管理类毕业论文范文,关于导游资题库的建设与相关专科毕业论文范文。适合旅游管理及导游及教学经验方面。

有关财务危机预警的文献综述

本文是一篇财务危机论文范文,关于财务危机类本科毕业论文范文,关于有关财务危机预警的文献综述相关毕业论文题目范文。适合财务危机及统计类。