基于词频g指数的共词聚类关键词选取

时间:2024-03-11 点赞:46872 浏览:93108 作者原创标记本站原创

本文是一篇教育技术学论文范文,关于教育技术学相关专科毕业论文开题报告,关于基于词频g指数的共词聚类关键词选取相关毕业论文参考文献格式范文。适合教育技术学及信息技术及远程教育方面的的大学硕士和本科毕业论文以及教育技术学相关开题报告范文和职称论文写作参考文献资料下载。

【摘 要】利用CNKI中国优秀硕士学位论文全文数据库,以教育技术学专业为例,利用其中3465篇教育技术学硕士学位论文的6593个关 键 词为研究对象,对词频g指数和齐普夫第二定律选取的高频词进行共词聚类比较,基于词频g指数选取的关 键 词得到了良好的聚类结果,为以后共词聚类的关 键 词选取研究提供了理论依据.

【关 键 词】共词聚类;词频g指数;齐普夫定律;教育技术学

引言

共词分析方法是一种重要的信息计量学研究方法,也属于内容分析法的常用方法之一.它的主要原理是:利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系,词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密.由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系.

共词分析以反映文献主题内容的高频关 键 词为研究对象进行统计分析,通过查阅大量的文献和著作发现,对于高频词的选取即高频词阈值没有统一的说法,一种方法是结合研究者自身的经验在选词个数和词频高度上平衡,即按照关 键 词频数分布情况选取词频大于某个特定值的关 键 词作为高频词,这种方法由于缺乏理论指导具有一定的主观性.另一种使用相对普遍的方法是结合齐普夫第二定律辅助判定高频词的界限.为更加合理选取高频词,本文以教育技术学硕士学位论文为例,结合齐普夫第二定律和词频g指数,比较二者在共词聚类中确定高频词阈值的合理性.

一、概念

1词频g指数

Hirsch提出用作者h指数衡量学者个人的论文产出数量和质量,引起了学界广泛关注.Egghe利用g指数对h指数进行了修正.g指数的计算过程为:将源项论文按被引次数降序排列,找出g值,使得前g篇论文被引次数的总和大于或等于g2,而前g+1篇论文的被引次数小于(g+1)2.可以看出g指数反映的是高质量论文对某个科学家的贡献值.

杨爱青等根据g指数的计算方法,提出了词频g指数的定义,即:某一个研究主题关 键 词的数量分值为g,当且仅当此研究主题的关 键 词总量N中,有g个关 键 词其累计出现频次不少于g2次,而g+1个关 键 词其累计出现频次少于(g+1)2次.并归纳出词频g指数的计算过程如表1所示:其中i为关 键 词总量,按词频降序排列后每个关 键 词所得序号.序号i为1,表明对应的关 键 词出现频次最多.N为源项论文总数:Fi为对应序号为i的关 键 词的出现次数,对于所有i,有Fi-1≥Fi.共词聚类正是通过选择高频词来反映某个研究领域的知识结构,高频词代表了该词在所有关 键 词中出现频次的贡献值.

2齐普夫第二定律

美国语言学家齐普夫提出了文献计量学的一个重要定律——齐普夫定律,布什(B.Booth)首先推导出基于齐普夫第二定律关于低频词分布的计算公式:

ln表示文中出现的次数为n的关 键 词数量,该公式与文献长度无关,仅仅与关 键 词出现的频率有关.Donohue根据齐普夫第二定律提出了高频词与低频词的临界值分界公式,即:

二、数据来源与研究流程

1数据来源

本研究以CNKI为数据源,选取《中国优秀硕士学位论文全文数据库》,简称为CMFD,它是国内内容最全、质量最高、出版周期最短、数据最规范、最实用的硕士学位论文全文数据库.于2013年3月2日检索,以“学科专业名称”为检索条件,以“教育技术学”为检索词,学位年度限定在2008年到2012年,共检索到3465篇文献.

2研究流程

(1)以教育技术学领域为研究对象.

(2)选择中国优秀硕士学位论文全文数据库,检索2008-2012年的文献数据,统计其关 键 词频.

(3)根据词频g指数计算方法,计算词频g指数,即共词聚类的高频关 键 词.

(4)根据齐普夫第二定律的公式,计算出高频词和低频词的临界值n,得出高频关 键 词.

(5)根据词频g指数和齐普夫第二定律选取的高频关 键 词进行共词聚类分析,检验二者选取高频词上的合理性.

三、数据统计与分析

1选取高频关 键 词

对检索到的3465篇文献进行关 键 词统计,得到原始关 键 词6593个.删除对研究主题没有影响的甘肃省、日本、应用、评价、发展、对策、模式、开发等关 键 词,合并具有相同或相近含义的关 键 词,经过反复的人工校对,最终确定了5022个关 键 词,将这些关 键 词按照出现的频次由高到低进行排序.

通过词频g指数的计算方法,得到高频词的阈值为50,即出现频次大于24的前50个关 键 词作为高频词,如表2.

根据齐普夫第二定律计算高频词和低频词的分界线,得到高低频词的临界值为81,如把频数在81次及以上的关 键 词作为高频词,则本研究有5个关 键 词符合要求.从选词数量上来看,齐普夫第二定律显然不适合作为选取高频关 键 词的标准.下面通过二者选取的高频词进行聚类结果比较,以进一步明确它们在选取关 键 词上的区别.

2建立高频词共词矩阵

两两统计不同关 键 词在同一篇文章同出现的次数,形成一个50X50的共词对称矩阵(齐普夫第二定律选取的高频词共词矩阵为前5个词形成的矩阵,以下类同),如表3所示.

3构造相关矩阵、相异矩阵

为了消除频次间的差距对分析结果造成影响,必须对共词矩阵的数据做出相应处理.本文引入Ochiia相似系数法进行计算,将共词矩阵转换成相关矩阵.具体计算公式为:

Oehiia系数等于Nij/(Ni*Nj)1/2

其中Ni和Nj分别代表关 键 词i和j出现的次数,Nij指关 键 词i和i共现的次数.经计算得到高频词的相关矩阵如表4.在所得的相关矩阵中由于0值过多,利用它进行统计分析时易造成较大的误差,为方便处理,用“1”减去相关矩阵中的每个数据,得到表示两词间相异程度的相异矩阵,如表5.

四、高频词共词聚类分析

采用词频g指数和齐普夫第二定律两种方法选取高频词及处理得到的矩阵分别进行层次聚类分析(HierarchicalCluster),检验二者在共词聚类分析中高频词选取的合理性.聚类的目的是将数据聚集成类,使得不同类间的相似性最小,而同一类中的相似性尽可能的大.本文利用SPSS16.0进行共词聚类分析,选择“组间连接法(Between-groupslinkage)”,聚类结果分别如图1、图2所示.

从图1可以看出,高频词聚类数目只有3类,聚类效果很不理想,不能如实反映教育技术学学科知识点的构成.只能通过词频数目大体判断近几年出现较多的热点词,其结果不能有效地用于共词分析中.因此,齐普夫第二定律只能选择关 键 词中部分超高频的词,对于次高频的关 键 词并不起作用.因为共词分析主要探讨的是词和主题之间的关系,超高频词不能体现出知识之间的联系,只能从一定程度上反映出研究的趋势.

相反,词频g指数就能同时选择超高频和部分次高频的关 键 词.次高频词能够贴切地表达出研究主题的内容,它们之间的关系更能深层地揭示主题之间的相关性.图2表明由词频g指数选择的50个高频词聚类效果比较理想,体现了50个关 键 词之间的关联程度,其分成的类别大体符合教育技术学硕士学位论文的研究前沿,代表了教育技术学的研究方向及学科和主题的结构变化.

图2可以看出近几年教育技术学硕士学位论文的研究主题主要集中在以下几方面:

(1)教师教育技术能力培训.通过培训,采取一定的教学策略提高中小学教师的教育技术能力,优化师资,并且培训过程中运用绩效技术提高培训效果.同时农村地区的教师对信息技术的掌握并不理想,因此教师培训的状况与农远工程的实施紧密相关.

(2)信息技术与课程整合.教育信息化的背景下随着新课改的深入,对信息素养提出了更高的要求,在课程学习活动中使用信息技术完成教学目标,从而实现信息技术与课程内容的深层次整合.

(3)网络教育与远程教育.近几年网络与远程教育的发展改变人们的学习方式和学习环境,如在建构主义学习理论的指导下的协作学习,混合学习的产生,远程教育中的教学模式和教学资源的变化,网络教育中精品课程的应用等等.

(4)基于网络环境的研究性学习.如虚拟实验、PBL、行动研究、网络课程,从聚类情况可以看出教学设计的重要性.

(5)学习共同体.随着Web2.0时代的到来,网络环境下非正式学习更加方便快捷,具有相同爱好的学习者形成了学习共同体,如虚拟学习社区的发展,促进教师专业发展的网络学习共同体也应运而生.

(6)新技术支持的教与学.移动通讯技术和网络技术的发展促使教学与学习的方式发生变革,如移动学习,教育游戏等对教与学产生重大影响,成为教育技术学硕士学位论文的研究热点.

五、结论

本文的目的是将词频g指数和齐普夫第二定律分别应用到教育技术学硕士学位论文的共词聚类关 键 词选取研究中,通过对聚类分析结果的比较,进一步明确在共词聚类研究中选取关 键 词的科学方法.结合以上的研究和分析,我们可以概括出以下结论:

(1)齐普夫第二定律不适合做共词聚类的高频词选取,它是针对以低频词(词频为1)作为高低频词分界的依据;词频g指数在共词聚类关 键 词选取中具有科学性、简便性、有效性和合理性,它所关注的是高频词对所有词的贡献值,比传统研究中人为主观确定关 键 词更为客观.从本研究中可以看出由于所选关 键 词的多少会导致共词聚类的结果有所不同,因此通过科学方法合理选取关 键 词在学科可视化研究中具有极其重要的地位.


(2)本研究中选取的数据来源于CNKI中的教育技术学专业优秀硕士学位论文数据库,尽管其具有很高的权威性,但难免存在数据的遗漏或错误.词频g指数的应用与选取的学科主题、数据源和数据质量等都有一定的关系,不同的数据源和数据质量,其结果也存在差异.因此,在接下来的研究中需要选取不同数据源并将其应用到更多领域来进行检验和论证.

相关论文

基于共词的近年思想政治教育热点

本文是一篇思想政治教育论文范文,关于思想政治教育相关毕业论文格式模板,关于基于共词的近年思想政治教育热点相关大学毕业论文范文。适合思。

我国物流学科热点的共词可视化

本文是一篇绿色物流论文范文,绿色物流类有关毕业论文的格式,关于我国物流学科热点的共词可视化相关学士学位论文范文。适合绿色物流及第三方。

聚类在话务量预测中的应用

本论文是一篇话务量类论文文献综述范文,关于聚类在话务量预测中的应用相关在职研究生毕业论文范文。免费优秀的关于话务量及样本及社会学方。

基于聚类对多个国家空调总需求量的

本文是一篇统计分析论文范文,关于统计分析相关学士学位论文,关于基于聚类对多个国家空调总需求量的相关本科论文范文。适合统计分析及参考文。