当前位置 >> 论文 >> 论文模板 >>

概念方面论文例文,与基于Markov的概念自动抽取算法相关专科毕业论文范文

这是一篇概念方面专科毕业论文范文,与基于Markov的概念自动抽取算法相关毕业论文提纲。是论文模板专业与概念及算法及单词方面相关的免费优秀学术论文范文资料,可作为概念方面的大学硕士与本科毕业论文开题报告范文和职称论文论文写作参考文献下载。

摘 要 :提出了一种概念自动抽取算法,该算法的目的是从英文文本中抽取出由多个单词组成的概念.文中首先证明了概念的抽取过程是一个多个状态的齐次Markov链,然后给出了具体的抽取过程,即,如果多步转移概率达到所给定的阈值,则将这多个状态,即多个单词,看作是一个概念.为了对算法进行性能测试,借助网络爬虫,从网络中获取有关计算机领域的文本文档,采用本文算法进行概念抽取,结果显示该算法优于其他算法.

关 键 词 :马尔克夫;概念;转移概率;概念抽取;规则

中图分类号:TP391.1 文献标识码:A

1.引言

概念在本体中处于重要位置.随着社会的发展,新的概念,尤其是多个单词组成的概念层出不穷,从领域文档、互联网中抽取出这些概念来丰富领域知识库是一项有意义的工作.人工获取概念是效率低,费时费力,而概念的自动抽取在信息处理等应用中扮演着重要角色.目前主要的抽取方法都是基于统计、规则和二者混合的方法,笔者于本文中提出Markov的概念抽取方法,该方法可以从英文文本中抽取出包含多个英文单词的概念.

2.相关工作

本节将对目前采用的概念自动抽取算法进行讨论,分析其优缺点,在此基础上阐述本文算法.

基于规则的方法是建立一系列的模板,和模板相匹配的概念即为领域概念,如N(其中A为形容词,N为名词,P表示介词)[1],符合这个形式则作为一个概念.还有一种改进的空间概念抽取算法,算法中通过一定的规则去获取两个义素之间的语义关系,通过两义素的相似度值来获取空间概念间的相似度,从而抽取出空间概念[2].从金融领域资源中抽取出相关概念的方法,其中也用到规则模板的制定[3].总之,该类方法中均根据一定的规则制定相应的模板,但是模板是人工建立,毕竟人们的知识有限,不可能制定出面向全部语法规则的模板,有必要建立一种适用某个领域概念抽取的完善的模板,但是这是一项非常困难的工作.

基于统计的方法有&

关于基于Markov的概念自动抽取算法的专科毕业论文范文
概念方面论文例文
#22522;于频率,基于统计,基于互信息(Mutual Information MI)或信息熵等技术,Damerau提出的是一种基于互信息的方法,要抽取的概念中包含了两个单词和,Damerau认为如果两个单词和的MI值大于某给定阈值,则该两单词可以被看作为一个概念.但是MI方法会把与看作是一个概念,这将影响到概念抽取的准确率.一种基于最大熵模型的本体概念获取方法,通过对领域文本进行挖掘得到名词性短语,再使用改进的TF-IDF公式从中抽取具有领域性的短语[4].Dinh等人[5]在抽取生物医学概念时采用了纯统计向量空间模型,借助词袋概念以及单词在文本中的位置特征抽取相关概念.

统计和规则二者相结合的方法称之为混合法,该方法是通过制定规则,实现筛选,然后对筛选的数据进行统计,并从中抽取概念,对概念赋值并统计大小,根据值的大小,证明是否是领域概念.一种与领域无关,并且是半自动的概念抽取方法是Frantzi提出的[6],在这个方法中对C-value和NC-value分别进行抽取,其中C-value的抽取用到了语言学知识(其中包含词性标注,语法过滤等),也用到了统计学知识,如表达式(1):

这时C-value的表达式,其中,是概念频率,是包含的待抽取的概念集合;是集合中概念个数.因为C-value方法因为语法过滤器的选择会影响该算法的召回率和准确度.而将表达式(1)纳入概念抽取,就会形成C-value的扩展,也就是NC-value,如表达式(2):

是待抽取概念,是作为的上下位单词所出现的频率,是单词的权值,是集合的单词,是单词的直接上下位单词的集合.

张新等人提出了一种基于规则与统计的本体概念自动共聚方法,从领域文本中通过语义串切分、规则匹配、领域归属度分析和概念约简算法自动获取领域概念[7].但是其中的词性组合规则不易把握,如何将规则定义的完善是该方法需要解决的问题.

3.基于Markov的概念抽取算法

该算法是针对多个单词组成的概念,如campus violence,French riots,911 terrorist attack等.这就好比是马尔可夫链,多个单词的概念抽取可看作是多态的,并设定一个多步转移率的阈值,如果超过该阈值,就把这个多态链称为一个概念,这种方法从模型上看计算简单,准确率也高,相应的抽取概念的效率自然也会提高.[8]

3.1 概念的Markov性

要把领域文档看作一个概念集合,而且是自动抽取概念的过程,就必须以信息学的角度进行分析.这里的概念集合设为,其中,是概念集合当中的元素,而是元素的个数,也就是单词的个数,那么多个单词的抽取,就是从集合中抽取多个元素的概念.

下面证明概念抽取过程的Markov性.

证明:假设多;领域文档中的一个变量,这个变量代表一个单词,则就有多种状态,可以把它看作是一个随机,此时,可以把集合C看作是一个多态集合.当在已知的情况下,的分布概率只与有关,而和无关.其中是与相邻的单词.由此可以证明是符合抽取概念多态链,即Markov链.

3.2 概念的抽取过程

在抽取单词的过程中,设在时间n时,Markov链的状态是,即,在下一个时间n+1内,抽取单词,则.此时从抽取单词到的转移概念就可以计算出来了,其表达式为,,或者用表示,1表示△T,就是抽取第一个单词和第二个单词的时间间隔.只和,和△T有关,可以看出是稳定值,可以证明单词抽取是齐次Markov链.

在上述的过程中可以说Markov链是从一个状态转化到另外一个状态,其表达式为(3)所示:

其中,表示从状态到状态的一步转移概率.

概念抽取的步骤总结如下:

这里要有一个前提,就是假设我们已经具有了一个领域文档,那么具体的抽取过程分为四步: (1)用空格将文档中的所有标点符号替换下来.

(2)计算两次抽取单词的一步转移概率,并建立一个对应的矩阵,如转移矩阵P.

(3)如果转移概率大于给定阈值,则将看作是一个待定概念.

(4)检索待定概念的集合,将形如“we, are”等通用概念从C中清除.

这四个步骤是抽取两个单词的过程,如果想抽取大于两个单词所形成的概念的话,就需要把第三步中的概率重新计算,并与阈值进行比较,如果大于阈值,就可以进行第四步.

4.性能比较

本节将基于Markov的概念抽取算法与基于频率,互信息,C-value及NC-value四种算法进行比较分析.利用五种算法在相同的文档中对单词进行抽取形成概念,然后对每种算法的召回率和准确率进行比较.

具体方法是:取得637个文档,这些文档从http://en.wikipedia./wiki/puter_science上获取,然后创建一个小型的文档,该文档具有421532个单词.从这个文档中利用五种算法进行单词的抽取.


概念职称论文撰写技巧
播放:26993次 评论:3932人

在第一种算法中采用基于频率的算法,阈值为1302,其结果如表1中所示,第二种算法是互信息的算法,阈值采用9.227,其结果如表1第三行所示,第三种算法是C-value算法,结果如表1第四行所示,采用的过滤器是Noun+Noun,第四种与第三种相同,见表第五行.第五种算法就是Markov算法了,其阈值为0.436,结果见表1第六行.

由表1可看出,采用C-value和NC-value算法,由于其采用语法过滤器,结果导致将有些本来是所需概念被滤掉,因此具有较低的召回率.基于频率和互信息的召回率和准确率相差不大是因为MI均基于频率.在这些数据中召回率最高的是基于Markov的算法,其根本原因在于:前面四种算法都是基于概念,而Markov是因为转移概率,也就是说出现频率低的概念也会被作为待定概念被抽取.另外该算法准确率也较高,这是因为该算法将单词的排列顺序考虑在内.另外,该算法模型简单,构建效率较高.

基于Markov的概念自动抽取算法参考属性评定
有关论文范文主题研究: 概念类论文范文 大学生适用: 硕士学位论文、学院论文
相关参考文献下载数量: 73 写作解决问题: 写作技巧
毕业论文开题报告: 论文提纲、论文选题 职称论文适用: 期刊发表、中级职称
所属大学生专业类别: 写作技巧 论文题目推荐度: 最新题目

5.结束语

因为随着社会的发展,一些领域,尤其发展速度较快的领域,新的概念层出不穷,这些概念中的多数概念是由多个单词构成,所以本文提出了一种基于Markov的概念抽取方法.该方法可以从英文文献中抽取出来含有多个单词的概念,并且具有领域无关性.整个抽取过程基于多个状态的Markov链,可以通过每个概念中所包含单词的多步转移概率来判断,如果转移概率达到一个所设定的阈值,则将概念从资料中抽取出来.该方法计算简单,易于实现,效率高,通过与其它算法比较具有较好的性能.

参考文献:

[1] John S. Justeson and Slava M. Katz. Techincal terminology: some linguistic properties and an algorithm for identification in text[J]. Natural Language Engineering,1995,1(1):9-27.

[2] Qing Yang, Kai-min Cai, Yan Li, Rui-qing Liu An Area Concept Extraction Algorithm Based on Association Rule[C].Proceedings of the 2010 International Conference of Information Science and Management Engineering ISME '10,2010,3:562-564.

[3] Mihaela Vela,Thierry Declerck Concept and relation extraction in the finance domain[C].Proceedings of the Eighth International Conference on Computational Semantics, Tilburg (Netherlands),2009:346-350.

[4] 韦小丽,等.基于最大熵模型的本体概念获取方法[J].计算机工程,2009(24):114-116.


本文地址:http://www.thtc.cn/moban/457628.html

[5] Dinh,D.and Tamine,L.Biomedical concept extraction based

on bining the content-based and word order similarities[J]. In SAC,2011:1159-1163.

[6] K.Frantzi,S.Ananiadou,and H.Mima.Automatic Recognition of Multi-Word Terms: the C-value/NC-value Method[J].International Journal of Digital Libraries,2000,3(2):117-132.

[7] 张新,党延忠.基于规则与统计的本体概念自动获取方法研究[J].情报学报, 2007,26(6):813-820.

[8] 周子力.基于WordNet的本体构建及其在安全领域应用关键技术研究[J].华东师范大学,2009.

作者简介:

宋元海,男,高校讲师,兖州矿区职工大学计算机系任

教,擅长计算机软件设计.

计算机算法论文
置的.其中,计算。基于模板算法的动五"科技支撑计划课题,"863计划"(子课题)项目,国家自然科学基金项其它省部级及以上项目78项,横向开发项目40项.总研究经费达万元,其中纵向研。

论文检测算法
部《学位论文作。基于模板算法的动五"科技支撑计划课题,"863计划"(子课题)项目,国家自然科学基金项其它省部级及以上项目78项,横向开发项目40项.总研究经费达万元,其中纵向研。

计算机算法分析论文
置的.其中,计算。基于模板算法的动五"科技支撑计划课题,"863计划"(子课题)项目,国家自然科学基金项其它省部级及以上项目78项,横向开发项目40项.总研究经费达万元,其中纵向研。

论文查重算法
馆信息存在,各分馆的用户只能修改本馆馆的预订,验收,馆藏数据,但能够查看他馆的信息,以利于实现今后的多个图书馆分馆的管理体制.,要求采用基于web和inter的b/。论文查重检测须。

自动控制系统论文
日—月1日.申请书将纸质申请书一式份送.项目申请组织同行专家评议(。淘宝论文自动平台开发淘宝论文自动平台开发,开发原理,登录检测论文网站------计算字数------计算价。

汽车自动变速器论文
淘宝论文自动平台开发淘宝论文自动平台开发,开发原理,登录检测论文网站------计算字数------计算价格--------显示淘宝连接-------指示客户去淘宝网购买付款获。

自动焊接机论文
淘宝论文自动平台开发淘宝论文自动平台开发,开发原理,登录检测论文网站------计算字数------计算价格--------显示淘宝连接-------指示客户去淘宝网购买付款获。

自动生成论文目录
可以采用自动生成目录当论文基本完工后,可以采用自动生成目录(生成后可以选中目录修改字号等),好处是以后文章还有修改,可以自动更新页码.,自动生成目录方法,1.若是word2003。

论文目录自动生成
可以采用自动生成目录当论文基本完工后,可以采用自动生成目录(生成后可以选中目录修改字号等),好处是以后文章还有修改,可以自动更新页码.,自动生成目录方法,1.若是word2003。

自动焊接机器人论文
焊接职称论文 /检测技术及仪器仪表/自动控制/化工自动化/电气工程及自动化爆破器材制造业,烟花爆竹,民用安全安全工程机械机械制造工艺与设备/机械制造工程/机械设计及制造/机。

与基于Markov的概念自动抽取算法相关的论文新课改初中数学概念教学【摘要】数学概念是数学教学的重点内容,也是学生必须掌握的重要基础知识之一,是数学基本技能的形成与提高的必要条件.在概念教学中,教师要讲究教学方法,注重概念的形成过程。改进的本体概念相似度计算模型摘要:本体映射能很好地解决语义网中的本体异构性问题,其核心在于计算本体概念的相似度.针对现有的概念相似度计算的精度和查准率不高,提出一种改进的概念相似度计算模型.首先利。初中科学概念教学的基本策略【摘要】科学概念是初中科学知识体系的主要元素,科学概念的掌握水平是科学学习成败的关键,因此,如何更好地实施科学概念教学是初中科学教学亟待解决的问题.文章基于详实的教学案例,从利用前概念、概。初中数学概念教学摘要在中学数学教学中,正确理解数学概念是掌握数学基础知识的前提,是学好定理、公式、法则和数学思想的基础,搞清概念是提高解题能力的关关键词初中数学概念教学概念是客观事物本质属性在人们头脑中。探究初中物理概念教学概念教学是物理教学的重要环节之一.学生只有准确地理解物理基本概念,才能理解物理原理,掌握知识要点,进行科学探究及实际应用.因此,本文从生活实际出发引导学生积累概念形成的素。怎样轻松的学化学【中图分类号】G633.8文献标识码:B文章编号:1673-8500(2013)04-0114-01在化学教学中,一些概念比较抽象,加上方程式等冲淡了学生学习化学的兴趣,有什么更好的方法可以轻松牢记化。几何形体教学几何图形知识是小学数学教学内容的重要组成部分.而几何形体概念的学习又是小学数学概念教学中的一块重要内容和难点部分,在教学中时常出现效果不佳的状况,究其原因表现在两个方面,一是由于学生的认知特点。初中数学的概念教学摘要:数学概念是数学知识的基础,是数学教材结构的最基本的因素,是数学思想与方法的载体.正确理解数学概念.是掌握数学基础知识的前提.关键词:初中数学概念教学数学概念是。“小而美”同样可创造奇迹中国著名营销策划专家和品牌管理专家叶茂中著文:20年前标致曾经在中国推出一款经济型车――富康,可起早的鸟儿并非有虫吃,富康被桑塔纳和捷达爆的渣渣都不剩,原因就是,中国人天生鄙夷两厢车.这样的。特殊学校数学概念的教学【摘要】特殊学校数学教学的主要任务之一是使学生掌握一定的数学基础知识.而概念是数学基础知识中最基础的知识,对它的理解和掌握,关系到学生计算能力和逻辑思维能力的培养,关系到学生。
返回论文网首页 阅读更多优秀论文
★关于本文相关开题报告