TFIDF方法在英语句子相似度计算中的应用

时间:2024-02-09 点赞:48386 浏览:97511 作者原创标记本站原创

本文是一篇句子论文范文,句子类毕业论文的格式,关于TFIDF方法在英语句子相似度计算中的应用相关专升本毕业论文范文。适合句子及信息检索及同义词方面的的大学硕士和本科毕业论文以及句子相关开题报告范文和职称论文写作参考文献资料下载。

摘 要:介绍了一种中文自然语言处理中句子相似度的计算方法—基于向量空间模型的TFIDF方法,并将该方法引入到了英语句子相似度的计算中来.对于含有同义词的句子,在计算句子相似度之前,先使用WordNet2.1查询句子中关 键 词的同义词集进行消歧,再利用TFIDF方法进行相似度的计算.计算结果表明,消歧后再计算能得到更好的效果.

关 键 词:TFIDF;相似度计算;WordNet

中图分类号:TP18文献标识码:A文章编号:1009-3044(2012)17-4127-02

StudyofEnglishSentenceSimilarityConputinginTFIDFMethod

YANGQian-qian,XUDong

(CollegeofPhysicsandElectronics,ShandongNormalUniversity,Jinan250000,China)

Abstract:AmethodbasedonvectorspacemodelofTFIDFforcalculatingsentencesimilarityinChinesenaturallanguageprocessingisintroduced.ThemethodisintroducedtocalculatethesimilaritiesofEnglishsentences.Forthesentenceswhichcontainsynonyms,WordNet2.1isusedtofindsynsetofthekeywordsinthesentencesbeforethesimilaritycalculating,andtheneliminateambiguities,TFIDFmethodiinallyusedtocalculatesentencesimilarities.Theresultshowsthatthesimilarityafterambiguitieseliminatingioreaccurate.

Keywords:TFIDF;similaritycalculating;WordNet

在机器翻译中基于实例的方法非常普遍,翻译结果也相对准确.在基于实例的英-汉机器翻译中,要想找到与目标句相匹配的源语言句子就要用到句子相似度的计算.在基于实例的机器翻译中句子相似度的计算非常关键,直接关系到目标句和语料库中源句子的匹配程度.

在汉语句子相似度的计算中经常采用的是基于向量模型的TFIDF方法,这是一种基于统计的方法,利用句子的词的词频词性等信息进行相关计算.我们将TFIDF方法引入到英语句子相似度的计算中来,但是直接利用TFIDF方法计算英语句子的相似度并不理想.这种方法没有对语义进行分析,在计算过程中若有同义不同形的词,相似度的结果就会受到影响,导致翻译匹配结果不准确.该文先采用WordNet2.1查询目标句子和源语言句子中关 键 词的同义词集,进行简单的同义词消岐后,再利用TFIDF方法计算英语句子之间的相似度.


1英语句子相似度的计算方法

要计算英语句子的相似度,对于含有同义词的句子首先要用WordNet查询句子中关 键 词的同义词集,进行消歧后,再利用TFIDF方法计算英语句子间的相似度.下面分别介绍一下WordNet的特点和基于向量空间模型的TFIDF方法.

1.1WordNet的特点

WordNet是在Princeton大学认知科学实验室的G.Miller教授指导下开发的实际工作始于1985年.WordNet是一个在线的词汇参照系统,它的独特之处在于它是依据词义而不是依据词形来组织词汇信息.WordNet使用同义词集合(synset)代表概念(concept),词汇关系在词语之间体现,语义关系在概念之间体现.WordNet构造的核心是如何表示词汇概念节点,及在这些概念节点之间建立起各种语义关系.WordNet将英语词汇组织为一个同义词集合,每个集合表明一个词汇概念,同时力图在概念间建立不同的指针,表达上下位、同义、反义等不同的语义关系.经过这样的过程,原来抽象的概念被形式化了,变得具体且可以通过词汇意义加以操作,概念之间还可以建立多种语义关系的联系和推理.WordNet中词汇概念的语义关系主要包括:上下位、同义、反义、整体和部分、蕴含、属性、致使等.

该文查询词语用的是WordNet2.1版本.Version2.1主要包括名词、动词、形容词和副词四类实词,虚词并不予考察.我们主要利用的WordNet中的同义词集,若句子中的某个关 键 词属于另一关 键 词的同义词,我们将其看作相同的词,为下一步TFIDF方法计算句子相似度做准备.例如“scene”与“scenery”两个词,通过WordNet2.1查询知“scenery”位于“scene”的同义词集中,我们就将其看作相同词;类似地,“potato”与“loveapple”也是同义词,也作为相同的词.

1.2基于向量空间模型的TFIDF方法

在信息检索领域中,基于向量空间模型的TFIDF方法被广泛地用来计算汉语文本之间的相似度.这里,我们将TFIDF方法引入

TFIDF方法综合考虑了不同的词在句子中的出现频率(tf值)和这个词在整个语料库中对不同句子的分辨能力(idf值).这种方法不需要任何对文本内容的深层理解,是信息检索领域常用的方法,当句子中次数较多时能产生较好的效果.但是不管英语句子还是汉语句子,往往需要考虑词本身的语义信息,IFIDF在计算汉语句子相似度时没有考虑到语义信息.例如,“西红柿是什么颜色?”和“番茄是什么颜色?”采用TFIDF方法计算相似度为0,但这两个句子表达的意思应该是完全相同的,因为“西红柿”和“番茄”在语义上是完全等价即两个词为同义词.

正是TFIDF方法中融合进了WordNet的同义词集消岐部分,语义上完全相同但相似度却为0的情况得以改进.下面是通过对一些英语句子进行相似度的计算来对比一下加入WordNet查询后的好处.

2试验结果

下面的两组数据是英语句子相似度值,一组是直接采用TFIDF方法进行计算的结果,一组是采用WordNet进行查询并简单分析后再利用TFIDF方法进行计算的结果.

1)Wordcannotdescribethebeautyofthescence.

2)Thebeautyofthescenerybeggarsdescription.

3)Thescenceissobeautifulthatittranscendmypowerofdescription.

目标句为:

Wordcannotdescribethespectacleofthenature.

表1相似度计算结果的比较

3结束语

将TFIDF方法用于英语句子之间相似度的计算,不需要对句子进行分词.TFIDF方法考虑了词在上下文中的统计特性,不需要任何对文本内容的深层理解,相对来说计算较为简单,对于不需要考虑语义信息且词汇量较大的英语句子来说能获得较准确的结果.先采用WordNet进行简单的关 键 词语同义消岐,然后利用TFIDF方法进行计算可以在一定程度上提高英语句子相似度的准确性.尤其是对于同义词较多的句子中,效果将更为明显.

相关论文

初中英语句子改错方法之心得

本文是一篇初中英语论文范文,关于初中英语类本科毕业论文,关于初中英语句子改错方法之心得相关本科毕业论文范文。适合初中英语及句子及语法。

教学方法提高英语教学效率

本论文是一篇关于创新教育相关教学论文范文,关于教学方法提高英语教学效率相关硕士论文范文。免费优秀的关于创新教育及英语教学及课堂教学。

用恰当的方法走进英语中考复习

本论文是一篇关于自主学习论文总结,关于用恰当的方法走进英语中考复习相关毕业论文格式范文。免费优秀的关于自主学习及初中英语及英语学习。

英汉差异与大学英语句子写作教学

关于句子及汉语及开头方面的免费优秀学术论文范文,关于句子毕业生论文网,关于英汉差异与大学英语句子写作教学相关论文例文,对写作句子论。

英语句子结构训练

本文是一篇英语语法论文范文,英语语法类有关硕士学位论文,关于英语句子结构训练相关毕业论文提纲范文。适合英语语法及句型及学生方面的的大。

英语句子中的省略

本文是一篇动词论文范文,动词有关本科论文开题报告,关于英语句子中的省略相关本科论文范文。适合动词及不定式及主语方面的的大学硕士和本科。

基于知网的句子相似度计算的

本文是一篇句子论文范文,句子方面大学毕业论文,关于基于知网的句子相似度计算的相关毕业论文范文。适合句子及词语及语义方面的的大学硕士和。