英语文网山东

时间:2024-03-16 点赞:40056 浏览:72100 作者原创标记本站原创

本文是一篇模型论文范文,模型方面本科论文开题报告,关于英语文网山东相关电大毕业论文范文。适合模型及机器翻译及结构方面的的大学硕士和本科毕业论文以及模型相关开题报告范文和职称论文写作参考文献资料下载。

作者简介及博士学位论文中英文摘 要

论文题目:树到树统计机器翻译优化学习及解码方法研究

作者简介:,男,19年月出生,20年9月师从于教授,于20年7月获博士学位.n元语法单元上对机器翻译进行建模.虽然这种方法有较强的容错能力,且模型简单易于实现,但是由于没有考虑翻译源语和目标语的句法信息,它对许多重要的翻译问题(如:长距离依赖问题)不能很好的进行处理.针对这些问题,基于句法的统计机器翻译应运而生.特别是,树到树翻译模型(同时利用源语言和目标语句法树的翻译模型)可以同时利用双语的句法信息进行调序,源语结构分析及目标语结构生成,因此它相比其它基于句法的翻译模型具有更大的翻译性能提升潜力.本文以基于句法的统计机器翻译为框架,对树到树翻译模型的优化学习及解码中的若干关键问题进行研究并提出解决方案.主要内容包括以下四个方面:

本文提出了一种无指导的树到树结构对齐模型.首先,本文把结构对齐问题转化为翻译规则的推导,然后把结构对齐概率计算化简为多种因素的组合,最后通过EM等算法对结构对齐模型的参数进行无指导学习.在获得树结构对齐模型的基础上,本文进一步利用树结构对齐的后验概率,构建树到树对齐矩阵.并利用树到树对齐矩阵进行规则抽取.相比传统的基于单一对齐结果的规则抽取,基于树到树对齐矩阵的规则抽取可以显着增加规则覆盖度,进而提高系统的翻译质量.

本文提出一种受限束宽度的模型训练方法.相比传统的不考虑搜索问题的模型参数训练方法,本文将受限束宽度的搜索引入到参数训练过程中来.通过定义不同的损失函数,本文分别从束搜索和翻译结果评价(如:BLEU)两个角度对训练过程进行建模.最后利用迭代式学习从双语数据中自动训练模型参数.由于本文提出的方法可以在训练过程中更多的考虑搜索和翻译结果评价等因素,利用这个方法训练所得到的模型更适用于(树到树)解码,进而提高系统在测试集上的翻译准确性.

本文针对树到树的解码问题,提出了基于混合粒度的解码和基于集成学习的解码优化方法.前者通过定义不同粒度的翻译文法(或模型)来对翻译过程进行不同层次/粒度的描述,然后混合使用多种粒度的文法进行树到树解码.一方面,粗粒度文法可以确保解码能在足够大的搜索空间上进行,减少搜索错误,另一方面,细粒度文法可以对翻译结果进行更准确地评价,进而提高模型打分的准确性.基于集成学习的解码的基本思想是利用同一个解码器生成多个翻译结果候选集,之后对所有这些翻译候选重新解码,进而得到更优的翻译结果.实验结果证明本文提出的这两种优化解码方法可以显着提高树到树系统的翻译质量.本文提出一种基于树替换文法的目标语树结构评价模型.首先,本文对树到树系统的翻译结果所对应的句法树结构进行建模,并利用树替换文法对目标语树结构的质量进行评价.通过在机器翻译训练数据(目标语部分)上的学习,本文提出的树结构评价模型能够准确地评价翻译结果的句法结构的质量,进而带来了翻译性能的提升.此外,本文还对目标语树结构评价模型在解码器中的集成问题进行了研究,并提出了三种树结构评价模型集成方法.

基于本文的技术,我们成功开发了开源统计机器翻译系统NiuTrans(nlplab./NiuPlan/NiuTrans.1),并在NTCIR2和CWMT3等多项国内外机器翻译评测中取得了第一,第二名的成绩.关 键 词:统计机器翻译,树到树翻译,句法对齐,参数训练,解码

OnTrainingandDecodingApproachestoTree-to-tree

StatisticalMachineTranslation

XIAOTong

ABSTRACT

Machinetranslationisoneofman'soldestdreamsandhasreceivedgrowinginterestsoveralongperiodoftime.Recentlystatisticalapproacheshebeensuccesullyappliedtomachinetranslation.Moreandmorestudieshefocusedonlearningtranslationsystemromthelargecollectionofbilingualsentencepairsandautomaticallytranslatingnewsentencesusingtheresultingsystem.Instatisticalmachinetranslation,traditionalapproachesaremodeledineitherwordorn-gram(phrase)level.Whiletheseapproachesarerobustandeasytoimplement,theyignoretheunderlying(syntactic)structureofsentenceandthushelimitedcapabilitiesindealingwithlongdistancedependenciesandgeneratinggrammatically-correctoutputs.Toaddresstheseproblems,thesyntax-basedapproachhasbeenrecognizedasoneofthemostdesirablesolutions.Amonarioussyntax-basedmodels,tree-to-treemodels(i.e.,translatingfromagivensource-languageparsetreeintoatarget-languageparsetree)areno-doubtthemostpromisingdirectionsduetotheirobviousadvantagesoverotherphrase-basedandsyntax-basedcounterparts,suchas:betteruseofbilingualsyntaxinmodelingthereorderingproblem,betteranalysisofsourcetreeandsyntacticgenerationoftarget-languagesyntacticstructure.Inthisarticle,weinvestigateapproachestotree-to-treetranslation.Inparticular,wefocusondevelopingbettermodellearninganddecodingmethodortree-to-treesystems.Ourcontributionsaresummarizedaollows:

Wepresentanunsupervisedsub-treealignmentmodel.Inthiswork,wefirstmodelthesub-treealignmentproblemasderivationsoftree-to-treetranerrules,anddeposethemodelintoaproductofseveralfactorsunderreasonableassumptions.Themodelparametersarethenlearnedonthebilingualtree-pairsusingtheEMalgorithm.Moreover,asaby-product,theproposedmodelcanproduceasub-treealignmentmatrix,ratherthan1-best/k-bestalignments.Assub-treealignmentmatrixencodesanexponentiallylargenumberofpossiblealignments,wecanextractadditionaltranslationruleromthealignmentmatrix.Asaresult,wecanincreasethecoveragerateoftheextractedrulesetandthusimprovethetranslationquality.

Wepresentabeam-widthlimitedapproachtotrainingtree-to-treemodels.Unliketraditionalapproaches,wedonotignorethesearchprobleminthetrainingstage,butinsteaddirectlyparameterizethebeamsearchproblembyincorporatinariouslosefunctionsintomodeling.Inparticular,weconsiderboththebeam-widthlimitedsearchandthemeasureoftranslationquality(e.g.,BLEU)intraining,anddesigntwolosunctionstomodelthesetwofactors.Furthermore,weproposeasimpleandeffectivemethodtolearnourmodelfromthebilingualcorpusinaniterativemanner.Ourexperimentalstudiesshowthatourproposedapproachisveryhelpfulinimprovingastate-of-the-arttree-to-treesystemduetothereductionofmiatchbetweentraininganddecoding.


Wepresenttwoimprovedapproachestotree-to-treedecoding.Thefirstoftheseisacourse-to-fineapproach.Unlikepreviousapproaches,wedonotresorttoasinglegrammar,butinsteaddecodewithvariousgrammarsthathedifferentuseofsyntax(rangingfromcourse-grainedgrammartofine-grainedgrammar).Ascourse-grainedgrammarscanmakea"large"searchfordecoding,thedecodersufferslesromsearcherrors.Ontheotherhand,fine-grainedgrammarscanassignamoreaccuratemodelscoretoeachtranslationhypothesisandthusreducemodelerrors.Theseconddecodingapproachisbasedonensemblelearningtechniques.Inthisapproach,wefirstlearnanumberofdifferentsystemsusingasingletranslationmodel(ordecoder),andthen"select"abettertranslationfromthepoolofthetranslationoutputsofthesesystems.ExperimentalresultsshowthattheproposedapproachsignificantlyoutperformsthebaselineapproachthatreliesonasingleMToutput.

Weproposedatree-substitutiongrammar-basedevaluationmodeloftarget-treestructure(syntax-basedlanguagemodel)fortree-to-treetranslation.First,wemodelthetargettreestructureusingtree-substitutiongrammars(TSGs),andthenmeasurethegoodnessofthetreestructuresgeneratedduringdecodingusinariousparsingmodels.Ourproposedmodelcanbelearnedontheauto-parseddata.Experimentalresultsshowthatitisabletobenefitastate-of-the-arttree-to-treetranslationsystem,evenachievespromisingBLEUimprovements.Inaddition,wepresentthreemethod

本文是一篇模型论文范文,模型方面本科论文开题报告,关于英语文网山东相关电大毕业论文范文。适合模型及机器翻译及结构方面的的大学硕士和本科毕业论文以及模型相关开题报告范文和职称论文写作参考文献资料下载。

ortheintegrationoftheproposedevaluationmodelintodecoding.Allthesemethodsleadtoafurtherimprovementintranslationaccuracyofthetree-to-treesystem.

Theabovetechniqueshebeenemployedtoanopen-sourcemachinetranslationNiuTrans(nlplab./NiuPlan/NiuTrans.4)whichhasbeenreleasedtothemunityfortheresearchpurpose.Also,theachievementshereinhelpustoachievetop-performanceinrecenttranslationevaluationstasks,suchasNTCIR5andCWMT6.

Keywords:StatisticalMachineTranslation,Tree-to-treeTranslation,SyntacticAlignment,ParameterEstimation,Decoding

2

相关论文

机械专业英语文翻译山东

本文是一篇工程技术论文范文,关于工程技术方面专科毕业论文开题报告,关于机械专业英语文翻译山东相关在职毕业论文范文。适合工程技术及工程。

机械专业英语文翻译山东大学

本文是一篇建筑学院论文范文,建筑学院类有关毕业论文模板,关于机械专业英语文翻译山东大学相关在职研究生毕业论文范文。适合建筑学院及土木。

详细的英语文格式规范

本文关于国际学术及英语教学及应届生方面的免费优秀学术论文范文,国际学术相关论文范本,与详细的英语文格式规范相关学年毕业论文范文,对。

英语文的标题

本文关于标题及打印纸及学衔方面的免费优秀学术论文范文,标题相关论文范文,与英语文的标题相关毕业论文模板范文,对不知道怎么写标题论文。

2023英语文开题报告

本文是一篇开题报告论文范文,关于开题报告毕业论文的格式,关于2016英语文开题报告相关毕业论文提纲范文。适合开题报告及写法及价值方面的的。

英语文的格式

该文为关于参考文献类开题报告范文,与英语文的格式相关中级职称论文发表几篇,可作为职称论文专业参考文献论文写作研究的大学硕士与本科毕。

apa格式英语文翻译

为您写开题报告毕业论文和职称论文提供关于开题报告相关毕业论文范文,与apa格式英语文翻译相关论文范文素材,包括关于开题报告及参考文献及。

英语文格式写作

本论文是一篇关于国际学术方面论文的格式,关于英语文格式写作相关本科毕业论文范文。免费优秀的关于国际学术及英语教学及教育界方面论文范。