汉语框架网络问答系统问句处理

时间:2024-02-03 点赞:45707 浏览:89362 作者原创标记本站原创

本论文为问句方面论文格式范文模板,关于汉语框架网络问答系统问句处理相关毕业论文开题报告范文,可用于问句论文写作研究的大学硕士与本科毕业论文开题报告范文和优秀学术职称论文参考文献资料下载。免费教你怎么写问句及句法及信息检索方面论文范文。

[摘 要 ]论述汉语框架网络问答系统,旨在以汉语框架网络本体为基础,选择法律领域作为研究对象,进行问句处理的研究,探索新型的问答系统设计技术,满足用户准确检索信息的需求.利用依存关系表示查询问句的句法关系,并将查询问句与问句模板库中的模板进行匹配,最终确定查询问句的配价模式,实现对查询问句的框架语义标注,为下一步基于问答的框架语义检索系统的设计奠定基础.

[关 键 词 ]框架网络问答系统 问句处理依存关系

[分类号]G354.4

1 引言

目前,问答系统还不能像人类一样能自如地回答用户提出的各种问题.在TREC会议中,一般参加QA track问答系统的准确率都在30%左右.究其原因,在于问答系统缺乏深层的语义理解,不能根据上下文的语义联系来理解特定含义.比如,对一词多义现象,无法很好的处理;文档中未显示体现的答案及部分匹配的答案,系统不能进行推理,使其作为可选结果提供给用户,开放域范围广,涉及的情况复杂,现在只能对付受限领域或浅层次的简单问句,对开放域的答案抽取水平较低等.尤其是汉语作为一种语义型语言,所涉及的词法分析、句法分析、语义理解等基础处理仍无突破性进展,又缺乏包括语法、语义词典等中文语言学资源和相关生熟语料,严重制约了问答系统的快速发展.

笔者所设计的汉语框架网络问答系统,旨在利用已构建好的框架库、词汇库、例句库等知识库,依赖于框架及框架之间的关系及语义类型限制,以语义标注的法律语料库为受限领域,实现基于用户自然语言提问的语义匹配检索,最终给出用户真正有用、精确、简洁的答案.这将在一定层面上解决问答系统中纯粹的字面匹配、显式匹配等问题.

2 汉语框架网络问答系统的构建

汉语框架网络问答系统主要有以下三部分组成:问句处理、语义检索、答案抽取.如图1,问句处理模块将通过句法依存分析,将自然语言的提问进行分类、匹配并生成配价模式.检索模块根据问句处理模块生成的查询问句配价模式,使用语义检索方式,检索出和提问相关的信息.返回的信息可以是段落,也可以是句群或者句子.答案抽取模块则从检索模块检索出的相关段落、句群、句子中抽取出与提问答案类型一致的实体(依据语义匹配的规则,可精确到具体的框架元素),根据相似度对候选答案进行打分,把相似度最大的候选答案返回给用户.

3 问答系统的问句处理

问答系统的建设首先就是要对问句进行处理.自然语言中,回答复杂问题的能力依赖于可用语义表示的深度及其支持的推理机制.本系统通过鉴别输入问句的框架元素及框架问的关系,分析提问和总结候选答案.首先,笔者对用户的自然语言查询提问进行分词、赋予词性,并且运用停用词表去除停用词,给处理后的问句的词语增添语义类型,将其转换成形式化和结构化的模式,存储到系统的问句模板库中.其次,利用句法依存树表示问句的句法关系,将进行扩展后的查询问句与模板的句法依存树相比较,确定查询问句的类型.然后,将用户的查询请求与模板库中的模式进行匹配,由已知例句的配价模式来确定查询问句的配价模式,以达到系统对用户提供的自然语言形式的查询语句精确理解的目的,为下一步基于问答的框架语义检索系统的设计奠定基础.

3.1 问句模板库的建立

文本中作为陈述和说明的对象、作为动作施事与受事的名词及名词短语是作者和读者共同关注的焦点,笔者分析国内外已有问答系统的分类体系,依据法律领域的事物分类特点及系统设计要求,定义了汉语框架网络问答系统的问题分类体系,按问题的焦点把问句模板分为人名型、实体型、时间型、地点型、数量型、定义型、判断型、多值型和其它型.(见表1).用户根据选定的若干法律文本进行提问,笔者利用山西大学计算机科学系标注软件对法律文本及用户提问进行手工框架语义标注,提取问句配价模式中的框架元素序列及实词的词性、语法成份和答案的语义类型,生成模板存入模板库中,并将所属例句存入例句库中.

3.2 问句的分析与归类

与文本相比,问句通常包含较少的基于词汇的信息,需要更深层次的分析才能达到较高的分类精度.问句涉及的内容千差万别,但是问句的类型却是可以定义在一个明确有限的范围内.疑问词是问句的重要标志,疑问词的搭配关系、疑问词在句子中的位置、疑问词所引领的疑问类型等等都是问句分析的有重要价值的内容.句法分析是指在给定文法下分析自然语言的层次结构.笔者通过分析问句中各个词之间的依存关系和关系类型,生成问题分类所需的特征项;并比较查询问句与模板的句法依存树,捕获双方共同关注的焦点,从而确定查询问句的类型.

依存文法的句法结构元素的主要关系是依存关系(de-pendency relationship),即体现为句子中词对的二元关系,其中一个记为核心词(head);另一个记为依存词(dependent).依存关系反映的是核心词和依存词之间语义上的依赖关系.比较语词间的依存关系,可以判断、决定问句类型的语义焦点.笔者采用哈尔滨工业大学信息检索研究室的依存句法分析技术,对问句进行句法分析(并去除停用词).特殊符号支配全句的核心成分,并且通过HED、SBV、POB、VOB可以找到句子的主干(主谓宾).其中,HED(head)表示句子的核心,SBV(subject-verb)表示主谓关系,POB(preposition-object)表示介宾关系,VOB表示动宾关系,ATT(attribute)表示定中结构,ADV(adverbial)表示状中结构.

采用SVM(支撑向量机)的分类方法,笔者利用问句的主干和疑问词及其附属成分等句法成份,作为问题分类特征来对问句进行归类.第一步,确定问句中的疑问词.第二步,通过对问句进行句法依存分析,得到依存弧和依存关系类型.第三步,提取问句的主干(即句子的主谓宾)和疑问词及其附属成分作为问题分类的特征.利用问句中的依存弧和依存关系类型HED、SBJ、SBV、OBJ、VOB提取句子的主语、谓语、宾语,通过查找与问句中的疑问词有弧相连的语词,以上特征构成了问句分类的特征.第四步,利用SVM分类器分类.使用SVM实现分类时,首先要将原始空间中的问句特征映射为高维特征空间中的一个特征向量,以解决原始空间中线性不可分的问题.在系统设计中,笔者考虑借助语词间的依存关系和同义词集(如WordNet、哈工大的同义词词林)等特征对问句特征向量进行扩充;同时,去掉句法分析结果中的冗余信息,突出区分特定类型的主要特征.通过以上方法,去掉问句中那些对问句分类没有作用的词语,减少问句分类的噪音,提高问句分类的精度.

3.3 对问句进行配价模式匹配

基于依存关系的问句配价模式匹配可分三步来进行.第一步,根据句法依存分析的结果,以本句的核心词为根结点、从属词为子结点,生成句法依存树;同时,生成句法分析 序列(比如,“哪个法院对周绍海进行审理的”的句法分析序列为:<1,ATT><4,SBV><4,ADV><2,POB><6,DE><6,DE><-1,HED><-2,PUN>,其中数字为弧发起的词从0计数的序号).第二步,将用户查询问句的句法依存树、句法分析序列与问句模板库中同类模板的句法依存树、句法分析序列进行匹配,两者的相似度满足一定值时,就将此问句归为这个模板.第三步,依照模板对问句赋予框架元素类型.以问题模板的目标词为核心,依据词间关系的紧密依存度赋予问句除目标词以外的词汇的框架元素.譬如,有提问“哪的法院审判的周绍海”然后在框架库中根据模板例句的目标词和所属框架对词元进行检索,找到目前问句的目标词为“审判”.根据模板匹配,确定问句属于“实体类”某模板的具体配价模式.根据模板例句和当前问句的依存关系分析,它们的句法依存树中词汇间的依存关系及关系类型相同的,则赋予同样的框架元素.此例的具体配价模式处理结果如下:

w

在现阶段,笔者只考虑配价模式中的核心框架元素.同时,利用来自句法分析的信息和汉语框架网络本体的知识对问句的特征项(焦点关 键 词 )进行扩充,以提高问句模式匹配的精度.根据句法树结点的依存关系和焦点关键字的不同性质,笔者采用分级扩充的机制,并把语词的扩充限制在焦点关 键 词 所属框架的词源中进行,必要时才扩充到与其具有属种关系和整体与部分关系的框架.

3.4 问句处理的评价

笔者请学生对指定的法律文本进行提问,他们想到什么问题,就提什么问题,并由专家参照TREC10对标准答案进行处理.然后,将提问交给问答系统去处理.对实验结果进行人工比较,问答系统一个答案也不提供,即“无”;或者提供两个答案.如果第一个答案就是正确的答案,则评测的结果为:“优秀”;如果第一个答案不对,第二个答案正确,那么评测结果为“良好”;如果两个答案都不对,结果为“答案错误”.对于答案部分符合提问的,可以采用片断召回率(NR)、片断准确率(NP)和F-Measure来评测一个描述提问的得分.最后,以统计结果的正确率来评价系统的性能.


4 结论与展望

通过测试表明,本系统利用依存关系对单一问句进行分类和配价模式匹配,能够较好地给问句赋予配价模式,这为语义匹配奠定了基础.但是笔者也看到,虽然基于机器学习的方法(如SVM方法)有较好的适应性,但是需要大量的训练数据和仔细选择的分类特征才能达到较高的分类精度.因此,笔者下一步将选取大量的语料训练分类器,以检验系统的性能.

问句处理与普通语句的处理有类似之处,然而只包含十来个词的问句与含有更多词的整篇文档相比,在句法依存分析、选择分类的特征时却有很大的差别.对普通语句的处理,还包括去停用词、选择合适的分类器等.事实上,问句中的很多词对句法分析和问题分类并没有帮助,反而给问题分类带来了噪音,如何合适地选择问句中的某些词作为句法分析和分类的特征是普通语句处理的一个研究重点.

致谢:本研究中,采用了哈尔滨工业大学信息检索研究室的语言技术平台共享资源,在此表示衷心的感谢!

相关论文

英汉语中社会谓系统

这篇称谓论文范文属于教育社会学免费优秀学术论文范文,关于称谓方面大学毕业论文,与英汉语中社会谓系统相关论文答辩。适合称谓及社会及汉语。

理财家网络办公系统助你无忧

该文为关于企业相关毕业论文参考文献格式范文,与理财家网络办公系统助你无忧相关写论文查资料的网站,可作为论文资料专业企业论文写作研究。

计算网络管理系统趋势

该文是旅游管理专业网络论文范文,主要论述了关于网络方面研究生毕业论文开题报告,与计算网络管理系统趋势相关论文范文素材,适合网络及作。