手语文本自动分词的设计与实现

时间:2024-02-21 点赞:46515 浏览:91517 作者原创标记本站原创

本文是一篇手语论文范文,手语类有关学士学位论文,关于手语文本自动分词的设计与实现相关毕业论文题目范文。适合手语及计算机及分词方面的的大学硕士和本科毕业论文以及手语相关开题报告范文和职称论文写作参考文献资料下载。

摘 要:手语是我国听障人重要交流之一,手语文本自动分词系统对听障人的政治、文化、生活的发展有着重要意义.研发了手语文本自动分词系统,这是在汉语切分的基础上针对手语特点进行手语切分,而且是利用计算机对文本里面的内容进行自动分词.该系统包括基本的自动分词方法、歧义的处理等基本模块,每一环节互相协助,互相依赖,共同决定该系统的价值、质量和应用水平.

关 键 词:手语文本;自动分词;词典;切分

中图分类号:TP391文献标识码:A文章编号:2095-2163(2013)06-0081-04

0研究背景

目前国外已研制开发了一定數量的手语机器翻译系统,其中的手语文本的特点是诸如美国手语的英语句子本身就有空格,并不需要自动分词技术.但现如今中国在这方面的研究仍是一片空白,然而国内现有2700万听障人,并且新生聋儿正以每年3万例的速度在增加.为了保障残疾人充分平等地参与社会生活,无差地共享社会物质文化成果,以及满足听障人的需要,并且提供无障碍服务,对手语机器翻译系统的开发已势在必行,本文研究旨在为今后中国手语机器翻译系统的设计与实现创造基础现实条件.

由于计算机并不如人类那般具有智能,能够有效地切分出手语文本,进而达到可适用于聋人使用的语言水平.如,“我和你一起吃饭”,在与听障人交流的时候,直接说“吃饭”,计算机分词不能实现词语删减,所以计算机分词的能力是有限的.

通过研究发现,中国手语植根于中国汉语的大环境之中.不论提出哪种转写方案,转写后的中国手语文本都面临着汉语所特有的自动分词问题[1],这是手语处理的关键技术之一,也是语言智能化处理的基础工程.只有对手语句子进行正确无误的分词,才有可能实现对自然手语的机器理解,为建设手语语料库、手语机器翻译提供必备前提.

手语信息处理是以“手势”为基础[2],手语文本自动分词所面临的问题就是如何将文本内容自动切分出单个手势词,即使得计算机通过空格作为标志切分得到每一句话的词.为了提高“手势”切分准确率,就需要针对手语的特点,实现对手语文本自动分词系统的设计与开发.

1手语介绍

汉语中最小的语言单位是字,而手语中则是手势(sign)[3].手势是手语体系中最小的语言单位,无法再进行分割.这也是中国手语有别于汉语的地方.如果一个复合词由两个手势构成,这个手势就是语素.语素就是构成词的词素[2].所以手势可以是一个词,也可以是一个词素.比如“妻子”,在汉语分词里是一个词的单位,但在手语里却是合成词,因为手语对“妻子”的表示是“结婚”+“女人”,或者“女人”+“结婚”,这样本来在汉语里是一个语素的“妻子”,在手语里却是由两个语素构成的合成词.这种情况在中国手语里大量存在,经常是汉语里一个名词为一个语素,在手语里却变成了两个语素,甚至三、四个语素.手语文本的切分规则就是以手势为单位,词与词之间则用空格分开.

1.1词

汉语中的一个词汇,用手语可以打出多个手势.以一个词为词根,做前缀或后缀.同一个词根有着不同的手势.不同含义有着相似手语打法的词(同音,借代).不同词有同一手势.不同的词根都代表的一个手势.成语、歇后语则需逐次翻译每一个词.

1.2手语句子划分的特点

(1)“的”(定)、“地”(状)、“得”(补)这样的词语,在手语中是不用表达的.

例:“的”,北京的工业发展很快.(形容词+结构助词)

汉语划分:北京的工业发展很快.

手语划分:北京的工业发展很快.

(2)动宾一体.当句子出现动宾一体的时候,手语会将其转化为一个手势去表达该动作.

(3)动词+介词(到、去、在、向、于、自).在手语中,介词不用打手势,跟随前一个动词表达动词的手势即可.

(4)动词+动态助词(了).同样跟随前一个词语.

(5)感叹语气.在手语中,感叹词也常省略.

(6)状语倒装.在这种现象里,聋人强调的是动词.

(7)判断词.省略判断动词“是”.

(8)名词.在手语中,部分名词需要逐字划分的.包括专业名词、普通名词,同一个名词可能需要多个手势组成.

(9)数量词.修饰数量词作定语成分可省略、修饰数量词作定语中的量词可省略,数量词与字母有相同的手势.

2手语文本自动分词技术

中国手语是一种独立的语言,本身具有象形表意的功能,由于汉语的影响和渗透,又增加了表音和表字的功能,中国手语和汉语之间的关系是借用与被借用的关系,这意味着中国手语跟汉语既有联系,又有区别[5].中国手语分词可以借鉴国内外分词技术及算法研究的优势[6],同时从自身的词法、句法等出发,提出与之相应的手语分词方案[7-8].本研究的手语文本自动分词系统结合词典、规则的方法[9].两种方法进行结合,并互为补充,力求找到最合适手语文本自动分词的平衡点.

手语文本中的词通用还原法切分手语文本内容时存在一些普遍的还原现象[10].

概念:假设手语文本内容是“HF”,F∈M,M为手语词典,其中H为词根(或一个手势),S词缀.那么可直接切分为HF→H+F的形式.

按照通用还原法的概念,可采用基于手势词缀的逆向最大匹配算法[11].本研究的逆向最大匹配算法是:在手语文本中“HF1F2”,F1∈M,F2∈M,M为手势词典,其中F1、F2、H分别代表第一个手势、第二个手势、词根的意思.如果采用该方法,则切出的结果为HF1F2F→H+F1+F2.

手语文本自动分词在切分过程中还发现存在一些歧义现象的问题,对于切分出来的结果含有二重意思,如此则会影响切分效率[1].因此,为了确保切分的准确度,必须合理有效地处理歧义现象.双向扫描法和逐词扫描法是歧义收集的两种方法[10].本系统开发采用的方法是双向扫描法,这种算法处理交集字段时:首先通过以下两种方法分别切分字符串歧义的个数.

(1)发现切分个数不同,选择少的返回;

(2)发现相同但字符串不同,再处理.因为切分字符串个数少,字段的长度就比较长.而且已经知道如果词越长,信息量就越大,所以最好不要切分长词.

文中采用歧义收集算法流程图来处理交集歧义,如图1所示.

3手语文本自动分词的设计

运行要求:支持本系统运行的环境则需要在Windowsxp或Windows7下,使用MyEclipse7.0软件.

3.1系统总流程

该系统是基于词典、规则与统计语言模型的汉语切分系统,其总体流程如图2所示.

3.2创建手语词典

在进行手语切分时,并不能完全照搬汉语切分方法[12-13],需根据手语词性语法特征进行正确切分.手语词本身没有阴、阳性的区别,也没有单、复数的区别,不存在主、宾格的变化,所有格主要是通过语序、词界等隐性的句法形式来确定.中国手语除了一小部分单字手势词诸如身体部位名称、姓氏名称、行为动作和事物性质特点之外,其余的绝大部分均为双字手势词,三字和四字手势词所占的比重非常少,因而为文本的切分带来了极大的便利.

根据上面的现象,文中建立一个手语词典,并且是.txt的文本.同时基于上面提出的现象,整理词典,将单字的词去掉,逐字翻译的词也删掉,剩下的就是动宾一体、一个手势的词.

3.3实现与验证

读取文件中所要切分的内容,此程序开始采用的正向匹配法,发现运行程序出现切分错误,只能实现切分1~2个词,不能在更大程度上提高程序的准确率和切分率.因此最终选用逆向最大匹配法.由于手语词典中的词汇最大长度是3,所以开始即选取最大长度3.

这种方法基本原理是:当读取文本内容时,从末尾开始读最大长度3,也就是说从末尾切出3个字符串,然后与手语字典比较,判断其是否存在[14].

为了使程序整体更为清晰,文中编写了方法,便于调用Bijiao方法[15].该方法是读取手语词典的文本,然后设置词典有6000个数组,每个数组由array[]来代替,整数型mn为0,布尔型zj为假.通过while循环条件实现运行,将词典的数据赋值给数组元素[16],得到了词典含有的总个数为mn.利用for循环,字与词典的单词比较,当词典有一个与ch字相同,则zj为真,否则为假,即不存在该词.返回并赋予函数.程序中,flag3方法是比较三个字,输出切分出来的字并加上空格.可设置整数型liu为0,采用if条件,调用子函数bijiao(sb),若词典有该字,那么liu等于3(输出3个字).否则,赋予t为字符串,t为三个字末尾的两个字,再一次调用子函数bijiao(t),若该词典有这个字,那么liu等于2(输出两个字),若没有,则输出一个字,liu等于1,返回并赋予函数.

程序部分代码如下:

publicstaticintflag3(Stringsb)throwsFileNotFoundException//子函数flag3

{

intliu等于0;//将0赋予liu

if(bijiao(sb))//调用子函数bijiao(sb),r若词典有该字

{

liu等于3;//则输出3个字

}

else

{

Stringt;//赋予t为字符串

t等于""+sb.charAt(1)+sb.charAt(2);//三个字末尾的两个字

if(bijiao(t))//调用子函数bijiao(sb),r若词典有该字

{

liu等于2;//则输出2个字

}

else

{

liu等于1;//则输出1个字

}

}

returnliu;//返回,赋值

}

同理,可整理出flag2方法、读取文件的方法等.比如,如果读取文本为一段内容,则需首先统计这段一共有几行,其后再进行切分.这几种方法,能够一目了然,降低出错率.系统最终实现界面如图3所示.图3系统实现界面

Fig.3Systeminterface4结束语

本研究为手语文本自动分词系统的设计与实现,通过开发一个手语文本自动分词系统,实现手语文本的切分功能.最关键的一点就是要去总结中国手语和汉语的区别,搜集听障人讲故事的视频,根据视频进行人工切分汉语,交流手语问题,梳理分析手语和汉语的区别.通过比较,再整理得到一个手语词典,手语词典的创立是一个庞大的工程,在汉语词典中删除单字的、名称、数量词、成语等,手语和词一一对应相保存,这一任务也花费了很长时间.最后就是采用了逆向最大匹配法,不仅切分率高、准确率也很高;在此过程中,画出流程图,保证了系统的正常运行.

本文是一篇手语论文范文,手语类有关学士学位论文,关于手语文本自动分词的设计与实现相关毕业论文题目范文。适合手语及计算机及分词方面的的大学硕士和本科毕业论文以及手语相关开题报告范文和职称论文写作参考文献资料下载。

65306;华夏出版社,2009.


[4]李良炎.基于词联接的自然语言处理技术及其应用研究[M].上海:学林出版社,2007.

[5]郑璇.中国聋人手语的语言地位[D].武汉:武汉大学,2005.

[6]甘秋云.中文分词算法概述[J].唐山师范学院学报,2013(5):55-57.

[7]修驰.宋柔.基于“固结词串”实例的中文分词研究[J].中文信息学报,2012(3):59-64.

[8]周奇年,张振浩,徐登彩.用于中文文本分类的基于类别区分词的特征选择方法[J].计算机应用与软件,2013(3):193-195.

[9]葛锐.汉语分词技术初探[J].软件,2013(3):140-141.

[10]江铭虎.自然语言处理[M].北京:高等教育出版社,2005.

[11]刘颖.计算语言学[M].北京:清华大学出版社,2008.

[12]李荣,曹建芳.汉语名词短语和动词短语的自动识别方法研究[M].北京:北京希望电子出版社,2008.

[13]赵小兵,张志平,田寄远.现代汉语基本词汇自动识别方法[M].北京:民族大学出版社,2012.

[14]BruceEckel.Ja编程思想(第4版)[M].北京:机械工业出版社,2011.

[15]明日科技.Ja从入门到精通(实例版)(软件开发视频大讲堂)[M].北京:清华大学出版社,2012.

[16]RegesS,SteppM.Buildingjaprograms[M].Pearson/Addison-Wesley,2008.

相关论文

公交车自动报站器设计与实现

该文是写论文专业计算机论文范文,主要论述了计算机类有关本科毕业论文范文,与公交车自动报站器设计与实现相关论文范文资料,适合计算机及。

近邻匹配算法实现中文分词

本文是一篇分词论文范文,分词有关毕业论文格式范文,关于近邻匹配算法实现中文分词相关硕士论文范文。适合分词及中文及算法方面的的大学硕士。

关于船闸自动控制程序的优化设计

本文是一篇控制系统论文范文,控制系统有关毕业论文格式,关于关于船闸自动控制程序的优化设计相关在职研究生毕业论文范文。适合控制系统及船。

电渣炉自动控制系统的设计

本文是一篇自动控制系统论文范文,关于自动控制系统方面毕业论文,关于电渣炉自动控制系统的设计相关电大毕业论文范文。适合自动控制系统及控。