综述文字输入处理软件

时间:2024-02-06 点赞:47259 浏览:92406 作者原创标记本站原创

该文为汉字方面有关在职毕业论文范文,与综述文字输入处理软件相关论文格式模板下载,可作为论文模板专业汉字论文写作研究的大学硕士与本科毕业论文开题报告范文和职称论文参考文献资料。免费下载教你怎么写汉字及智能及软件方面的优秀学术论文范文。

【摘 要】汉字是中华民族传统文化的核心和信息交流的主要工具,古老而复杂多样的汉字属于二维,不像英文等西方文字那样是一维线形文字,可以直接输入计算机,而是需要采用特殊的汉字输入法软件.汉字输入计算机是计算机中.第一个环节,汉字输入技术直接影响着中文信息处理的发展.本文着眼于汉字输入法软件在系统中的设计和开发过程,提出一种简单、方便的汉字键盘输入法.首先统计了国标二级字库中汉字笔画信息的各种数据,这些数据主要包括:汉字的平均笔画数及按使用频度加权的平均笔画数、能与其它字区分开的汉字前若干笔画的平均数、以各种笔画起笔的汉字数、各种笔画在汉字字库中的出现次数、汉字字库中笔画相同的汉字以及汉字字库中相邻笔画的频度等.根据这些统计数据,我们采用书写汉字时的笔画顺序作为汉字输入码,设计了笔画码汉字输入法和实现该输入方法的键盘.

【关 键 词 】中文信息处理;自然语言理解;语用统计;模板匹配

中华文化的博大精深给中文应用者提供了纵横驰骋的广阔空间,由于个人的受教育程度、职业需要及文字风格的千差万别,多数人都需要一个完全按照个人意愿编制出来的词库,即具有个性特征的个人专用词库,从这以意义上说,从Windows95开始为用户提供的“输入法生成器”.实在是功德无量.

Windows98问世以后,由于硬盘与内存容量的不断升级,以及CPU反映能力的加速,使得在Windows平台下的自定义输入法有了更加广泛的应用空间,而且突破了6.5万词条的限制.从理论上说,自定义的输入法可以做得无穷大.目前我个人使用的《沈沉词库》的词条就已达6万条.WindowsMe与Windows98是姐妹版,同样可用自定义的方法来生成自己个性化的输入法.但WindowsXP却把原先的“输入法生成器”取消了,即使把Windows98下的“输入法生成器”拷贝到WindowsXP,虽能转换码表,但却不能安装.不论微软对WindowsXP如何地自吹自擂,但取消“输入法生成器”,无论如何是失算的.

一、基于计算机汉字输入的研究

应用需要一些软件的支持,才能科学,优化,好用.目前不少发明人已拥有一些专用软件,为有效利用这些软件资源,节省人力时间,降低研究成本和周期.建议:这些软件集中起来,统一管理.让需用者登记申购,一次发放.这样供,需,管均受益,并助学术繁荣,软件举例:

1.静态重码率自动收索统计软件searcherro

2.汉字词汇自动排序删除重复软件

3.各种输入法教学软件等

4.计算机降低重码软件

5.计算机操作记忆增速软件.

6.汉语各种专业词汇库(20多专业)软件

7.汉语综合词汇库软件

8.直接挂接进入windows9x编码生成器的软件

二、基于智能规范码输入平台的实现

智能规范码输入平台是有八个编码方案的复杂系统.由智能规范拼音、智能规范双拼、智能规范形码、智能规范数码和普通规范合码所组成.其中普通规范合码包括规范拼音、规范双拼、规范形码、规范数码.智能、普通规范数码在数字键区输入汉字.平台初始状态为智能态.智能规范拼音最大输入6码,智能规范双拼与智能规范形码为2码,智能规范数码为3码.用快捷键相互转换.智能状态由转换符转至普通状态时,首字符为数字时码长最长为6码,输入普通规范数码,首字符为字母时码长最长为4码.不足码长时用空格返回智能状态.

智能规范码的用户范围是普通人群,特别是中小学生.所以学生版在GBK字符集中异体字与不规范字不参加编码.由于GBK的字符集里包含了中日韩三国所使用的汉字,所以日本和韩国用的汉字也不参加编码.普通版为GBK字符集,超集版为GB18030字符集.

智能规范码输入平台采取双智能输入的混合输入方式,可以减少输入量即减少码长,减少键选率.加快了输入速度.

汉字不再需要人工编码,智能非智能输入方法已有长时的研究和应用,关于智能混合输入,作者进行尝试,特点很多,尤其对词的岐义处理具有一定的特色.可以说是具有独特风格的智能汉字输入平台生成系统.

三、基于语用统计的智能输入软件

1.原理

主要利用语用统计的数据来消化同音字、词,以及化解歧义分词.在学科分类中属于运筹学范畴.

使用概率统计运筹决策的方案很多,文献[5]通过统计字字相关的同现概率矩阵来完成汉语语用统计库结构.这个矩阵的大小是固定不变的.只与字符集的大小有关.文献[5]作者通过搜索了500万字语料给出了一个3673 X 3673的同现概率矩阵.文献[4]是基于几理解和基于语用统计相结合的设计.该设计根据分词后的输入语句查找知识库.用句法、词法、语义和自定义的规则作为制约对文章进行解析推理,当存在同音词时.采用最优评价法来确定最佳选择作为转换结果.同音词的评价值需要考虑词性、同现概率、近期使用状况等因素.具有最优评价值的选择即为转换结果.当具有最优评价值的第一选择而非日标选择时,可选用次优选择或用手工方式进行修正,候补修正或人工修正均被记录,作为下次转换时修改计算评价值因素的依据,也就是自学习功能.

2.典型作品

○蔡榕先生设计的最优评价函数法拼音汉字转换系统;

○蒋先生设计的Autoway;

○清华大学人工智能实验室夏莹等研制的智能输入软件.

3.优点与存在的问题

优点:(1)对于己经进行过语用统计或者具有相同类型的领域,系统的转换正确率比较高,或者说语用统计具有偏向性.对每一个用户而言,在使用过程中,语用统计库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型.(2)软件开销较小,在CPU为486的机器上就能运行. 存在的问题:(1)作为一个整体的同现概率矩阵,不能做到模块化、积木化.(2)偏重整句处理,当出现转换错误时,需要使用者回头去纠正,干扰了正常的思维.(3)当前,自动分词的准确度只能达到98%左右,键选率的降低受到限制.

四、基于模板匹配的智能输入软件

1.原理

寓汉语语法知识于巨量的短语串中,进而利用这些短语串来消化同音字、词.以及化解歧义分词.这种短语串通常称之为“模板词”.

这种系统通过模板词搜索引擎来完成汉语语法体系的组织.需要搜索巨量的语料.获取巨量的短语串,才有可能大体上包容汉语语法知识.例如:智能狂拼搜索了100亿字语料,模板词库最大时需要约540MB存储空间.根据分词后的输入语句查找模板词库和句法规则库,然后进行匹配处理.如果匹配结果唯一,则不必再用概率推理;若存在两个以上的候选结果时,则根据句法规则或概率推断进一步判定,选出一个最有希望的可能结果作为输出.

2.典型作品

○中文之星数码科技有限公司推出的智能狂拼;

○黑马新技术公司推出的黑马智能输入软件;

○大自然软件开发有限责任公司推出的自然码2000(句输入版).

3.优点与存在的问题

优点:对于几己经搜索过模板词的或者具有相同类型的领域,系统的转换正确率比较高,或者说模板词库具有偏向性.对每一个用户而言,在使用过程中,模板词库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型.

存在的问题:(1)模板词数量巨大,对电脑硬件有一定的要求.486及以卜的低档机难以使用.(2)对拼音输入的模板匹配智能输入软件而言,通常只支持汉语拼音的26键位输入,注重连续和完整的音节输入,平均码长较长,采用简化拼音输入时键选率较高.(3)偏重整句处理.当出现匹配错误时,需要使用者回头去纠正,干扰了正常的思维.自动分词的准确度只能达到98%使键选率的降低受到限制.

五、基于上下文关联的智能输入软件

1.原理

文献[5]采用语用统计来实现上下字关联智能输入.下面介绍的是一种基于模糊控制理.利用上下文关联(向上关联4个词语,向下关联1个词语)的语用环境来智能选择重码字.在学科分类中属自动控制分支非线性控制范畴.将自然语言看成是一个模糊的集合,将汉字输入系统作为一个非线性控制范畴的模糊控制系统来对待,预学习工具(或者转换出现错误时的手工键选信号),相当于一个传感器,算法程序、汉语知识库和动态语用统计库作为非线性调节器,使得系统的键选率和平均码长逐渐趋于最优.例如,青月亮汉字通上文关联4个词,下文关联1个词,合计上下文关联5个词,这一调节机制涉及到许多相互矛盾和相互牵制的受控参数,模糊集合的特征函数从[0,1]区间连续取值,可以较为准确地表现各种语言现象差异,获得比较好的效果.

2.典型作品

○青月亮科技开发有限公司推出的青月亮汉字通智能输入软件平台GM 3.1

○一笔软件有限公司推出的一笔智能输入软件(26键位和10键位)

○字原科技有限公司推出的101智能输入软件TZ8.2/9.1/20000

3.优点与存在的问题

优点:(1)对学习过或者具有相同类型的语料,键选率比较低,或者说汉语知识库具有偏向性.对每一个用户而言,在使用过程中,汉语知识库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型.(2)青月亮汉字通作为一种音码、形码和笔画码二位一体的通用智能处理平台,支持26键位、10键位、8键位和5键位规模的键兀集,支持GB18030的27533超大字符集,为各种输入法增加上卜文关联智能输入的后处理支持.让这些输入法变得更易学、更好用.(3)采用字段输入,不使用语句级输入,使语法规则简约化,易于知识表达.此举不但降低了键选率,还大大缓解了输入过程中“回头看”的问题.基木上贴近了人们的使用习惯.(4)程序开销积木化,在CPU为486的机器上就能运行.遵从一系列信急处理用的国家标准和规范,特别是与汉字输入密切相关的两个标准《GB/T 18031-2000信急技术数字键盘汉字输入通用要求》和《GB(待定)信息技术通用键盘汉字输入通用要求》.(5)旅拼音输入时,采用人工分词.在形式上与英文接轨,既可以避免3%的歧义分词错误,也可以兼容简拼输入,大幅度降低键选率和平均码长.青月亮汉字通在保证支持完整拼音输入的同时,尤其提倡使用简拼输入(一个音节要么只取音节的首字母,要么就取完整音节).


存在的问题:(1)字段输入还未能完全根治输入过程中“回头看”的问题,每当终选字词有错时,仍然需要近距离的即时修改.(2)对“上下文关联”机制的人机界,而用户需要一个熟悉的过程.因此,青月亮汉字通也允许使用者关闭“上下文关联”智能输入,仅保留“上文关联”机制和恢复逐字、逐词上屏的输入方式.

六、结束语

上世纪八十年代我国学者提出的“从开发人脑到开发电脑”、“字为基础、词为主导、智能处理”,只是指明了汉字输入技术的发展方向.时至今日,己有近十种输入法采用了智能化处理重码的技术.这些智能输入软件中有的采用人工智能理论,有的依据概率统计方法,有的依靠自动控制技术,多数软件设计两种方法.效果较好的青月亮软件更是在模糊控制的框架内使用了语法规则和动态语用统计.(下转第9页)(上接第4页)如果像当年“万马奔腾”一样,智能化软件也形成“百花齐放、百家争鸣”的局而,则钱伟长教授要求的易学、易用的理想的输入方法的实现为期己经不远了.

该文为汉字方面有关在职毕业论文范文,与综述文字输入处理软件相关论文格式模板下载,可作为论文模板专业汉字论文写作研究的大学硕士与本科毕业论文开题报告范文和职称论文参考文献资料。免费下载教你怎么写汉字及智能及软件方面的优秀学术论文范文。

汉语音字转换的一些新结果[J].中文信息学报,1993(1).

[7]仲兴国.多词组一次性拼音汉字变换[J].中文信息学报,1990(6).

[8]张普.智能化汉字键盘输入法的最重要发展方向[M].中国标准出版社,1997(2).

[9]陈一凡.汉字编码输入技术的发展趋势[J].计算机世界,1987,11(8).

[10]黄昌宁.中文信息处理的主流技术是什么?[J].计算机世界报,2002(24).

作者简介:何轶智,现就读于西安外事学院工学院09级电子信息工程专业.

相关论文

word文字处理软件安装zotero插件

本文关于参考文献及插件及处理软件方面的免费优秀学术论文范文,关于参考文献相关论文范文检索,与word文字处理软件安装zotero插件相关毕业。

输入型通货膨胀的文献综述

为您写通货膨胀毕业论文和职称论文提供通货膨胀相关毕业论文的格式范文,与输入型通货膨胀的文献综述相关论文范文集,包括关于通货膨胀及国际。

输入型通货膨胀的文献综述

本文是一篇通货膨胀论文范文,通货膨胀方面硕士毕业论文,关于输入型通货膨胀的文献综述相关毕业论文格式范文。适合通货膨胀及国际贸易及货币。

输入型通货膨胀的文献综述

本论文是一篇通货膨胀有关综述性论文怎么写,关于输入型通货膨胀的文献综述相关研究生毕业论文开题报告范文。免费优秀的关于通货膨胀及国际。

关于ERP软件选型的文献综述

该文是参考文献专业财务管理论文范文,主要论述了财务管理相关研究生毕业论文开题报告,与关于ERP软件选型的文献综述相关论文范本,适合财务。

关于ERP软件选型的文献综述

本文是一篇财务管理论文范文,财务管理类有关毕业论文格式,关于关于ERP软件选型的文献综述相关硕士论文范文。适合财务管理及大学经济及文献。

软件测试工具综述

本论文为测试类有关毕业论文文献综述,关于软件测试工具综述相关毕业论文开题报告,可用于测试论文写作研究的大学硕士与本科毕业论文开题报。

word文字处理软件安装zotero插件

该文为参考文献相关开题报告范文,与word文字处理软件安装zotero插件相关中国论文下载中心,可作为论文下载专业参考文献论文写作研究的大学。

软件防篡改技术综述

本文是一篇管理系统论文范文,关于管理系统方面毕业论文模板,关于软件防篡改技术综述相关毕业论文范文。适合管理系统及程序及数据结构方面的。