国内语音识别综述-turnitin查重

关于语音及方言及论文方面的免费优秀学术论文范文，语音有关论文的文献综述,关于国内语音识别综述相关论文范文，对写作语音论文范文课题研究的大学硕士、本科毕业论文开题报告范文和文献综述及职称论文参考文献资料下载有帮助。

摘要：随着近几年语音识别研究的逐渐升温,把握好语音识别领域的正确研究方向显得尤为重要.本文介绍了语音识别技术的原理及系统构成,对2010年以来中国知网（CNKI）收录的中文核心期刊中主题为语音识别的论文进行统计分析,得出国内语音识别领域的研究现状和趋势.通过探讨其中存在的问题,得出大数据背景下的大词汇连续语音识别系统的设计及实现、方言语音识别研究、语音识别系统在现实生活中的应用以及深度学习、深层神经网络的应用将是未来语音识别领域研究的主要方向.

关键词：综述；语音识别；研究趋势；方言识别

中图分类号：TN912.34

人类最重要的基本功能就是通过语言互相传递信息.虽然人们可以通过多种手段来获取外界信息,但最为重要、精细的信息源只有语言、图像和文字三种.与声音相比,视觉和文字传递信息的效果要差.随着计算技术的不断发展,人与机器之间的交流也越来越广泛.如果能够让计算机听懂语言、能够说话,那么计算机就能够和人进行通信,不同语言的人交流起来也会更容易.而这些的基础就是语音的识别和理解.语音识别（Speech Recognition,SR）就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令.通过语音识别技术,人们可以在工业、军事、医学、交通、旅游等领域实现人机交互,使得生活更便捷.

1.语音识别原理

语音识别就是让机器能够听懂人说的话,其根本目的是研究一种具有听觉功能的机器,使机器能直接接受人的语音,理解人的意图并做出相应的反应.其基本原理是含有语音识别技术的智能体能够接收声音信号,将信号转换成文字,然后根据需要做记录、查询或相应的操作.

实质上语音识别系统是一种模式识别系统,是建立在一定的硬件平台和操作系统之上的一套应用软件.其依赖的硬件平台可以是一台个人计算机或工作站,操作系统可以是UNIX、Windows或Android系列[1].语音识别可分为两个步骤：第一步是“训练”或“学习”阶段,采用语音分析方法分析出语音特征参数作为标准模式储存在计算机内,形成标准模式库,称为“模板”,建立识别基本单元的声学模型以及进行句法分析的语言模型等；第二步是“识别”或“测试”阶段,提取待测语音中的特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果[2].语音识别系统基本构成如图1所示,包含特征提取、模式匹配和参考模式库三个主要单元.

图1 语音识别系统基本构成

1.1 语音信号数字化与预处理.语音信号的数字化包括放大及增益控制、反混叠滤波、采样、模/数（A/D）转换及编码,如图2所示.预滤波器是一个带通滤波器,防止混叠干扰和电源工频干扰.A/D转换对信号进行量化,然后进行脉冲编码,通常采用PCM编码.预滤波、采样、A/D和数/模（D/A）转换、平滑滤波等许多功能可以在一块芯片上完成.

图2 语音信号的数字化过程框图

语音信号预处理包括预加重、加窗和分帧等.预加重是在语音信号数字化之后、参数分析之前在计算机中用具有6db/倍频程的提升高频特性的预加重数字滤波器来实现,它通常是一阶的数字滤波器[3]H（Z）等于1-μz-1式中μ值接近于1.

接下来进行加窗、分帧处理,一般约为33-100帧/s,视实际情况而定.分帧是用可移动的有限长度窗口进行加权的方法来实现,常用的窗函数是矩形窗和汉明窗等.

在对语音信号进行分析处理前必须把要分析的语音信号部分从输入信号中找出来,即端点检测[4],就是从包含语音的一段信号中确定出语音的起点以及终点.有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能.

1.2 特征提取.预处理后的语音信号需要对其进行特征提取,目的是提取语音特征,以使语音识别时类内距离尽量小,类间距离尽量大.目前,经过快速傅里叶变换（FFT）或者线性预测技术（LPC）得到功率谱以后再经过对数变换和傅里叶反变换得到的倒谱参数LPCC是常用的语音识别特征参数.同时根据人的听觉特性变换的美尔（Mel）倒谱参数MFCC也是常用的语音参数.

1.3 建立模型与模式匹配.分析特征参数之后,需要建立声学模型和语言模型存储到计算机中作为模板,把分析出来的特征参数与模板进行模式匹配,这是语音识别的核心.目前有代表性的语音识别方法主要有模板匹配法、隐马尔可夫法（HMM）和神经网络法（ANN）.

1.4 后处理.后处理单元可能涉及句法分析、语音理解、语义网络以及语言模型等.它往往不是一个孤立的单元,而是与匹配计算单元、参考模式库融合在一起,构成一个逻辑关系复杂的系统整体.

2.国内语音识别研究论文统计

近几年来,语音技术发展迅猛,国内的语音技术研究基本同步.科大讯飞、捷通华声、中科信利等语音企业相继成立.2010年谷歌发布的Voice Action支持语音操作与检索；2011年初微软的深度神经网络（DNN）模型在语音搜索任务上获得成功；同年10月苹果Siri首次亮相,人机交互掀开了新的篇章；国内科大讯飞首次将DNN技术运用到语音云平台；2013年谷歌发布的Glass使用语音交互,同时苹果加大了对iWatch的研发投入,穿戴式语音交互设备成为新热点.国际上语音识别商业化已经取得了很大的成果,国内尚有欠缺.了解国内语音识别的研究水平,才能更好地从事语音识别的研究工作.对基于中国知网（CNKI）所收录的中文核心期刊2010年以来关于语音识别的论文进行统计分析[5],可以很好地把握目前国内语音识别研究发展趋势及存在的问题.通过对CNKI收录的中文核心期刊中以语音识别为主题的论文进行统计和研读比对,将“关键字或者摘要中有语音识别或者语音或者识别”设置为必要条件进行筛选,最后共计有191篇论文被选定为研究素材.这些论文可以分为5种：一种是关于语音识别算法改进以及技术优化,称为“系统优化论文”,共103篇；一种是关于模型的改进及建立,称为“模型研究论文”,32篇；一种是针对语音识别系统的构建及研究,称为“系统研究论文”,28篇；一种是语音识别系统在现实生活中的应用,称为“系统应用论文”,23篇；还有一种是对语音识别的综述性研究,称为“综述论文”,5篇. 图3 每年关于语音识别研究的论文数目分布图

我们将关于语音识别的191篇论文按照每年的分布量进行统计,以便观察每年语音识别论文的分布情况,如图3所示.从图3可以看出,2011年以来,国内对于语音识别的研究整体呈现递增的趋势.由于2010年语音识别研究新技术的不断出现,学者们的研究略有起伏,该年的论文整体数量略有增加.而由于2014年论文发表尚不完整,统计尚不能反映整体趋势,但杨勇等基于REMOS的远距离语音识别模型补偿方法,陈晨等基于语音识别技术的机载短波应急通信,景亚鹏等基于深层神经网络（DNN）的汉语方言种属语音识别,努尔麦麦提q尤鲁瓦斯等维吾尔语大词汇语音识别系统识别单元研究,张燕普通话语音识别中的基本音素分析,张巍等一种语音识别的可云计算方法等6篇论文,可以反映出当前语音识别领域的研究热点：深度学习、深层神经网络、大词汇连续语音识别、云计算以及方言研究,具有很好的指导作用,可以引领学者向热门领域深入研究.

各个年份不同类型的论文发表情况如图4所示,不同研究类型的论文所占比例如图5所示.结合图4和图5可以看出,每年所发表的论文中系统优化（即算法的改进以及技术的优化）方面的论文所占比例较重,占到全部论文的53.93%；模型研究次之,占16.75%；系统研究占14.66%；系统应用则更少,占12.04%；综述性论文仅占到2.62%.而且,语音识别研究逐渐从算法研究在向实际应用转变,但是,语音识别领域还是以改进算法、采用先进技术对系统进行优化为主流,将识别系统实际应用到其他领域的研究比较少.这为后来研究者指明了方向,开辟了新的研究思路.

图4 各年份不同研究类型论文发表情况

图5 不同研究类型的论文所占比例图

通过统计分析,可以看出,国内在语音识别研究方面还是存在一定的问题.

（1）重理论研究,轻实践应用.基于算法改进的研究比较多,而针对语音识别系统应用的比较少,真正将语音识别系统应用到日常生活中的更少,而这在大数据背景下是比较容易开展的研究工作.研究者的工作大多还停留在比较简单的小词汇量、孤立词系统的实验研究上,对于大词汇量、连续语音识别系统的研究少之甚少（在、会议等复杂环境中目前英语识别率准确率在80%左右,离人类2%-4%的错误率还有很大距离[6]）,对于大数据背景、连续的语音处理几乎没有,对领域前沿新技术的应用研究尚有欠缺.论文中对孤立词识别系统的研究以及基于孤立词语音识别系统进行实验仿真的论文有14篇（占7.33%）；而涉及到大词汇连续语音识别系统的论文仅有9篇（占4.71%）；涉及到大数据背景的论文只有1篇（仅占0.52%）.目前,还只是一些商用化的产品,如科大讯飞、百度等的语音搜索及输入,用于实验研究的系统几乎没有.而在算法及技术优化的研究中,只有杨震等在语音大数据信息处理架构及关键技术研究一文中分析了大数据的基础技术特性、涉及的技术以及语音识别的基本技术环节,并结合大数据信息处理架构,给出了语音识别技术与大数据相结合的应用开发技术架构及应用流程[7].基于大数据的深度学习的研究较少,余凯等对深度学习发展的过去和现在做了一个全景式的介绍,并讨论了深度学习所面临的挑战以及将来的可能方向[8].这些都将给我们后来的研究者以很好的启发,从而使得国内的语音识别研究更上一层楼.

（2）借鉴、开发的能力较弱.针对所搭建的系统进行实验仿真的工具,多数是采用Matlab这样的数学工具,基于C语言、Ja语言编程的系统（如Microsoft Speech SDK、HTK Toolkit、Sphinx）进行模型建立及仿真的比较少.只有张凤美等提出了一种基于SDK的语音控制机器人的解决方案,利用SDK构建非特定人孤立词的语音识别平台；刘万凤等基于Sphinx-4语音识别引擎设计实现了一个语音指令识别系统AIRS（ATC Instruction Recognizer System）；李冠宇等在HTK平台上建立和训练得到了基于决策树的藏语拉萨话三音子模型,胡旭琰等采用HTK工具和TIDIGITS数据库对加入不同类别噪声的语音进行测试,武晓敏等采用HTK通过人工标注的少量语料生成种子模型,引导大语音数据构建声学模型,实现了连续语音识别,李冠宇等在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,实现藏语拉萨话特定人大词表连续语音识别,杨善茜等将基于HTK的语音识别网络算法用于识别网络的优化问题.而这些系统已经比较成熟,而且有利于进行声学模型、语言模型的训练和识别,还可以进行算法的改进,以提高系统的识别性能.

（3）针对不同方言的研究比较少.针对维吾尔语研究的论文共有13篇.李冠宇等对藏语拉萨话中单音子及三音子分布情况进行统计,并且实现了藏语拉萨话特定人大词表连续语音识别.伊q达瓦等基于蒙古语研讨了声学和语言模型的建立.景亚鹏等将深层神经网络应用于汉语方言种属语音识别；王烨等针对汉语普通话、青海方言和藏语安多方言设计了一个基于子空间映射和分数归一化技术的GSV-SVM方言识别系统；高原等建立了一个多用途汉语方言语音数据库,用于说话人信息处理、方言特征词识别、语音识别等领域的研究；张超等基于可靠口音相关单元构造声学模型；陈开等实现对沪语语音的识别和与家居机器人沪语语音交互.全球经济高度一体化,不同文化之间相互影响,使得现代汉语方言特征消失速度加快,濒危方言的濒危程度加剧,对方言文化

的保护势在必行.比如闽南语、藏语、偏远地区的方言等,正在逐渐被普通话所同化,甚至出现“无方言族”[9],拯救濒危方言,保护方言文化的多样性,对加强不同方言之间的文化交流意义重大.再者,当今国际国内局势并不安定,恐怖主义活动时有发生,而其组织者往往具有一定的地域居住特点,加强对方言的语音识别研究对于反恐维稳亦有很重要的作用.

通过以上分析,国内语音识别方面的研究及发展趋势明朗化.针对研究过程中所存在的问题,总结得出大数据背景下的大词汇连续语音识别系统的设计及实现、方言语音识别的研究、语音识别系统在现实生活中的应用以及深度学习、深层神经网络的应用将是未来语音识别领域研究的主要方向.大数据是形势所趋,基于大数据背景的研究将会使得国内语音识别的研究更加深入,更具有实际应用价值. 3 结束语

语音识别发展迅速,对国家经济发展和国家安全都有很重要的作用.本文介绍了语音识别原理进行了,以2010年以来CNKI收录的中文核心期刊中关于语音识别的论文为例,探讨了国内目前语音识别领域研究的现状和趋势以及目前国内语音识别领域研究所存在的问题.对实际应用、方言的研究比较少；对比较成熟的语音识别系统,如HTK、Sphinx等应用比较少；进行实验仿真时,多数论文还是基于比较简单的孤立词、小词汇量识别系统,在连续、大词汇量的语音识别系统中进行仿真的研究较少；对新近出现的深度学习、深层神经网络以及大数据背景下语音识别的研究比较少等.由此分析得出,大数据背景下的大词汇连续语音识别系统的设计及实现、方言语音识别的研究、语音识别系统在现实生活中的应用以及深度学习、深层神经网络的应用将是未来语音识别领域研究的主要方向.论文选中CNKI收录的中文核心期刊为研究对象,具有一定的代表性,但也存在一些不足,还有国外语音识别领域的研究现状和趋势还有待研讨,将国内外研究趋势进行比对,才能更好地开展工作,这些将在以后的研究中进行.

国内语音识别综述

相关论文

语音识别技术综述

语音识别技术在计算机辅助语言学习中的应用综述

基于DTW和HMM算法的语音识别系统对比

国内生态旅游综述

国内旅游流综述

车载多媒体系统中语音识别技术

嵌入式语音识别系统的与实现

关于剩余劳动力国内文献的综述

国内金融排斥综述

推荐栏目

热门阅读