一种基于改进DTW算法的动态手势识别方法

时间:2024-03-01 点赞:47681 浏览:95722 作者原创标记本站原创

这篇手势论文范文属于论文模板免费优秀学术论文范文,手势类有关毕业论文开题报告,与一种基于改进DTW算法的动态手势识别方法相关学术论文格式模板。适合手势及算法及骨骼方面的的大学硕士和本科毕业论文以及手势相关开题报告范文和职称论文写作参考文献资料下载。

摘 要 :结合Kinect传感器提出了一种基于改进的DTW算法的动态手势识别方法.首先,通过SDK对Kinect传感器获得的深度信息进行分析,获得人体骨骼点3D位置,选取其中4个点作为手部运动特征;然后,用加权距离和全局路径限制的方法对传统的DTW算法进行改进;最后,用改进的DTW算法进行模板训练和实现动态手势的识别.实验表明:该方法能很好地实现动态手势的识别,实时性好,在背景干扰和光照方面有较强的鲁棒性,较传统的DTW算法在识别速度和识别正确率方面有所提高.

关 键 词 :动态手势识别;Kinect传感器;改进的DTW算法

中国分类号:TP3914文献标识码:A文章编号:10053824(2013)03002105

0引言

手势识别是人机交互中的一种重要手段[12],动态手势具有直观性和自然性等特点,一直是国内外研究的重点.Britta Baue等人[3]利用单摄像头获取图像信息并利用KMeans算法自组织聚类基元,基于HMM模型训练和实时识别手语;Zhang等人[4]提出使用HMM算法来进行中文手语视频检索;Silanom等人[5]提出了根据手势运动分析识别泰文字母的方法.然而,以上基于视觉的动态手势的识别容易受到光照、复杂背景和算法复杂度等因素的影响,识别率和实时性受到限制.本文采用微软的Kinect传感器替换普通摄像头,获取深度数据,对深度数据进行动态手势分割,再用一种改进的DTW算法进行动态手势识别,克服了光照和复杂背景的干扰,降低了算法的复杂度,有效地提高了动态手势识别的稳定性和实时性.

1Kinect传感器获取特征

1.1Kinect传感器简介

Kinect是微软为其Xbox 360游戏主机和Windows平台PC打造的一款运动感知输入设备,作为一款体感外设,它实际上是一个采用全新空间定位技术(light coding)的3D体感摄像头[6].Kinect一共有3个摄像头,中间一个是RGB摄像头,用来捕获640×480的彩像,每秒最多获取30帧图像;两边的是2个深度传感器,左边是红外线发射器,右边是红外线接收器,用来检测玩家的相对位置.

1.2特征提取

用Kinect传感器获得骨骼点的位置[7],用Kinect for windows SDK实时追踪人体全身的20个3维骨骼点坐标,如图1所示. 该3D坐标信息不易受到背景、灯光、摄像头以及人体肤色等因素的影响.选择20个骨骼点中4个点作为特征处理,分别为左手、右手、左肩和右肩.

图120个骨骼点示意图

注:1.右脚;2.左脚;3.右脚踝;4.左脚踝;5.右膝盖;

6.左膝盖;7.右髋;8.左髋;9.髋部中心;10.脊柱;

11.肩膀中心;12.头部;13.右手;14.左手;15.右手腕;16.左手腕;17.右肘部;18.左肘部;19.右肩;

20.左肩一个特征向量可以表示为 Fn等于(x1,y1,z1,x2,y2,z2,等,x4,y4,z4)其中,n为tn时刻的骨骼索引(一个手势序列包含n个这样的特征向量).骨骼点左右手的运动代表了手部的运动,左肩右肩的运动相对较小,其位置可以用基准点来计算.取左肩和右肩的中心点为基准点,表示为A(xa,ya,za)等于12(x3+x4,y3+y4,z3+z4),(1)得到基准点后,我们可以对特征向量进行归一化,定义O后等于O-A|L-R|,(2)式(2)中:A为计算出的基准点在原有坐标系对应的向量;O为归一化前骨骼点对应的向量;O后为归一化后骨骼点对应的向量;L为左肩对应的向量;R为右肩对应的向量.

这样,我们就可以将原有的人体化坐标系转换到以双肩中心点为原点的双手坐标系.消除人体的尺寸和离摄像头距离的远近对特征向量引起的变化.

2DTW算法识别

DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术,能够对有全局或局部扩展、压缩或者变形的模式完成匹配过程[8].DTW算法就是在2个模式,即测试模式和参考模式的特征信号之间建立一条科学的时间校准匹配路径.

我们设R等于(r1,r2,r3,等,rn)为手势测试序列,T等于(t1,t2,t3,等,tm)为手势模板序列,n,m都是手势帧的时序标号,通过非线性映射匹配时间序列,因此一个映射可以用一系列有序元素表示:(i1,j1),(i2,j2),(i3,j3),等,(if,jf),元素(i,j)表示测试序列R第i帧的特征向量与模板序列T第j帧的特征向量之间的映射,f映射个数定义d(i,j)为r(i)与t(j)之间的距离,则一个映射R和T的总开销D可以表示为D等于∑fk等于1d(ik,jk).(3)一个映射也可以描述为在一个2维网格上的一条路径,用参考模板序列r(i)作为横坐标i轴,测试模式序列t(j)作为纵坐标j轴,建立直角坐标系如图2所示.网格中的每个节点(i,j)―交叉点,表示r(i)与t(j)的映射.在这个2维网格中,每一条路径就是一个算式(3)的总开销D,其中最小开销的路径就是这2个序列的最佳匹配.

图2路径示意图为了寻找最佳路径,若寻找所有可能的路径,则计算量太大,基于Bellman原理的动态规划算法减少计算复杂度.Bellman原理指出,从节点(i0,j0)经过节点(i,j)到节点(if,jf)的最优路径是由节点(i0,j0)到节点(i,j)的最优路径与由节点(i,j)到终点(if,jf)的最优路径的串联.这样,如果给出了(i0,j0)到(i,j)的最佳路径,我们只需要寻找最佳(i,j)到(if,jf)的路径,而不是(i0,j0)到(if,jf)的路径.如果我们用Dmin(ikjk)表示到节点(ik,jk)的最小开销,则Dmin(ikjk)可以运用前面的节点表示如下,Dmin(ikjk)等于min(D(ik-1jk), D(ikjk-1),D(ik-1jk-1))+d((ik,jk).(4)当所有元素在时间上有序排列,前面的节点都在当前节点的左边和底部,如图3所示.最后,这2个序列的最小路径开销是Dmin(if,jf),测试序列在所有模板中寻找具有最小路径开销的模板序列作为匹配结果.

图3相邻节点示意图2.1全局路径限制

DTW虽然算法简洁,但运算量仍然很大[9],对DTW算法的全局路径限制可以减少算法的运算量,提高算法速度.

由于匹配过程中限定了路径的斜率,因此许多格点实际上是到达不了的,路径约束如图4所示.因此,菱形之外的格点对应的帧匹配距离是不需要计算的.另外,也没有必要保存所有的帧匹配距离矩阵和累积矩阵,因为每一列各格点上的匹配计算只用到了前一列的3个网格,如图3.充分利用这2个特点可以减少计算量和对储存空间的需要.

图4路径约束示意图如图4所示,把实际的动态路径分为3段:(1,Xa),(Xa+1,Xb)和(Xb+1,N),其中直线1和2的斜率为2,直线3和4的斜率为0.5,根据平行四边形的斜率可以得到Xa等于13(2M-N),Xb等于23(2N-M).为了可以进行动态规划,由此也得出对M和N长度的限制条件,2M-N≥3

2N-M≥2.(5)当不满足条件时,认为两者的差别实在太大,无法进行动态规划匹配.这样,i轴上的每一帧不再需要与j轴上的每一帧进行比较,而只是与j轴上[ymin,ymax ]间的帧进行比较,ymin和ymax的计算如式(6)(8)所示. ymin等于12x

ymax等于2x(x≤Xa),(6)

ymin等于12x

ymax等于12x+M-12N(Xa

ymin等于2x+M-12N

ymax等于12x+M-12N(x≥Xb).(8)也可能会出现Xa>Xb的情况,此时规划匹配的3段为(1,Xb),(Xb+1,Xa)和(Xa+1,N).

2.2加权距离

传统的DTW算法在计算特征之间的距离时对每个特征同等对待[10],然而,不是所有的骨骼点同等参与手势识别.比如,手势“右手向右移动”中的左手骨骼点的运动是无意义的,同等的计算其运动位移将增加噪声.因此,我们根据手势类中参与骨骼点的贡献度的不同引入加权距离.

在每一个具体手势分类中,每一个骨骼点的贡献度是不同的,为了推断一个骨骼点对一个手势类中的贡献度,通过计算它通过的位移Dgj,即Dgj等于∑Nn等于2Distj(fgn,fgn-1),(9)式(9)中:g为手势分类;j为骨骼点;n是骨骼帧数;Distj()为通过手势类g中2个连续的特征向量计算j的距离.

计算出所有的位移,为了防止加参数化的加权距离模型输出太高或者太低的权重,设定阈值Da和Db排列这些位移,即Dgj等于Da0≤Dgj

Dgj-T1T2-T1(Db-Da)+DaT1≤Dgj

Db其他.(10)用wgj表示骨骼点j在手势分类g中的权重,利用骨骼点的总位移,wgj可以表示为wgj等于1-e-βDgj∑k(1-e-βDgj).(11)骨骼点的权重可以根据不同的手势分类而改变,比如右手向右边移动这个手势,右手骨骼点有很大的权重,而左手骨骼点上的权重很小.从式(11)可以看出,式中只有一个参数β,通过选择β值最小化类里差异,同时最大化类间的差异.我们定义Dmn(β)作为手势类M和手势类N的所有采样的加权平均DTW代价,其通过给出的β来计算权重.然后这2个类之间的差异就是所有Dmn(β)的平均数:DB(β)等于∑m∑nDmn(β)n≠m.(12)类里的差异就是分类g(其他的也遵循)的所有样本序列的DTW的平均,表示为R(β)等于DBDw,(13)式(3)中:β是DTW开销计算中寻找加权距离的模型参数.当R有最大值时,获得的β和β*就是最佳的,如式(14)所示:β*等于arg maxR(β).(14)3实验结果分析

3.1光照、复杂背景环境下鲁棒性验证

为了验证该方法在光照、复杂背景方面的鲁棒性,分别在光照较强,光照较暗和背景有人的条件下进行了实验.以手势“双手向两边运动”为例,结果如图5-7.在这些环境下,都可以有效地获得正确的识别结果.

图5复杂背景图6光线较暗图7光线较强3.2实时性和正确性验证

本文定义了8个动态手势,每个手势对应一个手势类,选用了10名志愿者分别对每个手势正常做12次,一共采集960个手势样本,其中160个样本用来训练模板,800个用来测试.分别采用传统的DTW算法和改进的DTW算法对采集的动态手势数据与模板手势数据进行匹配,比较两者的处理时间和识别率.

本文以手势1“右手向右移动”和手势3“双手向两边移动”为例计算其平均处理时间(单位:ms),如图8所示.

图8耗时对比图从实验结果图8中可以看出,改进的DTW算法与传统的DTW算法相比,耗时减少25%~30%.

表1为每个手势经过100次测试后的平均识别率对比.

表1动态手势识别率表格

动态手势测试数传统的DTW改进的DTW正确

个数识别

率/%正确

个数识别率

/%右手向上移动10081819999左手向上移动10080809898右手向左移动10075759999左手向右移动1007878100100右手向右移动10079799797左手向左移动10075759898双手向两边移动10065659595双手向中间移动10063639393

从表1中可以看出,改进之后的DTW算法的识别率有了显著提高,这是因为改进的DTW算法引入了加权距离,使不同手势之间的差异最大化,有更好的识别能力. 4结束语

本文利用全局路径限制和加权距离对传统的DTW算法进行改进,通过采用改进的DTW算法对Kinect获取的深度信息进行模板训练和匹配,最后达到识别手部运动的目的.通过大量实验证明,该方法不仅在复杂背景和光照方面有很好的鲁棒性,而且识别速度和识别率得到了提高.该方法把手部运动当作一个点的运动,没有手形的信息,今后的工作将结合Kinect的普通摄像头加入手形的变化,增强其实用性.

这篇手势论文范文属于论文模板免费优秀学术论文范文,手势类有关毕业论文开题报告,与一种基于改进DTW算法的动态手势识别方法相关学术论文格式模板。适合手势及算法及骨骼方面的的大学硕士和本科毕业论文以及手势相关开题报告范文和职称论文写作参考文献资料下载。

nition system using subunits[C]// Proceeding of the International Gesture Workshop. Heidelberg, Berlin, Germany: Springer, 2001: 6475.

[4]ZHANG Shilin, ZHANG Bo. Using HMM to sign languager video retrieval[C]//Proc. of the 2ed Intermational Conference on Computational Interligence and Natural Coputing.Wuhan:[s.n.],2010:5559.

[5]SILANON K,SUVONVORN N. Hand motion analysis for Thai alphabet recognition using HMM[J].Intemational Jourmal of Information and Electronics Engineering,2011,1(1):6571.

[6]LEYVAND T, MEEKHOF C, WEI Y C, etal. Kinect identity: technology and experience[J].Computer, 2011, 44(4): 9496.

[7]IKEMURA S,FUJIYOSHI H.Realtime human detection using relational depth similarity similarity features[C]//Proc. of the 10th Asian Coference on Computer Vison.Queenstown, New Zealand:[s.n.],2011:2538.

[8]EYES R M, DOMINGUEZ G ,ESCALERA. Feature weighting in dynamic time warping for gesture recognition in depth data[C]//In Computer Vision Workshops(ICCV workshops).[S.l.]:IEEE Press ,2011 :11821188.

[9]ABID H , HARUNUR R. User independent hand gesture recognition by accelerated DTW[C]//Informatics Electronics & Vision(ICIEV), 2012 International Conference.Yantai, China:2012:10331037.

[10]OKADA S, HASEGAWA O. Motion recognition based on dynamictime warping method with selfanizing incremental neural work[C]//Pattern Recognition ICPR 2008 19th International Conference.Florida, USA:[s.n.],2008:14.

相关论文

改进我国本科应用型人才培养的方法

本论文为高等教育方面本科生发表论文,关于改进我国本科应用型人才培养的方法相关在职毕业论文开题报告,可用于高等教育论文写作研究的大学。

高校系级教学动态管理的方法

本文是一篇教学管理论文范文,关于教学管理相关专科毕业论文开题报告,关于高校系级教学动态管理的方法相关研究生毕业论文开题报告范文。适合。

遗传算法中保持种群多样性方法

本论文是一篇种群方面有关论文英语摘要翻译,关于遗传算法中保持种群多样性方法相关毕业论文格式模板范文。免费优秀的关于种群及多样性及算。