改进的FCM算法在医学中的应用-turnitin查重

该文是护理专业算法论文范文，主要论述了算法方面自考毕业论文开题报告,与改进的FCM算法在医学中的应用相关论文范文集，适合算法及计算机工程及样本方面的的大学硕士和本科毕业论文以及算法相关开题报告范文和职称论文写作参考文献资料下载。

摘要：为解决传统的模糊C-均值（FCM）算法容易陷入局部最优解的问题,该文提出了一种基于平滑技术改进的FCM算法,考虑到处于不同位置的样本点对分类的影响程度不同及聚类个数对聚类结果有很大影响,新算法结合了点密度及最佳聚类数确定方法,最后用有效性评价函数评估算法的有效性.实验证明,新方法聚类效果更好.以帕金森疾病为例对新方法在医学中的应用进行了探讨.

关键词：模糊C-均值算法；平滑技术；点密度；聚类数；有效性评价函数

中图分类号：TP301文献标识码：A文章编号：1009-3044(2012)03-0668-05

Application of an Improved FCM Algorithm in Medical Science

XU Li-jia, TANG De-yu

(College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510000, China)

Abstract：In order to solve the problem that the traditional c-means (FCM) algorithm is liable to be trapped in a local optimum, an im proved effective FCM algorithm based on search space oothing is proposed. Considering the sample points in different positions he dif ferent effects on classification and cluster number has a great influence on the clustering results, so the new algorithm bines the dot den sity and the determining the optimal number of clusters method, finally use the validity evaluation function to evaluate the validity of the al gorithm. Experiment result demonstrates that the new method makes the clustering effect better. In this paper, it takes the parkinson’s dis ease as an example to discuss the new method of application in medicine.

Key words: fuzzy C-means algorithm, search space oothing, dot density, cluster number, validity evaluation function

随着数据挖掘技术的发展,聚类分析[1]被用作数据分析、数据理解和模式识别的有效工具,其中模糊C均值(Fuzzy C-Means,FCM)算法是最常用的聚类分析方法之一.但传统FCM算法以及其他的目标函数聚类算法本质上是一种局部搜索寻优技术,FCM算法是通过极小化目标函数来求得最优解,由于基于目标函数的聚类过程是寻找极值点的过程,而模糊聚类目标函数是非凸的,聚类目标函数存在大量的极值点,FCM算法又是迭代爬山,导致算法收敛局部极值点或鞍点而得不到全局最优解及有效的聚类结果.在聚类数比较大的情况下,这一缺点尤为明显,因此传统(FCM)聚类算法存在多方面问题没有解决[2].

该文首先对传统聚类FCM算法[2-3]进行了介绍,重点讨论了基于传统(FCM)聚类算法的改进.提出了一种基于平滑技术[4-5]改进的模糊C-均值聚类算法,通过设计一个平滑函数对数据处理,从而得到全局最优解.同时,考虑到样本在空间中,处于不同位置的样本点对分类的影响程度不同及许多聚类算法事先不知道聚类个数的缺点,所以把点密度[6-7]作为加权系数及确定最佳聚类个数的方法引人到FCM算法.为了获取一个定量的实验结果比较,引入有效性评价函数[8]来评价聚类效果的好坏.最后以帕金森疾病的诊断为例,对新方法是否改进了FCM算法进行了研究讨论.

1模糊c均值(Fuzzy C-Means,FCM)聚类算法

聚类算法FCM(Fuzzy C-Mean)[2-3]是由Dumm第一个提出的,并且由Bezdek将其发展和推广.FCM模糊聚类算法是一种迭代优化算法,可以描述为最小化指标函数.设有数据集X等于{x1,x2,等,xn},含有n个样本.聚类问题就是要将这n个样本划分到c个聚类子集中.数据集中的任意样本xj对第i个类别的隶属度为uij,其结果可以用一个c×n矩阵U等于[uij]∈[0,1]c×n来表示,该矩阵即为模糊聚类矩阵.uij还需满足如下条件：

FCM算法的目标函数如下：

其中：m∈[1,+∞)是一个加权系数,J(X,u,v)是误差平方和目标函数,uij为隶属度,dij等于vi-xj,1≤i≤c,1≤j≤n.

通过求得适当的模糊划分矩阵（隶属函数矩阵）U等于[uij]∈[0,1]c×n与聚类中心vi,使得目标函数J达到极小值,根据拉格朗日乘数法得uij、vi为：

当maxij{|uij(k+1)-uij(k)|}<ε时,这个循环停止,其中ε(0<ε<1)是循环的终止条件,而k是循环次数.这个过程收敛于Jm的一个局部最小值或鞍点.由此来确定FCM聚类算法的迭代过程：

①初始化U等于[uij]矩阵,U(0 ).

②利用公式（5）更新聚类中心V(k )等于[vi].

③利用公式（6）计算uij,更新U(k ),U(k+1).

④如果U(k+1)-U(k)<ε,算法结束,否则返回第2步.

2点密度加权模糊C均值算法

2.1点密度函数的加权系数的计算

对于给定的数据集,一般并不能确切地给出数据集的准确数据分布模型,这里选取一种点密度函数作为加权系数的计算方法[6-7].对于每个样本点xi,其点密度函数的表达式定义如下：

其中,dij表示两个样本点xi和xj间的欧氏距离；e为点密度的范围限定值,取min(dij )< e

2.2点密度加权模糊C均值算法实现

处于不同位置的样本点对分类的影响程度不同,这里把上述的点密度作为加权系数引人FCM算法.目标函数公式如下：

构造一个拉格朗日函数：

所得的聚类中心和隶属度分别如下：

3最佳聚类数的确定

因为许多聚类算法需要用户给定数据集的聚类数量,而在实际应用中这通常是事先不知道的,而聚类分析的目的是将数据集中对象聚集成类,使得同一类中的对象是相似的,不同类中的对象是不同的.所以,在此运用聚类间距离与聚类内距离之和作为度量值来确定聚类数.

首先,计算聚类间距离.第i个聚类的聚类中心为υi,c为聚类数,m为所有样本点的平均值：

其次,计算聚类内距离.数据集中的任意样本xk对第i个类别的隶属度为uik,xk为第k个样本点,n为样本点数：

最后,综合聚类间距离与聚类内距离之和,使目标函数值最小化：

F是综合反映了所有变量的类内紧密程度与类间分散程度的统计量,当F取最小值时,得到最佳聚类数.

4基于平滑技术的3SW-FCM算法

4.1搜索空间平滑技术

局部搜索仅仅搜索某个给定初始解的领域,大大降低了算法的搜索范围,提高了算法的执行速度.但是,大量的局部最优解严重地影响了局部搜索算法的执行,使得算法容易掉入这个“陷阱”,而忽略了全局最优解.搜索空间中局部最优解的个数越少,局部搜索算法就越有效.可以说,空间平滑是限制局部最优解“陷阱”的有效方法.

搜索空间平滑技术[4-5]的基本思想是平滑搜索空间,去掉大部分局部最优解,直观显示将问题解空间拉平,这就为搜索全局最优解提供了一个良好的搜索环境.搜索空间平滑程度改变的大小称为平滑力度,平滑力度越大,搜索空间被拉得越平滑.由于平滑操作改变了原问题的搜索空间,在平滑后的曲线上搜索得到的解的目标函数值与原问题相同解的目标函数值会有一个误差.平滑力度对搜索空间平滑技术的性能影响很大,为解决这个矛盾,设计一个个平滑搜索空间近似替代原来的搜索空间,这样局部最优解就不会影响到全局最优解的搜索了.

空间平滑仅改变搜索空间的度量特性而不触及它的结构,多次应用搜索空间平滑技术产生一组原始空间的近似程度不同的搜索空间.（如图1）.如果将平滑搜索空间的搜索解不断迭代传递,最终作为原始搜索空间的初始解,那么在原始搜索空间中将会很快找到原始空间的搜索结果.图1一组平滑的搜索空间

首先在平滑搜索空间n中执行局部搜索算法,求得该空间的局部最优解；然后重新构造原始搜索空间的平滑搜索空间n-1,将平滑搜索空间n的解作为平滑搜索空间n-1局部搜索算法的初始解引导算法执行.如此继续循环,直到求得原始空间的搜索结果才结束算法.

4.2平滑技术改进的3SW-FCM算法

通过改变样本集之间的距离,一步一步平滑搜索空间,使得局部最优解不会影响到全局最优解的搜索,从而解决FCM算法容易陷入局部最优的问题.首先,定义样本集中心: C等于

其中,C是样本集中心点,Sαi是尺度的比例因子,R等于max(||xi-C||),1>1.那么xαi→C ,这意味着所有的样本集数据样本点聚合到一个唯一的数据样本中心点.

5实验结果与分析

为了验证提出的算法的有效性,利用UCI机器学习数据库中的Parkinsons数据集作为测试样本集,所使用的实验资料是取自

图2算法流程图 Little于2007年所建立的帕金森疾病资料集.该资料集是针对31位46～85岁（平均年龄约为65.8岁,标准差为9.8）的病人（有23位是确定患有帕金森疾病）,由生物医学的仪器设备,花费约28年时间,针对每位病人进行约六次的发音测试,并纪录测试结果而得.资料集有195个记录样本,22个输入属性为连续性资料,一个类别标记属性status（或称为输出属性）,status的值有0与1两种,当status等于1时表示为确定病例.样本集可分为2个种类,这两类样本的个数分别为147、48.

部分属性说明如下：声学参数指标使用多维语音分析系统（MDVP）分析受试者发各单元音的基频（FO）、基频微扰值（Jitteter）、振幅微扰值（Shimmer）、相对平均微扰（RAP）、音高周期扰动商（PPQ）、平滑音高周期扰动商（sPPQ）、振幅微扰商（APQ）、平滑振幅微扰商（sAPQ）、谐噪比（HNR）等9项声学参数.

对数据集先进行点密度加权处理及确定出最佳聚类个数,再运行3SW-FCM算法,将结果与利用传统FCM算法得到的结果进行比较.实验平台如下：操作系统：Windows XP Service Pack3、CPU：Pentium(R) Dual-Core CPU T4500、主频2.30GHz、内存：1G、开发工具：MATLAB(V7.0.1),在这种开发平台上得到了本次实验结果.

表1聚类间距离和聚类内距离之和F与对应的聚类数c

最佳聚类数c的确定是基于目标函数值F取最小时所得,从表1可见当c等于2时,F值最小,所以可知对于Parkinsons数据集来说,最佳聚类数为2.

为了获取一个定量的实验结果比较,引入有效性评价函数[8],在聚类方法中,它们经常用来评价聚类效果的好坏.其中最具代

表性的是分割系数pcV和分割熵peV,他们分别定义如下：

当两个有效性评价函数达到最优值,即pcV达到最大值,peV达到最小值时,模糊聚类分割的效果最好.在本实验中,当pcV等于 0.6733,peV 等于 0.5118时,有较好的聚类效果,结果分析如下.表2是FCM算法与3SW-FCM算法7次实验结果目标函数值变化的对比：

表2 FCM算法与3SW-FCM算法实验结果目标函数值变化的对比

由表2可以看出,3SW-FCM算法有6次达到全局最优解,而FCM算法只有1次.也可以算出对于目标函数平均值,3SW-FCM算法要比FCM算法的结果小很多.

利用Matlab软件运行FCM算法与3SW-FCM算法,可以得到目标函数值变化图,图3与图4分别是某次实验的结果图.

图3某次运行FCM算法得到的目标函数值变化图图4某次运行3SW-FCM算法得到的目标函数值变化图

在准确率方面,也对两种算法做个对比,结果如表3.

表3 FCM算法与3SW-FCM算法比较

可见,对Parkinsons数据集,3SW-FCM算法的聚类准确率优于传统的FCM算法,能较好地改善了传统的FCM算法.

6结论

通过对传统FCM算法的研究,提出了结合点密度加权及最佳聚类数确定方法的基于平滑技术改进的FCM算法.实验结果表明,该方法很好地解决了FCM算法容易陷入局部最优的问题,得到了有效的聚类效果,它将对医学中的疾病诊断方面有很大的帮助.

聚类算法[J].计算机工程,2009,35(17):171.

[8]顾英杰,贾振红,覃锡忠,等.蛙跳结合模糊C-均值的图像分割算法[J].通信技术,2011,44(2):118-119.

改进的FCM算法在医学中的应用

相关论文

提升小波格式的SPIHT算法在医学图像压缩中的与应用

基于改进Apriori算法的肝癌手术治疗效果评价

无参考模糊图像质量评价改进算法

一种改进的turbo码译码算法

改进的粒子群算法的PID优化

基于MUSIC其改进算法的DOA估计

煤矿井下人员LARNDMARC定位算法改进的

改进的LANDMARC定位算法

一种基于改进DTW算法的动态手势识别方法

推荐栏目

热门阅读