本文是一篇图书馆论文范文,关于图书馆硕士论文开题报告,关于混合数据聚类的网络入侵检测算法相关专升本毕业论文范文。适合图书馆及计算机及应用及助理工程师方面的的大学硕士和本科毕业论文以及图书馆相关开题报告范文和职称论文写作参考文献资料下载。
摘 要:在聚类分析中,距离及差异性(或相似性)度量方法是最基础的概念,度量方法的选择直接影响聚类结果的质量.本文在已有聚类算法的基础上,将混合数据的相异度矩阵与K-means算法相结合,提出了一种切实有效,具有较强通用性、稳定性的方法,对于入侵检测具有重大的现实意义.
关 键 词:聚类算法;入侵检测;相异度;遗传算法
中图分类号:TP393.08
1混合数据的相异度的基本原理
1.1KDDcup99数据集.该数据集首先在与KDD99同时举办的第三届国际知识发现和数据挖掘工具竞赛上使用,它包含了在军事网络环境中仿真的各种入侵数据.大多数的算法试验采用这一数据集,但往往都只对原始数据集进行简单的处理,以满足实验算法的需要,并没有考虑到原始数据集的特点,甚至破坏了原始数据集的特性.因此得出的实验结果并不能真正的反映问题,而且现实应用具有一定的局限性.
1.2特征提取与主成分分析.对于实验所用的KDD99数据集,维数较高,数据量很大,聚类时需要耗费大量的时间,使得聚类变的难以实现.因此我们需要对其进行特征提取,使原有庞大的数据集改变的简单短小,并且可以保留原有数据的完整性,在这样抽样的数据上进行数据处理,效率变的更高.
1.3K-Means算法原理.原始k-means算法的处理的过程为:要随机地选择若干k个对象,其中每个对象原始地代表了一个簇的平均值或中心.对其他剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近簇.然后重新进行计算每个簇的平均值.此过程不断重复,一直到准则函数收敛.
2基于相异度矩阵的K-means算法