本文是一篇互联网论文范文,互联网类毕业论文范文,关于网页指纹查重技术的相关开题报告范文。适合互联网及信息技术及网页方面的的大学硕士和本科毕业论文以及互联网相关开题报告范文和职称论文写作参考文献资料下载。
摘 要:网页查重技术是浏览获取有用信息的关键技术,传统的查重方法中,选取关 键 词在网页中出现的频率来判断网页是否重复,如果关 键 词相近,可能造成查重误判的情况.本文提出网页本身特有的指纹技术,设计新的查重算法,通过与网页特征库中的指纹比较,完成网页的查重工作,提高查重的准确率.
Abstract:Webpagefingerprintcheckingisakeytechnologytoscanandgetusefulinformation.Thetraditionalmethodofwebpageduplicatedetectionselectsthefrequencyofoccurrenceofkeywordsasthestandardtoverifywhetherit’sduplicate,thesimilarkeywordaymisleadtheduplicatedetection.Thispaperproposedtheuniquewebpagefingerprinttechnology,designednewdetectionalgorithm.Comparingwithwebpagefeatureoffingerprint,thepaperpletesthewebpagerepeat-checkingworkandimprovestheaccuracyofduplicatedetection.
关 键 词:网页指纹;网页查重;位置向量
Keywords:webpagefingerprint;webpageduplicatedetection;positionvector
中图分类号:TP393.0文献标识码:A文章编号:1006-4311(2014)15-0225-02
0引言
当今世界处于互联网信息时代,网络和信息技术得到飞速提升,互联网上的信息呈现几何级爆炸式的增长,给用户带来了大量有用信息,也带出了一些问题.用户浏览不同网站目的是查找需要的信息,实际情况是大量信息在各网页间