本论文为关于互联网类硕士论文摘要,关于网页指纹查重技术的相关毕业论文参考文献格式,可用于互联网论文写作研究的大学硕士与本科毕业论文开题报告范文和优秀学术职称论文参考文献资料下载。免费教你怎么写互联网及信息技术及网页方面论文范文。
摘 要 : 网页查重技术是浏览获取有用信息的关键技术,传统的查重方法中,选取关 键 词 在网页中出现的频率来判断网页是否重复,如果关 键 词 相近,可能造成查重误判的情况.本文提出网页本身特有的指纹技术,设计新的查重算法,通过与网页特征库中的指纹比较,完成网页的查重工作,提高查重的准确率.
Abstract: Webpage fingerprint checking is a key technology to scan and get useful information. The traditional method of webpage duplicate detection selects the frequency of occurrence of key words as the standard to verify whether it’s duplicate, the similar key words may mislead the duplicate detection. This paper proposed the unique webpage fingerprint technology, designed new detection algorithm. Comparing with webpage feature of fingerprint, the paper pletes the webpage repeat-checking work and improves the accuracy of duplicate detection.
关 键 词 : 网页指纹;网页查重;位置向量
Key words: webpage fingerprint;webpage duplicate detection;position vector
中图分类号:TP393.0 文献标识码:A 文章编号:1006-4311(2014)15-0225-02
0 引言
当今世界处于互联网信息时代,网络和信息技术得到飞速提升,互联网上的信息呈现几何级爆炸式的增长,给用户带来了大量有用信息,也带出了一些问题.用户浏览不同网站目的是查找需要的信息,实际情况是大量信息在各网页间