基于主题词语义分词与距离的去重算法

时间:2024-01-30 点赞:48063 浏览:96467 作者原创标记本站原创

本文是一篇网页论文范文,网页类毕业论文范文,关于基于主题词语义分词与距离的去重算法相关在职研究生毕业论文范文。适合网页及图书馆及算法方面的的大学硕士和本科毕业论文以及网页相关开题报告范文和职称论文写作参考文献资料下载。

【摘 要】对主题网页去重技术进行了综述,结合已有算法的缺点,提出了一种基于主题词语义与距离的网页去重算法.该方法通过对用户输入的关 键 词进行语义标注后分词检索,计算分词子集在网页文本中的距离,来判断网页与主题的相关度以及网页之间的相似度.同时避开了网页文本向量空间维数大的不足,在一定程度上考虑到了网页的语义信息.


【关 键 词】网页去重语义分词与距离去重

目前大多数搜索引擎采用基于关 键 词的方法返回用户所需信息,这些信息的冗余度通常很高,很多不相关的信息没有进行有效的组织.因此人们迫切地希望拥有一种方法,能够自动的将与特定主题相关的信息分类汇总后,供用户查阅.主题搜索引擎的出现使得用户能够对特定主题相关信息的进行获取,然而在信息采集过程中如何对搜索回来的页面进行分类,在下一次信息采集的过程中让爬虫主动发现主题相关页面,并去除相关页面中的重复或近似重复的页面成为搜索引擎的研究热点之一.

1网页去重技术综述

搜索引擎的工作原理主要分为三个部分:网页抓取,网页处理,提供检索服务.网页去重是搜索引擎预处理技术的关键部分,主要是由于web上存在大量的重复信息,有统计信息表明,网页的重复率平均为4,即用户通过一个URL在互联网上看到一篇相似网页的同时,平均还有三个URL不同的网页给出的内容相同或近似相同.因此为了提高搜索引擎的工作效率,网页去重在整个搜索引擎的工作中是必不可少的.

国外对于网页去重的研究最初主要是针对大型文件系统的近似镜像文档检测算法上的研究,后来这些算法又被拓展应用到数字化图书馆项目以及搜索引擎系统中.美国Arizona大学的研究人员对于大型文件系统中的相似文件采用了计算文档的重叠程度的方法来进行实现.国内,网页去重重点还是对网页去重的算法进行研究.大连理工大学韩冰主要研究了大规模的网页文本去重和科技论文抄袭检测.江苏大学吕霞提出了一种基于关 键 词和特征码的网页去重K-CC算法,在分析国内外目前比较通用的几种去重技术的基础上,提出了一种基于关 键 词和特征码的网页去重K-CC算法.

2基于主题词语义分词与距离的网页去重算法的背景

传统的特征码实现的精确匹配完全可以与先进的检索系统联系起来,其去重效率比较高,是一种去重的好方法.但是该方法的缺点是:

(1)特征码所实现的是精确匹配,并不能有效的检测出

相关论文

近邻匹配算法实现中文分词

本文是一篇分词论文范文,分词有关毕业论文格式范文,关于近邻匹配算法实现中文分词相关硕士论文范文。适合分词及中文及算法方面的的大学硕士。

财务文档分词文档相关性

本文是一篇财务分析论文范文,财务分析有关本科毕业论文范文,关于财务文档分词文档相关性相关毕业论文格式模板范文。适合财务分析及分词及财。

手语文本自动分词的设计与实现

本文是一篇手语论文范文,手语类有关学士学位论文,关于手语文本自动分词的设计与实现相关毕业论文题目范文。适合手语及计算机及分词方面的的。

中文搜索引擎中的中文分词应用

本文是一篇计算机论文范文,计算机方面有关学年毕业论文,关于中文搜索引擎中的中文分词应用相关毕业论文题目范文。适合计算机及网络信息及分。

医药文献中文分词

本文是一篇数据库论文范文,数据库方面毕业论文范文,关于医药文献中文分词相关电大毕业论文范文。适合数据库及分词及字符串方面的的大学硕士。

面向中文全文索引的中文分词策略

本文是一篇分词论文范文,分词类函授毕业论文,关于面向中文全文索引的中文分词策略相关毕业论文提纲范文。适合分词及信息化及索引方面的的大。

股权分置改革后A+H股价差的实证

本文关于溢价及差异及股价方面的免费优秀学术论文范文,溢价相关论文范文例文,与股权分置改革后A+H股价差的实证相关硕士论文范文,对不知道。

语义基础和搭配文参考文献

为您写外语教学毕业论文和职称论文提供外语教学有关专升本毕业论文范文,与语义基础和搭配文参考文献相关论文范例,包括关于外语教学及大学学。